Hacker News 의견
  • 긴 문맥 길이(130k 토큰)를 주의해야 함. 충분한 문맥 없이 긴 CoT를 생성하는 것은 무의미함

    • 첫 번째 프롬프트가 너무 길어서 작업을 잊어버림
    • 사용자가 특정 작업을 제공하지 않았음
    • 초기 지침은 AI 에이전트로 행동하라는 것임
    • 사용자가 문제를 주고 단계별로 추론하라는 것 같음
  • 수학 학습과 코딩이 일반적인 추론 능력을 향상시킴

  • Deep Seek보다 20배 작음. 어떤 하드웨어에서 실행 가능한지 궁금함

    • 512GB M3 Ultra가 필요 없을 것 같음
    • Deepseek과 맞먹지만 20배 작음
  • 중국의 전략은 오픈 소스 소프트웨어와 로봇 공학에서 수익을 창출하는 것임

    • 미국은 어떻게 힘을 유지할 것인지 궁금함
    • 인도는 이 경쟁에 참여하지 못하고 있음
  • Qwen2.5-plus를 테스트하기 위해 링크를 제공함

  • 2024년 11월에 "프리뷰"로 출시되었음

    • "기다려"라는 표현을 많이 사용함
    • 많은 추론 토큰을 생성한 후 플롯을 잃어버리는 문제 발생
  • Deepseek-R1 바로 아래에 위치함

    • 32B로 매우 인상적임
    • 생각하는 토큰이 최종 답변보다 10배 크기도 함
    • 주말에 함수 호출로 테스트할 예정임
  • 개인 경험에서 역방향으로 읽고 질문에 답변하는 테스트를 함

    • "ip fo eulav si tahw"를 역방향으로 읽으면 "what is value of pi"가 됨
    • π의 값은 약 3.14159임
    • π는 무리수로, 끝없이 반복되지 않음
  • 즉시 처리했으며 긍정적인 경험이었음