GN⁺ 2025-04-15 | parent | ★ favorite | on: OpenAI, GPT 4.1 공개 (openai.com)
Hacker News 의견
  • ChatGPT 사용자는 다양한 모델을 선택해야 하는 상황에 대해 혼란스러움을 표현함

    • 4o는 웹 검색, Canvas 사용, Python 서버 측 평가, 이미지 생성 가능하지만 사고의 연쇄가 없음
    • o3-mini는 웹 검색, CoT, Canvas 가능하지만 이미지 생성 불가
    • o1은 CoT 가능하지만 Canvas나 웹 검색, 이미지 생성 불가
    • Deep Research는 강력하지만 월 10회만 사용 가능하여 거의 사용하지 않음
    • 4.5는 창의적 글쓰기에서 우수하지만 요청 제한이 있고 다른 기능 지원 여부를 모름
    • 4o "with scheduled tasks"는 왜 도구가 아닌 모델인지 의문
  • SWE-bench Verified, Aider Polyglot, 비용, 초당 출력 토큰, 지식 컷오프 월/년 비교

    • Claude, Gemini, GPT-4.1, DeepSeek R1, Grok 3 Beta의 성능 및 비용 비교
    • 서로 다른 테스트 환경과 사고 수준이 포함될 수 있어 직접 비교가 어려움
  • OAI가 GPT 4.1을 위한 프롬프트 가이드를 발행함

    • 모델에 지속성을 부여하는 것이 성능 향상에 도움
    • JSON 대신 XML 또는 arxiv 2406.13121(GDM 형식) 사용 권장
    • 프롬프트는 상단과 하단에 배치해야 함
  • OpenAI의 발표에 따르면, GPT-4.1이 Claude Sonnet 3.7과의 코드 리뷰 생성 대결에서 55%의 경우 더 나은 제안을 제공함

    • GPT-4.1은 정밀성과 포괄성에서 우수함
  • 최근 Ted Talk에서 Sam이 모델은 오고 가지만 최고의 플랫폼이 되고 싶다고 발언함

    • 이는 큰 변화로 느껴짐
  • GPT-4.1을 복잡한 코드 베이스에서 사용한 경험 공유

    • OpenAI의 첫 번째 에이전트 모델로 느껴짐
    • 여전히 개선이 필요하며, 도구 호출이 자주 실패함
    • Claude에 비해 복잡성을 다루는 능력이 떨어짐
    • 요청이 너무 복잡하지 않으면 요청에 충실함
  • 긴 최대 토큰 모델의 성능에 대한 벤치마크 필요성 제기

    • Gemini 모델에서 200k 이후 품질 저하 경험
    • 최대 토큰 한도를 늘리는 것이 실제로 유용한지 의문
  • 대형 AI 연구소들이 여러 시장 전쟁을 동시에 치르고 있음

    • 소비자 성장, 엔터프라이즈 워크로드, 최첨단 연구, 추론 약속 및 DeepSeek 위협에 대한 대응 등 다양한 전선에서 경쟁 중
  • GPT-4.1이 164개의 댓글이 달린 Hacker News 스레드를 요약한 결과

    • 명령을 잘 따르는 것으로 평가됨
    • 총 토큰 비용과 다른 모델과의 비교 제공