▲GN⁺ 2025-04-15 | parent | ★ favorite | on: OpenAI, GPT 4.1 공개 (openai.com)Hacker News 의견 ChatGPT 사용자는 다양한 모델을 선택해야 하는 상황에 대해 혼란스러움을 표현함 4o는 웹 검색, Canvas 사용, Python 서버 측 평가, 이미지 생성 가능하지만 사고의 연쇄가 없음 o3-mini는 웹 검색, CoT, Canvas 가능하지만 이미지 생성 불가 o1은 CoT 가능하지만 Canvas나 웹 검색, 이미지 생성 불가 Deep Research는 강력하지만 월 10회만 사용 가능하여 거의 사용하지 않음 4.5는 창의적 글쓰기에서 우수하지만 요청 제한이 있고 다른 기능 지원 여부를 모름 4o "with scheduled tasks"는 왜 도구가 아닌 모델인지 의문 SWE-bench Verified, Aider Polyglot, 비용, 초당 출력 토큰, 지식 컷오프 월/년 비교 Claude, Gemini, GPT-4.1, DeepSeek R1, Grok 3 Beta의 성능 및 비용 비교 서로 다른 테스트 환경과 사고 수준이 포함될 수 있어 직접 비교가 어려움 OAI가 GPT 4.1을 위한 프롬프트 가이드를 발행함 모델에 지속성을 부여하는 것이 성능 향상에 도움 JSON 대신 XML 또는 arxiv 2406.13121(GDM 형식) 사용 권장 프롬프트는 상단과 하단에 배치해야 함 OpenAI의 발표에 따르면, GPT-4.1이 Claude Sonnet 3.7과의 코드 리뷰 생성 대결에서 55%의 경우 더 나은 제안을 제공함 GPT-4.1은 정밀성과 포괄성에서 우수함 최근 Ted Talk에서 Sam이 모델은 오고 가지만 최고의 플랫폼이 되고 싶다고 발언함 이는 큰 변화로 느껴짐 GPT-4.1을 복잡한 코드 베이스에서 사용한 경험 공유 OpenAI의 첫 번째 에이전트 모델로 느껴짐 여전히 개선이 필요하며, 도구 호출이 자주 실패함 Claude에 비해 복잡성을 다루는 능력이 떨어짐 요청이 너무 복잡하지 않으면 요청에 충실함 긴 최대 토큰 모델의 성능에 대한 벤치마크 필요성 제기 Gemini 모델에서 200k 이후 품질 저하 경험 최대 토큰 한도를 늘리는 것이 실제로 유용한지 의문 대형 AI 연구소들이 여러 시장 전쟁을 동시에 치르고 있음 소비자 성장, 엔터프라이즈 워크로드, 최첨단 연구, 추론 약속 및 DeepSeek 위협에 대한 대응 등 다양한 전선에서 경쟁 중 GPT-4.1이 164개의 댓글이 달린 Hacker News 스레드를 요약한 결과 명령을 잘 따르는 것으로 평가됨 총 토큰 비용과 다른 모델과의 비교 제공
Hacker News 의견
ChatGPT 사용자는 다양한 모델을 선택해야 하는 상황에 대해 혼란스러움을 표현함
SWE-bench Verified, Aider Polyglot, 비용, 초당 출력 토큰, 지식 컷오프 월/년 비교
OAI가 GPT 4.1을 위한 프롬프트 가이드를 발행함
OpenAI의 발표에 따르면, GPT-4.1이 Claude Sonnet 3.7과의 코드 리뷰 생성 대결에서 55%의 경우 더 나은 제안을 제공함
최근 Ted Talk에서 Sam이 모델은 오고 가지만 최고의 플랫폼이 되고 싶다고 발언함
GPT-4.1을 복잡한 코드 베이스에서 사용한 경험 공유
긴 최대 토큰 모델의 성능에 대한 벤치마크 필요성 제기
대형 AI 연구소들이 여러 시장 전쟁을 동시에 치르고 있음
GPT-4.1이 164개의 댓글이 달린 Hacker News 스레드를 요약한 결과