Gemini 2.5 Pro 와 Claude 3.7 Sonnet의 코딩 비교
(composio.dev)- Gemini 2.5 Pro가 코드 작성에서 더 뛰어남
- Claude 3.7 Sonnet도 훌륭하지만, 지금은 Gemini 2.5 Pro를 사용하는 것이 더 이득임
- 1백만 토큰 컨텍스트 윈도우와 무료 이용 가능함이 큰 장점
- 과거엔 Claude 3.7 Sonnet이 항상 비교 기준이었지만, 이제는 바뀜
Gemini 2.5 Pro 간단 소개
- Google이 2025년 3월 26일 출시한 실험적 사고 모델
- 출시 후 Twitter(X), YouTube 등에서 매우 큰 반향을 일으킴
- LMArena에서 1위 기록, 코드 작성, 수학, 과학, 이미지 이해 등에서 매우 우수한 성능 보임
- 1백만 토큰 컨텍스트 윈도우 제공, 향후 2백만 토큰도 예고됨
- SWE Bench 기준 정확도 63.8% 로 Claude 3.7 Sonnet의 62.3% 보다 높음
- Google이 제공한 공룡 게임 데모 등 다양한 예시로 뛰어난 성능을 입증함
- 전반적으로 코딩뿐만 아니라 모든 지능적 작업에 적합한 전천후 모델로 평가됨
코딩 테스트 비교
1. 플라이트 시뮬레이터 만들기
-
Gemini 2.5 Pro
- 완벽하게 작동하는 시뮬레이터 생성
- 비행기 조종, 마인크래프트 스타일 도시 생성 등 모든 요구 조건 충족
- 완성도 10/10
-
Claude 3.7 Sonnet
- 비행기가 옆으로 날고 도시 밖으로 벗어나는 문제 발생
- 기능적 완성도가 낮음
- 요약: Gemini 2.5 Pro가 완전한 승리
2. 루빅스 큐브 시각화 및 풀이
-
Gemini 2.5 Pro
- 한 번에 정확한 시각화 및 풀이 구현
- Three.js 사용, 큐브 색상, 랜덤 섞기, 애니메이션 등 완벽 구현
-
Claude 3.7 Sonnet
- 색상 표시 실패 및 풀이 실패
- 다른 LLM들과 유사한 한계
- 요약: Gemini 2.5 Pro가 이 항목도 압도적 우세
3. 4차원 테서랙트 안에서 튕기는 공 시각화
-
Gemini 2.5 Pro
- 물리 충돌, 면 강조 등 요구사항 모두 충족
- 코드 품질과 작동 상태 매우 우수
-
Claude 3.7 Sonnet
- 기능은 작동하나 불필요한 색상 추가
- 그래도 요구 기능은 충족함
- 요약: 두 모델 모두 요구사항 충족, Claude도 드디어 성공
4. LeetCode 문제: 3개의 룩 배치로 최대 합 구하기
-
Gemini 2.5 Pro
- 복잡한 코드 작성이지만 정확한 풀이
- 시간 복잡도도 적절하게 고려함
-
Claude 3.7 Sonnet
- 간결한 코드 작성하지만 시간 초과(TLE) 발생
- 이해는 쉬우나 성능 면에서는 부족함
- 요약: Gemini 2.5 Pro가 성능과 정확도 모두에서 앞섬
결론
-
Gemini 2.5 Pro가 명확한 우위
- 컨텍스트 윈도우, 정확도, 멀티태스킹 성능에서 Claude 3.7 Sonnet을 앞섬
- Claude도 여전히 훌륭한 모델이지만, 현재로서는 Gemini를 사용하는 것이 더 효율적임
- 향후 2백만 토큰 윈도우까지 확장되면 성능은 더욱 향상될 것임
- Google의 최근 Gemma 3 27B 경량 모델과 함께 강력한 AI 라인업을 형성함
Hacker News 의견
-
실제 코딩 문제에 대해 현금 상금 대회를 열고 싶음. 규칙을 정해야 함. LLM이 이 문제를 해결할 수 있을지 의문임
- Solvespace의 GTK 4 버전을 만드는 것임
- 각 플랫폼에 대해 단일 C++ 파일이 존재함
- GTK3 파일을 GTK4로 재작성하는 것이 목표임
- AI의 성능을 증명하고 싶다면, 전체 세션을 문서화하고 YouTube 비디오로 만들기를 권장함
- 최종 테스트는 PR을 수락할지 여부임
-
Gemini 모델은 대화 중단 시점을 알려주는 유일한 모델임
- ChatGPT는 문맥이 가득 차면 대화를 잊어버리는 경향이 있음
- Gemini는 도구가 부족하지만, 기본적으로 더 나은 모델처럼 느껴짐
-
Gemini 2.5 Pro를 사용했으며, 꽤 괜찮다고 생각함
- Claude 3.5가 명령을 따르는 데 더 나은 것 같음
- Cursor와 Claude CLI 도구에 실망함
- Gemini의 문맥 창 표시 방식이 좋음
- 시장이 대형 AI 회사의 평가를 견딜 수 없다고 생각함
- 무료 모델이 더 나은 경우도 있음
-
AI 모델 경쟁에서 패자는 Microsoft로 보임
- ChatGPT가 유일한 선택이었을 때 Microsoft는 리더로 여겨졌음
- Copilot은 실패작이며, Bing은 AI를 활용하지 못했음
- Google의 Sundar Pichai는 Microsoft의 모델과 비교하고 싶다고 언급함
-
Gemini 2.5 Pro는 aider polyglot 코딩 리더보드에서 높은 점수를 기록함
- aider의 최신 릴리스 작업에 주로 사용됨
- 현재 Gemini의 가장 큰 문제는 엄격한 속도 제한임
-
루빅스 큐브 예제에서 Gemini 2.5는 암기된 스크램블링 시퀀스를 사용함
- 스크램블 시퀀스를 역순으로 변환하여 큐브를 해결함
-
90년대 Visual Basic을 사용했을 때 템플릿에서 새 프로젝트를 만드는 것이 흥미로웠음
- AI 코딩은 그와 유사하지만 과장된 느낌임
- Claude의 비행기가 옆으로 있는 것에 대해 혼란스러웠다는 언급이 있음
-
Gemini 2.5는 복잡한 Cython 코드에서 별로임
- Claude와 o3는 명령을 잘 따름
- Gemini는 관련 없는 변경을 시도함
-
편향되지 않은 토론이 필요한지에 대한 질문이 있음
- OP 링크는 Composio에 대한 편향된 광고로 보임
- Gemini 2.5 Pro에 대한 과장된 설명이 있음
-
모든 테스트 작업은 그린필드 프로젝트임
- LLM을 사용하려면 기존 프로젝트에서 변경이나 수정을 해야 함
- 테스트가 모델의 유용성을 측정하는 데 의미가 없다고 생각함