# Gemini 2.5 Pro 와 Claude 3.7 Sonnet의 코딩 비교

> Clean Markdown view of GeekNews topic #20074. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=20074](https://news.hada.io/topic?id=20074)
- GeekNews Markdown: [https://news.hada.io/topic/20074.md](https://news.hada.io/topic/20074.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-04-01T10:53:26+09:00
- Updated: 2025-04-01T10:53:26+09:00
- Original source: [composio.dev](https://composio.dev/blog/gemini-2-5-pro-vs-claude-3-7-sonnet-coding-comparison/)
- Points: 9
- Comments: 1

## Summary

Gemini 2.5 Pro는 코드 작성, 수학, 과학 등 다양한 분야에서 Claude 3.7 Sonnet보다 뛰어난 성능을 보이며, 특히 1백만 토큰 컨텍스트 윈도우와 무료 이용 가능함이 큰 장점으로 작용합니다. 코딩 테스트에서 Gemini 2.5 Pro는 플라이트 시뮬레이터, 루빅스 큐브 시각화, 4차원 테서랙트 시각화, LeetCode 문제 풀이 등에서 Claude 3.7 Sonnet보다 우수한 결과를 보여주었습니다. 결론적으로, Gemini 2.5 Pro는 컨텍스트 윈도우, 정확도, 멀티태스킹 성능에서 Claude 3.7 Sonnet을 앞서며, 향후 2백만 토큰 윈도우 확장으로 더욱 향상될 것으로 기대됩니다.

## Topic Body

- **Gemini 2.5 Pro**가 코드 작성에서 더 뛰어남  
- Claude 3.7 Sonnet도 훌륭하지만, 지금은 Gemini 2.5 Pro를 사용하는 것이 더 이득임  
- **1백만 토큰 컨텍스트 윈도우**와 무료 이용 가능함이 큰 장점  
- 과거엔 Claude 3.7 Sonnet이 항상 비교 기준이었지만, 이제는 바뀜  
  
### Gemini 2.5 Pro 간단 소개  
- Google이 2025년 3월 26일 출시한 실험적 사고 모델  
- 출시 후 Twitter(X), YouTube 등에서 매우 큰 반향을 일으킴  
- **LMArena에서 1위** 기록, 코드 작성, 수학, 과학, 이미지 이해 등에서 매우 우수한 성능 보임  
- **1백만 토큰 컨텍스트 윈도우** 제공, 향후 **2백만 토큰**도 예고됨  
- SWE Bench 기준 정확도 **63.8%** 로 Claude 3.7 Sonnet의 **62.3%** 보다 높음  
- Google이 제공한 공룡 게임 데모 등 다양한 예시로 뛰어난 성능을 입증함  
- 전반적으로 **코딩뿐만 아니라 모든 지능적 작업에 적합한 전천후 모델**로 평가됨  
  
### 코딩 테스트 비교  
#### 1. 플라이트 시뮬레이터 만들기  
- **Gemini 2.5 Pro**  
  - 완벽하게 작동하는 시뮬레이터 생성  
  - 비행기 조종, 마인크래프트 스타일 도시 생성 등 모든 요구 조건 충족  
  - 완성도 10/10  
- **Claude 3.7 Sonnet**  
  - 비행기가 옆으로 날고 도시 밖으로 벗어나는 문제 발생  
  - 기능적 완성도가 낮음  
- **요약**: Gemini 2.5 Pro가 완전한 승리  
  
#### 2. 루빅스 큐브 시각화 및 풀이  
- **Gemini 2.5 Pro**  
  - 한 번에 정확한 시각화 및 풀이 구현  
  - Three.js 사용, 큐브 색상, 랜덤 섞기, 애니메이션 등 완벽 구현  
- **Claude 3.7 Sonnet**  
  - 색상 표시 실패 및 풀이 실패  
  - 다른 LLM들과 유사한 한계  
- **요약**: Gemini 2.5 Pro가 이 항목도 압도적 우세  
  
#### 3. 4차원 테서랙트 안에서 튕기는 공 시각화  
- **Gemini 2.5 Pro**  
  - 물리 충돌, 면 강조 등 요구사항 모두 충족  
  - 코드 품질과 작동 상태 매우 우수  
- **Claude 3.7 Sonnet**  
  - 기능은 작동하나 불필요한 색상 추가  
  - 그래도 요구 기능은 충족함  
- **요약**: 두 모델 모두 요구사항 충족, Claude도 드디어 성공  
  
#### 4. LeetCode 문제: 3개의 룩 배치로 최대 합 구하기  
- **Gemini 2.5 Pro**  
  - 복잡한 코드 작성이지만 정확한 풀이  
  - 시간 복잡도도 적절하게 고려함  
- **Claude 3.7 Sonnet**  
  - 간결한 코드 작성하지만 **시간 초과(TLE)** 발생  
  - 이해는 쉬우나 성능 면에서는 부족함  
- **요약**: Gemini 2.5 Pro가 성능과 정확도 모두에서 앞섬  
  
### 결론  
- **Gemini 2.5 Pro가 명확한 우위**  
  - 컨텍스트 윈도우, 정확도, 멀티태스킹 성능에서 Claude 3.7 Sonnet을 앞섬  
- Claude도 여전히 훌륭한 모델이지만, 현재로서는 Gemini를 사용하는 것이 더 효율적임  
- 향후 **2백만 토큰 윈도우**까지 확장되면 성능은 더욱 향상될 것임  
- Google의 최근 Gemma 3 27B 경량 모델과 함께 강력한 AI 라인업을 형성함

## Comments


### Comment 36592

- Author: neo
- Created: 2025-04-01T10:53:26+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=43534029) 
* 실제 코딩 문제에 대해 현금 상금 대회를 열고 싶음. 규칙을 정해야 함. LLM이 이 문제를 해결할 수 있을지 의문임
  - Solvespace의 GTK 4 버전을 만드는 것임
  - 각 플랫폼에 대해 단일 C++ 파일이 존재함
  - GTK3 파일을 GTK4로 재작성하는 것이 목표임
  - AI의 성능을 증명하고 싶다면, 전체 세션을 문서화하고 YouTube 비디오로 만들기를 권장함
  - 최종 테스트는 PR을 수락할지 여부임

* Gemini 모델은 대화 중단 시점을 알려주는 유일한 모델임
  - ChatGPT는 문맥이 가득 차면 대화를 잊어버리는 경향이 있음
  - Gemini는 도구가 부족하지만, 기본적으로 더 나은 모델처럼 느껴짐

* Gemini 2.5 Pro를 사용했으며, 꽤 괜찮다고 생각함
  - Claude 3.5가 명령을 따르는 데 더 나은 것 같음
  - Cursor와 Claude CLI 도구에 실망함
  - Gemini의 문맥 창 표시 방식이 좋음
  - 시장이 대형 AI 회사의 평가를 견딜 수 없다고 생각함
  - 무료 모델이 더 나은 경우도 있음

* AI 모델 경쟁에서 패자는 Microsoft로 보임
  - ChatGPT가 유일한 선택이었을 때 Microsoft는 리더로 여겨졌음
  - Copilot은 실패작이며, Bing은 AI를 활용하지 못했음
  - Google의 Sundar Pichai는 Microsoft의 모델과 비교하고 싶다고 언급함

* Gemini 2.5 Pro는 aider polyglot 코딩 리더보드에서 높은 점수를 기록함
  - aider의 최신 릴리스 작업에 주로 사용됨
  - 현재 Gemini의 가장 큰 문제는 엄격한 속도 제한임

* 루빅스 큐브 예제에서 Gemini 2.5는 암기된 스크램블링 시퀀스를 사용함
  - 스크램블 시퀀스를 역순으로 변환하여 큐브를 해결함

* 90년대 Visual Basic을 사용했을 때 템플릿에서 새 프로젝트를 만드는 것이 흥미로웠음
  - AI 코딩은 그와 유사하지만 과장된 느낌임
  - Claude의 비행기가 옆으로 있는 것에 대해 혼란스러웠다는 언급이 있음

* Gemini 2.5는 복잡한 Cython 코드에서 별로임
  - Claude와 o3는 명령을 잘 따름
  - Gemini는 관련 없는 변경을 시도함

* 편향되지 않은 토론이 필요한지에 대한 질문이 있음
  - OP 링크는 Composio에 대한 편향된 광고로 보임
  - Gemini 2.5 Pro에 대한 과장된 설명이 있음

* 모든 테스트 작업은 그린필드 프로젝트임
  - LLM을 사용하려면 기존 프로젝트에서 변경이나 수정을 해야 함
  - 테스트가 모델의 유용성을 측정하는 데 의미가 없다고 생각함