8P by GN⁺ 3일전 | ★ favorite | 댓글 1개
  • Gemini 2.5 Pro가 코드 작성에서 더 뛰어남
  • Claude 3.7 Sonnet도 훌륭하지만, 지금은 Gemini 2.5 Pro를 사용하는 것이 더 이득임
  • 1백만 토큰 컨텍스트 윈도우와 무료 이용 가능함이 큰 장점
  • 과거엔 Claude 3.7 Sonnet이 항상 비교 기준이었지만, 이제는 바뀜

Gemini 2.5 Pro 간단 소개

  • Google이 2025년 3월 26일 출시한 실험적 사고 모델
  • 출시 후 Twitter(X), YouTube 등에서 매우 큰 반향을 일으킴
  • LMArena에서 1위 기록, 코드 작성, 수학, 과학, 이미지 이해 등에서 매우 우수한 성능 보임
  • 1백만 토큰 컨텍스트 윈도우 제공, 향후 2백만 토큰도 예고됨
  • SWE Bench 기준 정확도 63.8% 로 Claude 3.7 Sonnet의 62.3% 보다 높음
  • Google이 제공한 공룡 게임 데모 등 다양한 예시로 뛰어난 성능을 입증함
  • 전반적으로 코딩뿐만 아니라 모든 지능적 작업에 적합한 전천후 모델로 평가됨

코딩 테스트 비교

1. 플라이트 시뮬레이터 만들기

  • Gemini 2.5 Pro
    • 완벽하게 작동하는 시뮬레이터 생성
    • 비행기 조종, 마인크래프트 스타일 도시 생성 등 모든 요구 조건 충족
    • 완성도 10/10
  • Claude 3.7 Sonnet
    • 비행기가 옆으로 날고 도시 밖으로 벗어나는 문제 발생
    • 기능적 완성도가 낮음
  • 요약: Gemini 2.5 Pro가 완전한 승리

2. 루빅스 큐브 시각화 및 풀이

  • Gemini 2.5 Pro
    • 한 번에 정확한 시각화 및 풀이 구현
    • Three.js 사용, 큐브 색상, 랜덤 섞기, 애니메이션 등 완벽 구현
  • Claude 3.7 Sonnet
    • 색상 표시 실패 및 풀이 실패
    • 다른 LLM들과 유사한 한계
  • 요약: Gemini 2.5 Pro가 이 항목도 압도적 우세

3. 4차원 테서랙트 안에서 튕기는 공 시각화

  • Gemini 2.5 Pro
    • 물리 충돌, 면 강조 등 요구사항 모두 충족
    • 코드 품질과 작동 상태 매우 우수
  • Claude 3.7 Sonnet
    • 기능은 작동하나 불필요한 색상 추가
    • 그래도 요구 기능은 충족함
  • 요약: 두 모델 모두 요구사항 충족, Claude도 드디어 성공

4. LeetCode 문제: 3개의 룩 배치로 최대 합 구하기

  • Gemini 2.5 Pro
    • 복잡한 코드 작성이지만 정확한 풀이
    • 시간 복잡도도 적절하게 고려함
  • Claude 3.7 Sonnet
    • 간결한 코드 작성하지만 시간 초과(TLE) 발생
    • 이해는 쉬우나 성능 면에서는 부족함
  • 요약: Gemini 2.5 Pro가 성능과 정확도 모두에서 앞섬

결론

  • Gemini 2.5 Pro가 명확한 우위
    • 컨텍스트 윈도우, 정확도, 멀티태스킹 성능에서 Claude 3.7 Sonnet을 앞섬
  • Claude도 여전히 훌륭한 모델이지만, 현재로서는 Gemini를 사용하는 것이 더 효율적임
  • 향후 2백만 토큰 윈도우까지 확장되면 성능은 더욱 향상될 것임
  • Google의 최근 Gemma 3 27B 경량 모델과 함께 강력한 AI 라인업을 형성함
Hacker News 의견
  • 실제 코딩 문제에 대해 현금 상금 대회를 열고 싶음. 규칙을 정해야 함. LLM이 이 문제를 해결할 수 있을지 의문임

    • Solvespace의 GTK 4 버전을 만드는 것임
    • 각 플랫폼에 대해 단일 C++ 파일이 존재함
    • GTK3 파일을 GTK4로 재작성하는 것이 목표임
    • AI의 성능을 증명하고 싶다면, 전체 세션을 문서화하고 YouTube 비디오로 만들기를 권장함
    • 최종 테스트는 PR을 수락할지 여부임
  • Gemini 모델은 대화 중단 시점을 알려주는 유일한 모델임

    • ChatGPT는 문맥이 가득 차면 대화를 잊어버리는 경향이 있음
    • Gemini는 도구가 부족하지만, 기본적으로 더 나은 모델처럼 느껴짐
  • Gemini 2.5 Pro를 사용했으며, 꽤 괜찮다고 생각함

    • Claude 3.5가 명령을 따르는 데 더 나은 것 같음
    • Cursor와 Claude CLI 도구에 실망함
    • Gemini의 문맥 창 표시 방식이 좋음
    • 시장이 대형 AI 회사의 평가를 견딜 수 없다고 생각함
    • 무료 모델이 더 나은 경우도 있음
  • AI 모델 경쟁에서 패자는 Microsoft로 보임

    • ChatGPT가 유일한 선택이었을 때 Microsoft는 리더로 여겨졌음
    • Copilot은 실패작이며, Bing은 AI를 활용하지 못했음
    • Google의 Sundar Pichai는 Microsoft의 모델과 비교하고 싶다고 언급함
  • Gemini 2.5 Pro는 aider polyglot 코딩 리더보드에서 높은 점수를 기록함

    • aider의 최신 릴리스 작업에 주로 사용됨
    • 현재 Gemini의 가장 큰 문제는 엄격한 속도 제한임
  • 루빅스 큐브 예제에서 Gemini 2.5는 암기된 스크램블링 시퀀스를 사용함

    • 스크램블 시퀀스를 역순으로 변환하여 큐브를 해결함
  • 90년대 Visual Basic을 사용했을 때 템플릿에서 새 프로젝트를 만드는 것이 흥미로웠음

    • AI 코딩은 그와 유사하지만 과장된 느낌임
    • Claude의 비행기가 옆으로 있는 것에 대해 혼란스러웠다는 언급이 있음
  • Gemini 2.5는 복잡한 Cython 코드에서 별로임

    • Claude와 o3는 명령을 잘 따름
    • Gemini는 관련 없는 변경을 시도함
  • 편향되지 않은 토론이 필요한지에 대한 질문이 있음

    • OP 링크는 Composio에 대한 편향된 광고로 보임
    • Gemini 2.5 Pro에 대한 과장된 설명이 있음
  • 모든 테스트 작업은 그린필드 프로젝트임

    • LLM을 사용하려면 기존 프로젝트에서 변경이나 수정을 해야 함
    • 테스트가 모델의 유용성을 측정하는 데 의미가 없다고 생각함