5P by GN⁺ 2일전 | ★ favorite | 댓글 1개
  • Gemini 2.5 Flash는 Google AI Studio와 Vertex AI를 통해 제공되는 하이브리드 추론 모델로, 속도와 비용을 유지하면서 추론 능력을 크게 향상시킴
  • 생각(on/off) 기능thinking_budget 설정을 통해 성능, 비용, 지연 시간을 세밀하게 조절 가능함
  • 생각 예산을 설정하여 모델이 생성할 수 있는 최대 토큰 수를 세밀하게 조절할 수 있으며, 복잡한 작업에 대해 더 정확하고 포괄적인 답변을 제공함
  • 낮은 비용 대비 높은 성능을 제공하는 Google의 가장 비용 효율적인 추론 모델이며, 다양한 사용 사례에 맞춰 유연한 조절이 가능함
  • 현재 Google AI Studio, Vertex AI에서 미리보기 형태로 사용 가능, API에서도 설정 가능함

Gemini 2.5 Flash 미리보기 출시

  • Google은 Gemini 2.5 Flash를 Google AI Studio와 Vertex AI를 통해 미리보기(preview) 형태로 공개함
  • 기존 2.0 Flash보다 추론 능력이 대폭 향상되었으며, 속도와 비용 효율성은 유지
  • 최초의 완전한 하이브리드 추론 모델로, 개발자가 생각(thinking) 모드를 켜거나 끌 수 있음
  • thinking_budget 설정으로 품질, 비용, 응답 지연 시간 간의 균형을 조절 가능
  • 생각 모드가 꺼져 있어도 2.0 Flash보다 향상된 성능을 유지함

Gemini 2.5 Flash의 추론 기능

  • Gemini 2.5 Flash는 답변을 바로 생성하지 않고, 생각을 먼저 진행하는 구조
  • 복잡한 문제나 수학 문제, 연구 분석 질문 등에 대해 더 정확하고 포괄적인 답변 생성
  • LMArena의 Hard Prompts 벤치마크에서 2.5 Pro 다음으로 높은 성능을 보임
  • 타 모델 대비 저렴한 가격작은 모델 크기로 비슷한 성능 제공

가장 비용 효율적인 추론 모델

  • Gemini 2.5 Flash는 가격 대비 성능이 가장 우수한 추론 모델로 평가됨
  • Google의 **품질 대비 비용 효율성 곡선(Pareto frontier)**에 새롭게 포함됨

생각 조절 기능: thinking_budget

  • 다양한 활용 사례에 맞춰 품질, 비용, 지연 시간 간의 세밀한 조절 기능 제공
  • thinking_budget은 모델이 생각에 사용할 수 있는 최대 토큰 수를 의미함
    • 예: budget을 높이면 품질이 향상되지만, 비용 및 지연 시간이 증가함
  • 생각이 필요 없는 단순한 질문에는 낮은 budget을 자동 적용함
  • budget 범위는 0 ~ 24,576 토큰이며, AI Studio 및 Vertex AI에서 슬라이더나 API 파라미터로 조절 가능

생각 수준에 따른 예시 프롬프트

낮은 수준의 추론 필요

  • “Thank you” in Spanish
  • 캐나다의 주(Province) 수 묻기

중간 수준의 추론 필요

  • 두 개의 주사위를 굴려 7이 나올 확률 계산
  • 일정을 기반으로 주중에 농구 5시간 가능한 시간표 작성

높은 수준의 추론 필요

  • 보의 기계공학적 응력 계산 문제
  • 엑셀 스타일 수식 평가 함수 작성 문제
    • 의존성 해결, 연산자 우선순위, 순환 검출 필요

시작하기

  • Google AI Studio, Vertex AI, Gemini 앱에서 preview 버전 사용 가능
  • thinking_budget 파라미터 실험을 통해 복잡한 문제 해결 가능성 탐색
  • 코드 예시:
    from google import genai  
    
    client = genai.Client(api_key="GEMINI_API_KEY")  
    
    response = client.models.generate_content(  
      model="gemini-2.5-flash-preview-04-17",  
      contents="You roll two dice. What’s the probability they add up to 7?",  
      config=genai.types.GenerateContentConfig(  
        thinking_config=genai.types.ThinkingConfig(  
          thinking_budget=1024  
        )  
      )  
    )  
    
    print(response.text)  
    
  • 자세한 내용은 개발자 문서Gemini Cookbook에 있음
  • 앞으로 더 많은 기능이 추가될 예정이며, 정식 출시 전까지 지속적인 개선 예정
Hacker News 의견
  • Google이 Gemini 2.5 Pro(실험적)를 무료로 제공하는 것은 큰 사건이었음. 나는 OpenAI의 더 비싼 모델을 사용해본 적이 없어서 비교할 수는 없지만, 과거에 사용했던 무료 모델과 비교했을 때 Gemini 2.5 Pro는 상당한 발전을 보여줌. 이 모델은 내가 다루는 대부분의 주제에서 나보다 더 똑똑하며, 나에게 동의하려고 애쓰지 않고 나와 논쟁을 벌임. 이제 나의 모든 캐주얼한 AI 사용은 Gemini에 집중되어 있으며, 깊이 있는 주제에 대해 질문하는 것이 기대됨. 나는 이 모델의 가치를 높이기 위해 새로운 도구를 만들고 있음

  • Gemini 모델의 종종 간과되는 기능 중 하나는 API를 통해 직접 Python 코드를 작성하고 실행할 수 있다는 점임. 나의 llm-gemini 플러그인은 이를 지원함: GitHub 링크. 코드를 실행하는 데 추가 비용이 들지 않으며, 입력 및 출력 토큰에 대해서만 비용을 지불함. 예를 들어, 10개의 입력과 1,531개의 출력을 사용하여 0.536센트의 비용이 들었음

  • Gemini flash 모델은 가장 주목받지 못하지만, 실제 사용에서는 비용 대비 성능이 가장 뛰어나며 멀티모달 도구를 제공함. Google은 조용히 AI 경쟁에서 승리하고 있음

  • Gemini 2.5 Flash의 문서를 깊이 탐구할 때 숨겨진 정보: 이미지 입력에 대해 모델은 관련 주제의 2D 경계 상자를 생성할 수 있을 뿐만 아니라 세분화 마스크도 생성할 수 있음. 이 가격대에서 Flash 모델로 세분화 마스크를 생성하는 것은 꽤 멋짐. 세분화 마스크는 마스크를 나타내는 b64 문자열을 생성하여 구현됨

  • 프로그래머가 아닌 나에게 Google은 놀라울 정도로 훌륭해지고 있음. 처음부터 작동하는 코드를 제공함. 웹사이트의 데이터를 스크랩하여 분석하는 코드를 작성해달라고 요청했을 때, 데이터를 스크랩하고 분석하는 코드를 작성했음. 기본적인 데이터 분류 및 집계였지만 기대하지 않았음

  • Google의 더 많은 혁신. OpenAI는 두 가지 주요 문제가 있음. 첫째, Google의 수직 통합된 칩 파이프라인과 AI 칩을 생산하는 데 필요한 깊은 공급망 및 운영 지식. 이는 모든 단계에서 엄청난 비용 우위를 제공함. 둘째, 데이터 부족과 소셜 미디어가 지속적으로 갱신되는 지식의 원천으로서 가지는 불공정한 이점. 새로운 데이터가 점점 더 가치 있는 차별화 요소가 되고 있음. SamA는 이러한 문제를 인식하고 있으며, OpenAI가 성공할지 여부를 결정하는 데 근본적인 문제로 보고 있음

  • Gemini 2.0 Flash에서 50% 가격 인상. 이는 많은 것처럼 들리지만, Flash는 여전히 이 품질의 다른 모델과 비교했을 때 매우 저렴함

  • Python API 라이브러리 코드에서 흥미로운 점 발견: GitHub 링크. thinking_budget는 문서화되어 있지만, include_thoughts는 무엇인지 이해하기 어려움. 이 옵션을 사용하여 Gemini가 생각 요약을 반환하도록 하는 방법을 찾지 못했음

  • Google이 API와 무료 AI Studio를 통해 인상적인 모델을 제공하면서도 Gemini 앱에서 사용되는 모델은 훨씬 나빠 보임. 최근 몇 주 동안 Workspace 계정에서 Gemini Advanced를 사용해왔는데, 모델이 더 짧은 시간 동안 생각하고 더 짧은 출력을 제공하며, 컨텍스트 윈도우도 광고된 100만 토큰과는 거리가 멀어 보임. Google이 의도적으로 Gemini 앱을 제한하고 있는 것 같음

  • 내부 PDF(3페이지, 중간 난이도)를 json 벤치마크로 실행했을 때:

    • gemini-flash-2.0: 약 60% 정확도, 6,250 페이지당 1달러
    • gemini-2.5-flash-preview (생각 없음): 약 80% 정확도, 1,700 페이지당 1달러
    • gemini-2.5-flash-preview (생각 있음): 약 80% 정확도, 350 페이지당 1달러
    • gemini-flash-2.5: 약 90% 정확도, 150 페이지당 1달러
    • 생각 변형을 일반 변형과 분리했으면 좋겠음. 모델 매개변수가 가격에 큰 영향을 미칠 때 매우 혼란스러움