Gemini 2.5 Flash 출시

(developers.googleblog.com)

5P by GN⁺ 2025-04-18 | ★ favorite | 댓글 1개

Gemini 2.5 Flash는 Google AI Studio와 Vertex AI를 통해 제공되는 하이브리드 추론 모델로, 속도와 비용을 유지하면서 추론 능력을 크게 향상시킴
생각(on/off) 기능과 thinking_budget 설정을 통해 성능, 비용, 지연 시간을 세밀하게 조절 가능함
생각 예산을 설정하여 모델이 생성할 수 있는 최대 토큰 수를 세밀하게 조절할 수 있으며, 복잡한 작업에 대해 더 정확하고 포괄적인 답변을 제공함
낮은 비용 대비 높은 성능을 제공하는 Google의 가장 비용 효율적인 추론 모델이며, 다양한 사용 사례에 맞춰 유연한 조절이 가능함
현재 Google AI Studio, Vertex AI에서 미리보기 형태로 사용 가능, API에서도 설정 가능함

Gemini 2.5 Flash 미리보기 출시

Google은 Gemini 2.5 Flash를 Google AI Studio와 Vertex AI를 통해 미리보기(preview) 형태로 공개함
기존 2.0 Flash보다 추론 능력이 대폭 향상되었으며, 속도와 비용 효율성은 유지
최초의 완전한 하이브리드 추론 모델로, 개발자가 생각(thinking) 모드를 켜거나 끌 수 있음
thinking_budget 설정으로 품질, 비용, 응답 지연 시간 간의 균형을 조절 가능
생각 모드가 꺼져 있어도 2.0 Flash보다 향상된 성능을 유지함

Gemini 2.5 Flash의 추론 기능

Gemini 2.5 Flash는 답변을 바로 생성하지 않고, 생각을 먼저 진행하는 구조
복잡한 문제나 수학 문제, 연구 분석 질문 등에 대해 더 정확하고 포괄적인 답변 생성
LMArena의 Hard Prompts 벤치마크에서 2.5 Pro 다음으로 높은 성능을 보임
타 모델 대비 저렴한 가격과 작은 모델 크기로 비슷한 성능 제공

가장 비용 효율적인 추론 모델

Gemini 2.5 Flash는 가격 대비 성능이 가장 우수한 추론 모델로 평가됨
Google의 **품질 대비 비용 효율성 곡선(Pareto frontier)**에 새롭게 포함됨

생각 조절 기능: thinking_budget

다양한 활용 사례에 맞춰 품질, 비용, 지연 시간 간의 세밀한 조절 기능 제공
thinking_budget은 모델이 생각에 사용할 수 있는 최대 토큰 수를 의미함
- 예: budget을 높이면 품질이 향상되지만, 비용 및 지연 시간이 증가함
생각이 필요 없는 단순한 질문에는 낮은 budget을 자동 적용함
budget 범위는 0 ~ 24,576 토큰이며, AI Studio 및 Vertex AI에서 슬라이더나 API 파라미터로 조절 가능

생각 수준에 따른 예시 프롬프트

낮은 수준의 추론 필요

“Thank you” in Spanish
캐나다의 주(Province) 수 묻기

중간 수준의 추론 필요

두 개의 주사위를 굴려 7이 나올 확률 계산
일정을 기반으로 주중에 농구 5시간 가능한 시간표 작성

높은 수준의 추론 필요

보의 기계공학적 응력 계산 문제
엑셀 스타일 수식 평가 함수 작성 문제
- 의존성 해결, 연산자 우선순위, 순환 검출 필요

시작하기

Google AI Studio, Vertex AI, Gemini 앱에서 preview 버전 사용 가능
thinking_budget 파라미터 실험을 통해 복잡한 문제 해결 가능성 탐색

코드 예시:

from google import genai  

client = genai.Client(api_key="GEMINI_API_KEY")  

response = client.models.generate_content(  
  model="gemini-2.5-flash-preview-04-17",  
  contents="You roll two dice. What’s the probability they add up to 7?",  
  config=genai.types.GenerateContentConfig(  
    thinking_config=genai.types.ThinkingConfig(  
      thinking_budget=1024  
    )  
  )  
)  

print(response.text)

자세한 내용은 개발자 문서와 Gemini Cookbook에 있음
앞으로 더 많은 기능이 추가될 예정이며, 정식 출시 전까지 지속적인 개선 예정

GeekNews Weekly에 포함된 글입니다. 에디터 코멘트 보기

GN⁺ 2025-04-18 [-]

Hacker News 의견

Google이 Gemini 2.5 Pro(실험적)를 무료로 제공하는 것은 큰 사건이었음. 나는 OpenAI의 더 비싼 모델을 사용해본 적이 없어서 비교할 수는 없지만, 과거에 사용했던 무료 모델과 비교했을 때 Gemini 2.5 Pro는 상당한 발전을 보여줌. 이 모델은 내가 다루는 대부분의 주제에서 나보다 더 똑똑하며, 나에게 동의하려고 애쓰지 않고 나와 논쟁을 벌임. 이제 나의 모든 캐주얼한 AI 사용은 Gemini에 집중되어 있으며, 깊이 있는 주제에 대해 질문하는 것이 기대됨. 나는 이 모델의 가치를 높이기 위해 새로운 도구를 만들고 있음
Gemini 모델의 종종 간과되는 기능 중 하나는 API를 통해 직접 Python 코드를 작성하고 실행할 수 있다는 점임. 나의 llm-gemini 플러그인은 이를 지원함: GitHub 링크. 코드를 실행하는 데 추가 비용이 들지 않으며, 입력 및 출력 토큰에 대해서만 비용을 지불함. 예를 들어, 10개의 입력과 1,531개의 출력을 사용하여 0.536센트의 비용이 들었음
Gemini flash 모델은 가장 주목받지 못하지만, 실제 사용에서는 비용 대비 성능이 가장 뛰어나며 멀티모달 도구를 제공함. Google은 조용히 AI 경쟁에서 승리하고 있음
Gemini 2.5 Flash의 문서를 깊이 탐구할 때 숨겨진 정보: 이미지 입력에 대해 모델은 관련 주제의 2D 경계 상자를 생성할 수 있을 뿐만 아니라 세분화 마스크도 생성할 수 있음. 이 가격대에서 Flash 모델로 세분화 마스크를 생성하는 것은 꽤 멋짐. 세분화 마스크는 마스크를 나타내는 b64 문자열을 생성하여 구현됨
프로그래머가 아닌 나에게 Google은 놀라울 정도로 훌륭해지고 있음. 처음부터 작동하는 코드를 제공함. 웹사이트의 데이터를 스크랩하여 분석하는 코드를 작성해달라고 요청했을 때, 데이터를 스크랩하고 분석하는 코드를 작성했음. 기본적인 데이터 분류 및 집계였지만 기대하지 않았음
Google의 더 많은 혁신. OpenAI는 두 가지 주요 문제가 있음. 첫째, Google의 수직 통합된 칩 파이프라인과 AI 칩을 생산하는 데 필요한 깊은 공급망 및 운영 지식. 이는 모든 단계에서 엄청난 비용 우위를 제공함. 둘째, 데이터 부족과 소셜 미디어가 지속적으로 갱신되는 지식의 원천으로서 가지는 불공정한 이점. 새로운 데이터가 점점 더 가치 있는 차별화 요소가 되고 있음. SamA는 이러한 문제를 인식하고 있으며, OpenAI가 성공할지 여부를 결정하는 데 근본적인 문제로 보고 있음
Gemini 2.0 Flash에서 50% 가격 인상. 이는 많은 것처럼 들리지만, Flash는 여전히 이 품질의 다른 모델과 비교했을 때 매우 저렴함
Python API 라이브러리 코드에서 흥미로운 점 발견: GitHub 링크. thinking_budget는 문서화되어 있지만, include_thoughts는 무엇인지 이해하기 어려움. 이 옵션을 사용하여 Gemini가 생각 요약을 반환하도록 하는 방법을 찾지 못했음
Google이 API와 무료 AI Studio를 통해 인상적인 모델을 제공하면서도 Gemini 앱에서 사용되는 모델은 훨씬 나빠 보임. 최근 몇 주 동안 Workspace 계정에서 Gemini Advanced를 사용해왔는데, 모델이 더 짧은 시간 동안 생각하고 더 짧은 출력을 제공하며, 컨텍스트 윈도우도 광고된 100만 토큰과는 거리가 멀어 보임. Google이 의도적으로 Gemini 앱을 제한하고 있는 것 같음
내부 PDF(3페이지, 중간 난이도)를 json 벤치마크로 실행했을 때:
- gemini-flash-2.0: 약 60% 정확도, 6,250 페이지당 1달러
- gemini-2.5-flash-preview (생각 없음): 약 80% 정확도, 1,700 페이지당 1달러
- gemini-2.5-flash-preview (생각 있음): 약 80% 정확도, 350 페이지당 1달러
- gemini-flash-2.5: 약 90% 정확도, 150 페이지당 1달러
- 생각 변형을 일반 변형과 분리했으면 좋겠음. 모델 매개변수가 가격에 큰 영향을 미칠 때 매우 혼란스러움

답변달기

Gemini 2.5 Flash 출시

Gemini 2.5 Flash 미리보기 출시

Gemini 2.5 Flash의 추론 기능

가장 비용 효율적인 추론 모델

생각 조절 기능: thinking_budget

생각 수준에 따른 예시 프롬프트

낮은 수준의 추론 필요

중간 수준의 추론 필요

높은 수준의 추론 필요

시작하기

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견