Claude 3.7 Sonnet과 Claude Code 출시

(anthropic.com)

1P by GN⁺ 2025-02-25 | ★ favorite | 댓글 2개

Anthropic은 Claude 3.7 Sonnet을 자사 최고 지능 모델이자 시장 최초의 하이브리드 추론 모델로 공개해, 즉시 응답과 사용자에게 보이는 단계별 사고를 한 모델에서 지원함
새 모델은 표준 모드와 extended thinking mode를 선택할 수 있고, API에서는 사고 예산을 출력 한도인 128K 토큰까지 N토큰 단위로 제어할 수 있음
코딩과 프런트엔드 웹 개발에서 개선 폭이 크며, 초기 고객 테스트에서는 복잡한 코드베이스 처리, 풀스택 업데이트, 에이전트 워크플로, 웹 앱 생성, 프로덕션 준비 코드 생성이 강점으로 확인됨
함께 공개된 Claude Code는 제한적 연구 프리뷰로 제공되는 명령줄 기반 에이전트 코딩 도구로, 코드 탐색·편집·테스트·GitHub 작업·명령줄 도구 사용을 맡길 수 있음
Claude 3.7 Sonnet은 Free·Pro·Team·Enterprise와 주요 개발 플랫폼에서 제공되며, 확장 사고 모드는 무료 Claude 티어를 제외하고 사용 가능하고 가격은 입력 100만 토큰당 $3, 출력 100만 토큰당 $15로 유지됨

Claude 3.7 Sonnet의 하이브리드 추론

Claude 3.7 Sonnet은 Anthropic이 공개한 자사 최고 지능 모델로, 즉시 응답과 확장된 단계별 사고를 모두 생성할 수 있음
확장 사고 과정은 사용자에게 보이며, API 사용자는 모델이 얼마나 오래 생각할지 세밀하게 제어할 수 있음
Anthropic은 추론을 별도 모델이 아니라 프런티어 모델의 통합 기능으로 다루는 방식을 택함
- 표준 모드에서는 Claude 3.5 Sonnet의 업그레이드 버전처럼 동작함
- extended thinking mode에서는 답변 전 자기 성찰을 수행해 수학, 물리, 지시 이행, 코딩 등 여러 작업 성능을 높임
- 두 모드의 프롬프팅 방식은 대체로 비슷하게 동작함
API에서는 사고 예산을 N토큰으로 지정할 수 있으며, N은 출력 한도인 128K 토큰까지 설정 가능함
- 이 제어는 속도와 비용을 답변 품질과 맞바꾸는 방식으로 활용됨

실제 업무 중심의 코딩 성능

Claude 3.7 Sonnet은 코딩과 프런트엔드 웹 개발에서 특히 큰 개선을 보임
Anthropic은 수학·컴퓨터과학 경시 문제 최적화 비중을 일부 낮추고, 기업이 실제로 LLM을 사용하는 작업에 더 초점을 맞췄다고 밝힘
초기 테스트에서는 여러 고객사가 코딩 성능을 평가함
- Cursor는 복잡한 코드베이스 처리부터 고급 도구 사용까지 실제 코딩 작업에서 Claude가 다시 최고 수준이라고 평가함
- Cognition은 코드 변경 계획과 풀스택 업데이트 처리에서 다른 모델보다 훨씬 낫다고 평가함
- Vercel은 복잡한 에이전트 워크플로에서 높은 정밀도를 강조함
- Replit은 다른 모델이 멈추는 상황에서 Claude로 정교한 웹 앱과 대시보드를 처음부터 구축했다고 밝힘
- Canva 평가에서는 Claude가 더 나은 디자인 감각으로 프로덕션 준비 코드를 일관되게 생성하고 오류를 크게 줄임

Claude Code 제한적 연구 프리뷰

Claude Code는 Anthropic의 첫 에이전트 코딩 도구이며, 제한적 연구 프리뷰로 제공됨
개발자는 터미널에서 Claude에 상당한 엔지니어링 작업을 위임할 수 있음
Claude Code는 개발자를 과정에 계속 참여시키면서 다음 작업을 수행함
- 코드 검색과 읽기
- 파일 편집
- 테스트 작성과 실행
- GitHub에 코드 커밋과 푸시
- 명령줄 도구 사용
Anthropic 내부에서는 테스트 주도 개발, 복잡한 문제 디버깅, 대규모 리팩터링에 특히 유용하게 쓰이고 있음
초기 테스트에서 Claude Code는 보통 수작업으로 45분 이상 걸리는 작업을 한 번에 완료해 개발 시간과 오버헤드를 줄임
향후 몇 주 동안 도구 호출 안정성 개선, 장시간 실행 명령 지원, 앱 내 렌더링 개선, Claude 자신의 기능 이해 확장이 계획돼 있음
프리뷰 참여를 통해 Anthropic이 Claude를 만들고 개선하는 데 쓰는 도구에 접근할 수 있으며, 피드백은 Claude Code의 향후 방향에 반영됨

Claude.ai와 GitHub 코드베이스 연동

Claude.ai의 코딩 경험도 개선됐고, GitHub 통합이 모든 Claude 플랜에서 제공됨
개발자는 코드 저장소를 Claude에 직접 연결할 수 있음
Claude 3.7 Sonnet은 Anthropic의 현재 최고 코딩 모델이며, 개인·업무·오픈소스 프로젝트를 더 깊이 이해해 버그 수정, 기능 개발, 문서 작성에 활용될 수 있음

제공 범위와 가격

Claude 3.7 Sonnet은 모든 Claude 플랜에서 제공됨
- Free
- Pro
- Team
- Enterprise
Claude 3.7 Sonnet은 Claude Developer Platform, Amazon Bedrock, Google Cloud Vertex AI에서도 제공됨
extended thinking mode는 무료 Claude 티어를 제외한 모든 제공 환경에서 사용 가능함
표준 모드와 확장 사고 모드 모두 이전 모델과 같은 가격임
- 입력 100만 토큰당 $3
- 출력 100만 토큰당 $15
- 출력 가격에는 사고 토큰이 포함됨

안전성 평가와 시스템 카드

Claude 3.7 Sonnet은 외부 전문가와 함께 광범위한 테스트와 평가를 거쳤으며, 보안·안전·신뢰성 기준 충족을 목표로 검증됨
유해 요청과 정상 요청을 더 세밀하게 구분해 이전 모델 대비 불필요한 거절을 45% 줄임 {p:45}
system card는 여러 범주의 새 안전성 결과와 Responsible Scaling Policy 평가 세부 내용을 포함함
시스템 카드는 컴퓨터 사용에서 생기는 새로운 위험, 특히 프롬프트 인젝션 공격을 다룸
- Anthropic은 해당 취약점을 평가하고 Claude가 저항·완화하도록 훈련하는 방식을 포함함
추론 모델의 잠재적 안전성 이점도 함께 다룸
- 모델이 어떻게 결정을 내리는지 이해할 가능성
- 모델 추론이 실제로 신뢰 가능하고 안정적인지 여부

평가 스캐폴딩과 SWE-bench 세부 사항

TAU-bench 점수는 Airline Agent Policy에 planning tool 사용을 더 잘 지시하는 프롬프트 부가문을 넣어 얻음
- 일반 thinking mode와는 별개로, 모델이 문제 해결 중 생각을 적도록 유도함
- 추가 사고 단계 때문에 최대 단계 수를 30에서 100으로 늘림
- 대부분의 궤적은 30단계 미만에서 끝났고, 50단계를 넘은 궤적은 하나뿐임
- Claude 3.5 Sonnet의 TAU-bench 점수는 데이터셋 개선 이후 업데이트된 데이터셋에서 다시 실행한 값임
SWE-bench Verified에서는 다양한 에이전트 작업 해결 방식이 존재하며, Agentless는 파일 검색, 패치 위치 찾기, 회귀 테스트 기반 best-of-40 거절 샘플링을 사용함
Claude 3.7 Sonnet과 Claude 3.5 Sonnet의 기본 평가는 더 단순한 최소 스캐폴딩을 사용함
- 모델이 단일 세션에서 어떤 명령을 실행하고 어떤 파일을 편집할지 결정함
- bash 도구, 문자열 치환 기반 파일 편집 도구, TAU-bench에서 언급한 planning tool을 사용함
내부 인프라 제약으로 SWE-bench Verified 500개 중 489개만 실제로 해결 가능했고, 나머지 11개는 공식 리더보드와의 형평성을 위해 실패로 계산함
high compute 결과에서는 병렬 시도, 보이는 회귀 테스트를 깨는 패치 폐기, 점수 모델 기반 최종 선택을 사용함
- 이 방식은 내부 인프라에서 동작한 489개 검증 작업 하위집합에서 70.3% 점수를 냄
- 같은 489개 하위집합에서 스캐폴딩 없이 Claude 3.7 Sonnet은 63.7% 를 달성함

GN⁺ 2025-02-25 [-]

Hacker News 의견들

Claude 3.7 Sonnet이 aider 다국어 순위표에서 thinking 없이 60.4% 를 기록함
o3-mini-high와 공동 3위이고, Sonnet 3.5가 갖고 있던 최고 비추론 점수를 가져왔음
aider 0.75.0에는 3.7 Sonnet 지원이 추가됐고, thinking 지원 및 벤치마크 결과는 곧 나온다고 함
https://aider.chat/docs/leaderboards/
https://aider.chat/HISTORY.html#aider-v0750
- Exercism의 225개 코딩 과제라면 테스트셋 데이터 누수를 줄이려는 노력이 있었는지 궁금함
  이 과제들이 2023년 이전부터 인터넷에 있었던 것 같아서, 현대 모델 학습 데이터에 들어갔을 가능성이 높아 보임
- thinking 토큰을 최대 32k까지 쓰면 Sonnet 3.7이 64.9% 로 최고 기록을 세움
  65% Sonnet 3.7, 32k thinking / 64% R1+Sonnet 3.5 / 62% o1 high / 60% Sonnet 3.7, thinking 없음 / 60% o3-mini high / 57% R1 / 52% Sonnet 3.5
- Claude 3.5에서 99.6%였던 올바른 diff 형식 점수가 Claude 3.7에서는 93.3%로 내려간 게 흥미로움
  claude-code를 써본 바로는 올바른 diff를 얻기까지 여러 번 시도해야 하는 일이 꾸준히 있었고, 안정화되면서 나아지길 바람
- aider 프로젝트를 1년쯤 따라오며 소프트웨어 엔지니어링 에이전트를 어떻게 만드는지 이해하려고 해왔음
  지난주 뉴욕 AI Engineering Summit에서 아주 시니어한 스태프 AI 엔지니어를 만났는데, aider로 꽤 믿기 어려운 일을 하고 있었고 정말 놀라웠음
  공개 포럼에 올리기엔 부적절할 수도 있어서, 허락을 받는다면 이런 실제 aider 프로젝트 이야기를 직접 공유할 방법이 있는지 궁금함
Claude Code 팀의 Boris이고, @eschluntz, @catherinewu, @wolffiex, @bdr와 함께 앞으로 한 시간 정도 제품 관련 질문에 최대한 답하겠음
- 꼭 고쳐졌으면 하는 게 있음. 프롬프트를 입력하면 모델이 답변의 90%나 100%를 만들어놓고는, 시스템이 용량 초과라 답변을 만들 수 없다는 오류를 띄우며 이미 나온 응답까지 지워버림
  불완전하더라도 이미 제공된 응답에는 접근할 수 있게 해줬으면 함
- 가장 큰 불만은 UI에서 조금만 강한 질의를 몇 번 해도 계속 사용량 제한에 걸린다는 것임
  콘솔 API를 쓸 수는 있지만 그러면 Projects 같은 기능을 잃게 됨
  이런 제한이 조만간 늘어날 가능성이 있는지 궁금함
- Claude는 모든 일에 쓰는 기본 LLM이고, 진부하게 들리겠지만 실제로 합리적으로 배울 수 있는 범위를 몇 배로 넓혀주고 있음
  요즘은 관련 배경지식 없이 오래된 철학 텍스트를 읽고 있는데, Claude가 난해한 문장을 쉽게 풀어주고, 아이디어를 토론해주고, 역사적 맥락과 왜 그런 방식으로 쓰였는지, 새로운 사상과의 비교까지 도와주지 않았다면 여러 번 포기했을 것임
  업무에서도 개발에 매일 여러 번 쓰고 있고, 간결 모드는 다른 LLM에 비해 정말 신선함
  낯선 코드베이스에서 버그를 찾고, 기술 스택을 설명하고, bash 스크립트를 작성해줘서 수십 시간과 많은 스트레스를 아껴줌
  다만 서비스 안정성이 다른 곳보다 조금 떨어져 가끔 다른 모델로 갈아타야 하는데, 이 부분을 개선할 계획이 있는지 궁금함
- 6년간 손대지 않은 오래된 클래스 기반 React 컴포넌트 코드를 아주 지저분하게 리팩터링하는 중이었고, 며칠간 Aider를 쓰다가 벽에 부딪혔음
  GitHub에서 Aider 소스코드를 뒤져 프롬프트를 빼내고 직접 작은 도우미 스크립트를 만들려던 참이라 이번 릴리스 타이밍이 완벽했음
  Claude Code를 설치해보니 이 작업을 빠르게 처리하고 있고, 인터페이스와 “Ruminating”, “Schlepping” 같은 성격 표현도 마음에 듦
  전반적으로 훌륭한 작업임
- 명령줄 도구를 막 써보기 시작했는데, 5분 써본 첫인상으로는 aider에서 좋았던 질의별 비용과 세션 총비용 표시가 claude-code에도 있으면 좋겠음
  Claude 3.5와 함께 aider를 일상적으로 써왔고, 비용을 자연스럽게 추적할 수 있다는 점이 유용했음
  또한 Go나 Rust처럼 컴파일 가능한 언어로 되어 있으면 좋겠지만, 재작성 비용이 클 수 있다는 건 이해함
  10분쯤 써보니 기본적인 Go 코드 패치에 큰 문제가 있어 보임. 잘못된 들여쓰기 라인을 추가한 뒤 올바른 들여쓰기로 세 번 수정하려 했지만 매번 "String to replace not found in file"이 났음
  Claude 3.5를 쓰는 Aider는 이걸 매우 잘 처리하니, 프롬프트와 패치 형식을 참고해보면 좋을 듯함
Kagi LLM 벤치마크가 Sonnet 3.7의 범용 모드와 thinking 모드를 반영해 업데이트됨
https://help.kagi.com/kagi/ai/llm-benchmark.html
시험해본 범용 LLM 중에서는 Gemini 2.0 Pro 다음, gpt-4o보다 앞선 2위 수준으로 보임
thinking 모드는 덜 인상적이고, 8192 토큰 thinking 예산 기준으로 o1-mini와 o3-mini 정도 수준임
전반적으로 같은 가격에 더 높은 품질과 더 빠른 모델을 얻는 좋은 업데이트이며, 24시간 안에 Kagi Assistant에서 켤 수 있길 바람
- 새 LLM을 이렇게 빠르게 Assistant에서 쓸 수 있게 해주는 Kagi 팀에 감사함
  Kagi Assistant의 가치는 개인적으로 고민할 필요가 없을 정도임
- 이제 Gemini 2.0이 1위라는 게 놀라움
  Google 모델들은 Kagi 벤치마크에서 성능이 낮았던 것으로 기억함
- 8192 토큰 thinking 예산은 어떻게 고른 건지 궁금함
  DeepSeek R1은 그보다 훨씬 많이 쓰는 걸 자주 봤음
- Kagi Assistant에 벌써 보이고, 24시간도 안 지났음. 좋음
- 이해가 안 되는 점은 thinking 모델이 아닌 Claude 3.5 Haiku가 비thinking 섹션에 있으면서 thinking 예산 8192라고 표시된다는 것임
이걸로 HN 프로필을 분석해보면 꽤 웃김 :)
https://hn-wrapped.kadoa.com/
새 모델의 유머 감각을 테스트하는 데 쓰고 있음
- “Carnatic raga 탐지기”를 만들기보다 그 얘기를 더 많이 했고, 이 속도라면 탐지기가 라가를 식별하기 전에 LLM이 라가를 작곡하겠다는 식으로 제대로 당했음
  7950X 프로세서를 샀지만 뭘 할지 모르고, 마치 장 보러 일주일에 한 번 페라리를 모는 컴퓨팅판이라고도 했음
  일과 삶의 균형을 걱정해 안식년을 냈지만, 그 기간을 HN에서 남의 커리어에 댓글 다는 데 썼다고 함
  찾는 사람 있으면 방에서 울고 있겠음
- “네 연봉은 너무 낮아서 레거시 코드도 불쌍해한다”
  “HN에서 월 800달러를 클라우드 컴퓨팅 청구서가 아니라 연봉이라고 생각하는 유일한 사람이다”
  아픔
- 완전히 털렸음: “Go의 오류 처리가 나쁘다고 설명하는 데 쓴 시간이 Go 개발자들이 실제로 오류 처리에 쓴 시간보다 많다”
  “프로그래밍 언어와의 관계가 데이팅 쇼 같다. 모두에게서 결점을 찾지만 하나에 정착하지 못한다”
  “오류 처리가 종교라면 넌 가장 열성적인 선교사이고, unchecked 예외를 하나씩 개종시키고 있다”
- “Reddit에서 일했던 사람치고 HN에 시간을 너무 많이 쓴다. Facebook을 떠나 하루 종일 Twitter에서 소셜미디어를 불평하는 것 같다”
  너무 정확해서 아픔
- “HN 댓글 스레드에 소설을 쓰면서 디지털 산만함을 불평한다. 드라이브스루 줄에서 기다리며 패스트푸드를 비판하는 것과 같다”
  “‘디지털 미니멀리즘’에 대한 사려 깊은 에세이를 써서 HN 프런트에 올리고, 아이러니하게도 올해 내내 HN에 쓴 시간보다 그 댓글 답변에 더 많은 시간을 쓰게 될 것이다”
  나를 보고 있음. 안 돼
Claude 3.7 Sonnet과의 첫 상호작용부터 꽤 인상적이었음
Cloudflare Pages 함수가 프로덕션에서 500과 말도 안 되는 오류, 빈 응답을 반환하는 코드베이스 문제를 찾아달라고 했는데, 금요일 내내 못 찾던 문제였음
스크립트가 아무것도 출력하기 전에 죽어서 로깅을 더 넣거나 가시성을 확보할 방법이 없어 정말 짜증났음
o1, o3, Claude 3.5는 전혀 도움이 안 됐지만, Claude 3.7은 39초 thinking 뒤 첫 답변에서 정확한 문제를 찾았고, 두 번째 프롬프트에서는 이를 우회하는 동작하는 함수까지 작성해줌
GitHub 저장소를 대화에 연결했기 때문에 토론 공유는 안 되는 것 같아 gist로 복사함: https://gist.github.com/Uninen/46df44f4307d324682dabb7aa6e10...
- 답변 중 하나가 Claude가 아직 실제 사고에는 기본적으로 무지하다는 걸 보여줌
  HTML 정화를 프런트엔드로 옮기라고 제안했는데, 그건 프런트엔드에서 우회하기 너무 쉬워 DB에 말 그대로 아무거나 올릴 수 있게 되기 때문에 CF 함수에 둔 것임
  주니어 개발자라도 이해할 내용임
내 LLM 도구에서 이걸 동작하게 만들었고, 새 플러그인 버전은 llm-anthropic 0.14임
그 과정에서 모델에 대해 여러 가지를 알아냈고, 자세한 메모는 여기에 있음: https://simonwillison.net/2025/Feb/25/llm-anthropic-014/
가장 흥미로운 새 기능 중 하나는 출력 한도가 이전 Claude 3.5 Sonnet의 8,000 토큰에서 120,000 토큰으로 늘었다는 점임
이 모델은 그 출력 한도를 효과적으로 쓸 수 있어 보이고, 지금까지 가장 긴 결과는 완료까지 27분이 걸렸음: https://gist.github.com/simonw/854474b050b630144beebf06ec4a2...
- Sonnet 3.7을 깎아내리려는 건 아니지만, 이 분야의 다른 어떤 모델보다 훨씬 높다고 말하는 건 정확하지 않아 보임
  o1과 o3-mini도 출력 토큰 100,000개까지 감
  https://platform.openai.com/docs/models#o1
- Simon은 프로그래밍 도구, 블로그, 일까지 하면서 어떻게 그렇게 활동적일 수 있는지 어디에 쓴 적이 있는지 궁금함
  시간과 에너지를 어디서 찾는지 궁금함
- 비용이 얼마나 들었는지 궁금함
Anthropic이 코드에 더 집중하는 건 말이 됨
다른 모델들과 비교했을 때 코드가 강점이었음
Devin의 어려움을 생각하면 이들의 Devin 경쟁 제품이 어떻게 될지 궁금함
- Cursor/Windsurf 사용의 상당 부분을 구동하는 모델이고 MCP도 밀고 있으니, 사용자 경험만 잘 잡으면 괜찮을 것 같음
- 강점인 건 분명하지만, 가끔은 채팅이 너무 코드를 쓰고 싶어 하지 않았으면 함
  개념적이거나 높은 수준의 답변만 원할 때도 코드를 던지는 일이 잦아서, 이제는 습관적으로 코드 쓰지 말라고 말함
- 같은 생각을 했고, 지금까지 Claude나 다른 어떤 모델도 못 푼 정말 어려운 문제 3개가 있어서 오늘 시도해보는 게 기대됨
- 블로그 글에서 Cognition, 즉 Devin 만든 회사를 인용한 게 좀 웃김
“추론 모델을 개발하면서 수학·컴퓨터과학 경시 문제에 대한 최적화를 다소 줄이고, 기업들이 실제로 LLM을 어떻게 쓰는지를 더 잘 반영하는 현실 작업에 초점을 옮겼다”는 건 좋은 소식임
OpenAI는 “가장 똑똑한 모델”을 목표로 하는 것 같지만, 실제로 LLM은 주로 학습 도우미, 데이터 변환기, 코드 작성기로 쓰임
“지능”과 “일을 끝내는 능력”의 균형이 sweet spot으로 보이고, 현재 개발자 도구들(Cursor, Windsurf 등)이 4o보다 Claude 3.5 Sonnet을 선호하는 이유 중 하나로 보임
- 우리 모두 Claude를 매일 직접 업무에 쓰고 있고, 추상적 벤치마크보다 우리 자신의 고통을 해결하는 게 더 흥미로움
  일을 끝내려면 많은 책상머리 지식도 필요하지만, 언제 빨리 답하고 언제 되돌아가야 하는지 아는 현장 감각도 많이 필요함
- 가끔 벤치마크에 과적합되는 게 아닌가 싶을 때가 있음. DeepSeek가 특히 그렇게 느껴짐
  실제 순위가 어디에 있든, 주관적으로 답변이 더 낫게 느껴져 계속 돌아가게 되는 채팅은 Claude임
- Claude 3.5는 Windsurf에서 훌륭했지만 크레딧 비용이 듦
  DeepSeek V3가 이제 Windsurf에서 크레딧 비용 없이 제공되는데, 회사 입장에서는 큰 변화였음
  어느 쪽이든 선택지가 다양해져서 좋음
  Windsurf의 Cascade 기능은 에이전트식 코드 작성과 탐색에 꼭 써보길 추천함. 새 코드베이스를 이해하고 데이터 흐름을 추적하는 데 많은 시간을 아껴줌
AI 경쟁이 정말 빠르게 진행되고 있음
소프트웨어 개발자/엔지니어로서 일자리 전망이 걱정되고, 시간이 지나봐야 알 수 있을 듯함
소프트웨어 엔지니어들의 높은 몸값이 사라지면 서부 해안 주택 거품은 어떻게 될지도 궁금함
아마 다음 지식 노동자 물결이 와서 그 자리를 대체할까 싶음
- 소프트웨어 개발 일자리 시장이 크게 흔들리고 있는 건 맞지만, 유리한 위치에 서기 위해 할 수 있는 일들이 있음
  전체 스택, 특히 백엔드와 DevOps를 더 배우고, 생산성 증가를 받아들여 더 많은 제품과 개인 프로젝트를 출시하며, 생산 시간을 매우 선별적으로 쓰고, 훌륭한 개인 지식 관리 시스템과 에이전트 도우미를 갖추는 것임
- 실제로는 속도가 느려지는 것 같음
  작년은 Llama 3 전후까지는 거칠었지만, 최근 개선폭은 비교적 작음
  추론 모델도 이전에 에이전트로 명시적 계획을 세워 이미 할 수 있던 것보다 조금 나아진 정도이고, 목적에 맞게 잘 포장하고 약간 튜닝한 것에 가까움
  DeepSeek는 효율 면에서는 큰 개선을 했지만, 사용자에게 보이는 변화는 그리 크지 않았음
  그래서 최근 AI 경쟁은 약간 고원 상태에 접어드는 중이라고 봄
- 영향은 실리콘밸리나 서부 해안보다 훨씬 넓을 수 있고, 오히려 실리콘밸리는 AI 개발 덕분에 그나마 희망적인 몇 안 되는 지역일 수도 있음
  이 모델들은 전 세계적으로 업계 고용을 흔들 가능성이 있음
  아이러니하게도 정말 바뀌는 직종은 소프트웨어 엔지니어와 글쓰기, 그래픽 디자인 같은 몇몇 분야뿐일 수도 있음
  AI 연구소들이 소프트웨어 엔지니어를 특히 겨냥하는 건 “Claude 3.7 and Code” 발표만 봐도 드러나고, 다른 영역 언급은 거의 없음
  실리콘밸리가 아니어서 높은 보수를 경험하지 못한 사람들에게 소프트웨어 엔지니어링은 지속적인 학습이 필요한 스트레스 많은 평범한 직업인 경우가 많음
  그래서 높은 가처분소득으로 투자·저축할 가능성도 낮았을 테니, 자동화로 인한 고통과 불안은 더 큼
  AI가 처음 자동화하는 직업이 노동이나 자율주행이 아니라 소프트웨어 자체일 줄 누가 알았겠음
  다른 산업은 막다른 길에 부딪혔거나 규제, 폐쇄적 지식 같은 장벽이 있어서 더 어려워 보임
  소프트웨어 엔지니어들은 다른 산업에 본보기를 보인 셈임. AI를 들이지 말거나 가능한 오래 내부에 가둬두라는 것, 즉 폐쇄 소스로 남으라는 것임
  돌이켜보면 아이러니함
- 단기·중기적으로는 크게 걱정하지 않음
  AI 시스템이 놓칠 엣지 케이스와 미묘한 맥락이 너무 많다고 느낌
  예를 들어 시스템은 문서화된 방식대로 항상 동작하지 않음. AI가 서비스의 버그와 자기 코드의 버그를 어떻게 구분할까? 애초에 버그가 있다는 걸 어떻게 알까? 버그 제보와 해커의 침입 시도를 어떻게 구분할까?
  세상은 복잡하고, 진짜 인공지능이 없다면 이런 까다로운 상황에서 AI를 안내할 사람이 필요함
  조언하자면 AI와 새 AI 도구 사용에 익숙해지고, 그것들이 일반적인 작업 흐름에 어떻게 들어맞는지 이해해야 함
  좋은 소프트웨어 엔지니어들은 사라지지 않을 거라고 봄
- 모델이 개선되지만 완전한 특이점까지 가지 않는다면, 일자리는 오히려 늘어날 것 같음
  예를 들어 소프트웨어 제작 비용이 5배 낮아지면, 지금은 공급이 크게 제한돼 있으니 수요가 5배 이상 늘어날 것임
  더 좋은 소프트웨어를 원하는 회사는 많지만 비용이 너무 높음
  그러면 더 많은 일자리가 생김
  다만 타이핑은 줄고, 제품 관리·인간 상호작용·엣지 케이스 테스트가 더 많아질 것임
  모델이 실패할 때 디버깅하는 아주 기술적인 일자리도 꽤 생길 듯함
  그래서 사용자 조사부터 제품 관리까지, 사람과 비즈니스에 유용한 소프트웨어를 만드는 데 도움이 되는 기술을 배우라고 조언함. 엔지니어링도 함께 필요함
Claude 3.7이 내 학사 논문 절반을 30초도 안 돼 다시 해냈음 :|
https://claude.ai/share/ed8a0e55-633f-4056-ba70-772ab5f5a08b
출력 그림은 여기 있음: https://i.imgur.com/0c65Xfk.png
Gemini Flash 2는 처참하게 실패함: https://g.co/gemini/share/10437164edd0
- 보통 학부에서 다루는 주제 대부분은 문서화가 잘 되어 있고 잘 이해된 내용이라 AI 학습 데이터에 들어갔을 가능성이 큼
  대학원 수준부터는 자료 범위가 조금 더 희소하고 틈새적이지만, 그래도 대체로 혁신적인 수준은 아님
  박사 수준에서는 해당 분야의 기존 지식을 확장하는 것이 목적이고 처음 탐구되는 주제가 많아서, 커버리지가 대부분 거의 없다고 봄
- 다음은 석사와 박사 차례임!
- 이 내용이나 비슷한 것이 공개 접근 자료나 일부 도서관에서 찾을 수 있었던 건지 궁금함

답변달기

riskatcher 2025-02-25 [-]

flash 2랑 비교하기엔 너무 가격 차이가 큰데.. 딱 o1pro와 o3-mini의 중간급

답변달기

Claude 3.7 Sonnet과 Claude Code 출시

Claude 3.7 Sonnet의 하이브리드 추론

실제 업무 중심의 코딩 성능

Claude Code 제한적 연구 프리뷰

Claude.ai와 GitHub 코드베이스 연동

제공 범위와 가격

안전성 평가와 시스템 카드

평가 스캐폴딩과 SWE-bench 세부 사항

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들