GN⁺: Claude 3.5 Sonnet 모델에 대하여
(thezvi.substack.com)- Claude 3.5 Sonnet이 대화형 AI 분야에서 현재 가장 우수한 모델임
- 클로드 소네트 3.5는 Claude.ai와 클로드 iOS 앱에서 무료로 사용 가능함. 더 높은 사용량 한도를 원하면 구독도 가능함
- 문서 구조를 최대한 유지하면서 내용을 요약했으며, 마크다운을 사용하여 깔끔하게 정리함
- 속도가 Claude Opus 대비 2배 빠르며 비용도 저렴함
- 새로운 아티팩트(Artifacts) 기능을 도입하여 코드, 문서, 웹사이트 디자인 등을 별도 창에서 실시간으로 보고 편집할 수 있음
- OpenAI, Google DeepMind, Anthropic 모두 고성능 대형 모델을 개발하고 있지만, 현재는 빠르고 저렴하면서도 우수한 성능을 내는 모델에 집중하는 추세임
벤치마크 및 평가 결과
- 많은 벤치마크에서 기존 모델을 앞선 성능을 보임. 특히 GPQA에서 압도적 1위
- 아티팩트를 이용한 작동형 코딩 평가에서 64%의 문제를 해결하여 이전 모델(38%)을 크게 능가함
- 전문가들의 법률, 금융, 철학 등 다양한 분야 평가에서도 82% ~ 73%의 높은 승률을 기록함
- 시각 인식 능력도 개선되었으며, 추가 프롬프트를 통해 얼굴 인식 기능을 제한하도록 설계됨
새로운 Artifacts 기능
- Artifacts 기능을 통해 대화 옆 창에서 코드, 문서, 웹 디자인 등을 실시간으로 생성하고 편집할 수 있음
- 대화형 AI에서 협업 작업 환경으로 진화하는 첫 단계로 평가됨
- 향후 팀 협업을 지원하고, 조직 차원의 지식 관리 툴로 발전할 것으로 기대됨
안전성 및 윤리성 검토
- 클로드 소네트 3.5는 ASL-2 수준을 유지하고 있어 우려할 만한 능력은 아직 없음
- 영국 인공지능 안전 연구소(UK AISI)가 출시 전 안전성 평가를 실시함
- 거부율 측면에서도 이전 모델 대비 개선된 모습을 보임
- 사용자 데이터를 모델 학습에 사용하지 않는 원칙을 고수함
- 프런티어 기술 개발에 대해서는 유보적인 입장을 취하고 있으나 명확한 약속은 하지 않음
소프트웨어 엔지니어링에 미치는 영향
- 클로드 3.5 소네트는 엔지니어들의 코딩 작업을 크게 향상시켜줌. 애로사항을 자동으로 해결하고 문서화까지 해줌
- 풀리퀘스트 테스트 통과율이 Opus 38%에서 Sonnet 64%로 크게 개선됨
- Anthropic 내부에서도 비전공자부터 숙련된 엔지니어까지 모두 클로드를 활용하여 시간을 크게 절약하고 있음
- 엔지니어들의 작업 시간을 크게 단축시켜 주며, 누구나 쉽게 코딩할 수 있게 만들 것으로 기대됨
- AI 기술을 활용한 엔지니어링 생산성 향상이 가속화될 전망임
모델의 한계점
- 여전히 일부 유명 퍼즐이나 게임에서는 실수를 범함. 맥락 정보를 주면 해결하기도 함
- 정교한 기만이나 공격에 취약할 가능성이 있음
- 특정 문제에 고착되지 않고 전반적인 추론 능력 향상에 주력한 것으로 보임
- 여전히 인간이 생성한 지식을 활용하는 수준이며, 근본적인 한계는 남아있음
사용자들의 반응
- 물리학, 화학, 기계공학 등 전문 분야에서 놀라운 성능을 보여주고 있음
- SVG 이미지 생성, 웹앱 개발, 3D 시뮬레이션 등 다양한 아티팩트 활용 사례가 쏟아지고 있음
- 반면 여전히 인간의 창의성을 넘어서지 못한다는 의견도 있음
GN⁺의 의견
- 클로드 3.5 소네트의 등장으로 대화형 AI 기술이 크게 발전하는 전환점을 맞이했음.
- 속도와 비용 면에서 크게 개선되어 다양한 분야에서 활용도가 높아질 것으로 보임. 특히 SW 엔지니어링 분야의 생산성 향상에 크게 기여할 전망임
- Artifacts 기능을 통해 단순 대화를 넘어 실제 업무에 활용할 수 있는 협업 도구로 발전할 가능성을 보여줌. 장기적으로는 기업의 지식 관리 시스템으로도 발전할 수 있을 것임
- 안전성과 윤리성 측면에서 Anthropic의 노력은 높이 평가할 만함. 그러나 아직 완벽하지 않으며 지속적인 연구와 감시가 요구됨
- GPT-4 등 다른 거대 모델과의 경쟁이 가속화되면서 AI 기술 발전이 더욱 빨라질 것으로 보임. 장기적으로는 인간 수준의 AGI 개발 가능성도 배제할 수 없음
- 전반적으로 클로드 3.5 소네트는 현 시점 최고의 대화형 AI로 평가받을 만함. 개인과 기업의 생산성 혁신에 크게 기여할 것이나, 사회적 파장에 대한 대비도 필요한 시점임
Hacker News 의견
-
프로젝트 기능: Anthropic의 프로젝트 기능이 유용하며, 여러 프로젝트를 동시에 진행할 수 있는 점이 좋음. 하지만 각 프로젝트의 컨텍스트 창이 작게 느껴질 수 있음. 향후 더 큰 컨텍스트 창을 기대함.
-
Claude 3.5 Sonnet: Claude 3.5 Sonnet의 코딩 능력이 매우 인상적임. 전문가 프로그래머가 더 빠르게 작업할 수 있게 도와줌. 고품질 코드를 위해서는 세부 지침과 결과 평가가 필요함.
-
코딩 실험: Anthropic의 API와 함께 코딩 실험을 진행했으며, 프로젝트의 95% 이상이 Claude에 의해 작성됨. 결과물은 높은 품질을 자랑함.
-
Sonnet 3.5의 일관성: Sonnet 3.5는 일관성이 뛰어나며, 이전 모델들보다 안정적인 응답을 제공함. 이는 큰 발전임.
-
코딩 능력 평가: GPT-4의 코딩 능력이 만족스럽지 않음. 응답 속도가 느려져서 다른 옵션을 탐색 중임.
-
AI 비교: Claude는 인간처럼 들리며 데이터 질문에 강함. GPT-4는 논리적 추론에서 더 뛰어남. 가격과 출력 속도는 비슷함.
-
벤치마크 그래프: 벤치마크 그래프가 가속화되고 있다는 주장에 동의하지 않음. 더 자세한 그래프가 필요함.
-
계정 차단: Anthropic Sonnet에서 계정이 자동 검토 후 차단됨. OpenAI 구독을 선호하게 됨.
-
최첨단 기술: 현재의 경쟁적인 AI 개발 환경이 흥미로움. 이러한 시대를 직접 경험하는 것이 즐거움.
-
AI의 요약 기능: AI가 다양한 디자인 옵션과 새로운 기술 스택을 요약해주는 것이 매우 유용함. 코드 예제와 함께 대화 비용이 저렴함.
-
ML 모델의 상향 평준화: 동일한 데이터셋을 사용하면 비슷한 성능의 모델이 나옴. 데이터가 모델 성능의 차이를 만들 수 있음. ML 기술은 여전히 공통적임.