200k 컨텍스트의 달콤쓴맛: 70k에서 195k로 오류율이 급증한 것은 아쉬움. 하지만 중간 부분의 오류 감소에는 칭찬.
모델의 제한적 사용에 대한 불만: 클로드가 제목에서 주장하는 것처럼 거절이 적지 않음. Anthropic이 모델을 지나치게 검열하고 있어 사용하기 어려움. 사용자가 도구를 결정해야지, 도구가 사용자를 결정해서는 안 됨.
제목과 내용의 불일치 지적: 발표에서 언급된 '거절 감소'는 실제 내용과 맞지 않음. 클로드 2.1은 잘못된 정보를 제공하는 것보다 거절할 가능성이 더 높아졌음을 시사.
코딩에 대한 비효율성: GPT-4에 비해 10배 더 나쁨. 간단한 데이터베이스 동기화 함수를 요청했을 때, 실제 코드 대신 수도코드를 많이 제공.
모델에 대한 부정적인 인상: Anthropic의 모델이 대부분의 요청을 거절하도록 과도하게 학습되어 있어, 클로드와의 대화가 즐겁지 않음.
이념적 관점의 거절 사례: 효과적인 이타주의자처럼 말하기 위한 어휘 목록 요청에 대한 거절로 인해 유머러스한 상황 발생.
클로드 2에 대한 실망: 처음에는 기대했지만 GPT-4에 비해 훨씬 못 미치는 성능으로 판단, 큰 컨텍스트 창이 있어도 답변의 질이 나쁘면 의미 없음.
API 사용에 대한 접근성 문제: API 사용에 관심이 있지만, 응답을 받지 못해 실망. 개발자 플랫폼으로서의 관심 부족.
API 접근의 어려움: Anthropic의 웹사이트나 Bedrock을 통한 요청에 대한 응답을 받지 못해 비즈니스로서 API 접근이 불가능해 보임.
시스템 프롬프트 도입에 대한 관심: 사용자가 클로드에게 맞춤형 지시를 제공하여 성능을 향상시킬 수 있는 시스템 프롬프트 도입에 주목. 사용 및 남용의 용이성에 대한 기대감.
클로드의 테스트 사용과 OpenAI의 선택: 아직 생산에는 사용하지 않지만, 새로운 기능을 LLM과 함께 구축할 때 정기적으로 테스트에 포함. OpenAI가 더 빠르게 인증을 받아 시장에 출시되었고, API가 더 나아지고 신뢰할 수 있으며 저렴함. 하지만 클로드가 AWS Bedrock에 포함되면서 이전에는 불가능했던 것들이 가능해짐.
Hacker News 의견