결국 미 국방부가 앤스로픽은 버리고 OpenAI를 선택한건데, 흔히 말하는 워딩의 차이가 있네요.
OpenAI는 기술적 안전장치 구축, FDE(현장 엔지니어) 투입, 클라우드 전용 배포 같은 구체적인 이행 메커니즘을 함께 제안
Anthropic은 이용약관 수준의 예외 조항을 요구
미 국방부 입장에서는 "민간 기업이 개별 사용 사례에 거부권을 행사한다" 고 보고 괘씸죄 처럼 발표.
이 합의가 Anthropic이 공급망 위험으로 지정되고 나서 얼마후에 발표 되었는데, Axios 기사를 보면 국방부가 Anthropic과의 대립을 다른 AI 기업과의 협상에서 톤을 세팅하는 용도로 활용했고,
OpenAI는 그 압력 속에서 국방부가 수용할 수 있는 형태로 합의를 이끌어낸 셈
공식 입장 표현의 차이도 크네요.
Sam Altman은 "국방부가 안전에 깊은 존중을 보였다" 고 했고,
Anthropic 측은 끝까지 "국방부의 요구에 양심상 동의할 수 없다" 는 톤
같은 원칙이라도 국방부에 체면을 세워주느냐 아니냐의 차이가 컸던 것으로 보이는데,
결과적으로는 OpenAI가 수용하면서 모양이 이상해 지니까
샘 알트먼이 말미에 "이 조건을 모든 AI 기업에 동일하게 제안해달라" 라고 넣어서
Anthropic에 대한 조치를 완화해달라는 우회적 메시지를 보낸 것 같네요.
AI 코딩 도구 덕에 초기 개발 속도는 미친 듯이 빨라졌지만, 테스트 없이 빠르게 쌓은 코드는 결국 리팩토링 지옥이 되더군요. 특히 여러 서비스를 동시에 운영하다 보면, 테스트가 없는 프로젝트는 기능 하나 건드릴 때마다 다른 곳이 터질까 두려워서 손대기가 무섭습니다.
"테스트 = 해자"라는 비유가 정확합니다. 경쟁자가 코드를 복사할 수는 있어도, 수천 개의 엣지 케이스를 커버하는 테스트 스위트까지 복제하기는 어렵죠. 특히 AI가 코드 생성은 잘 하지만, 의미 있는 테스트 시나리오를 만드는 건 아직 사람의 도메인 지식이 필요한 영역이라는 점에서 더 그렇습니다.
흥미로운 연구네요. 특히 "Build vs Buy"에서 12/20 범주가 DIY라는 점이 인상적입니다.
저희도 AI 에이전트 페르소나 표준(Soul Spec)을 만들면서 비슷한 관찰을 했는데, Claude Code에 CLAUDE.md나 AGENTS.md로 도구를 명시하지 않으면 자기 방식대로 구현하는 경향이 강합니다.
이 연구의 "Recency Gradient"가 시사하는 건, 새로운 도구가 Claude의 기본 스택에 들어가려면 학습 데이터에 충분히 노출되거나, 프로젝트 컨텍스트 파일에 명시적으로 지정해야 한다는 점인 것 같습니다. 결국 Context Engineering이 도구 선택까지 좌우하는 셈이죠.
좋은 질문입니다. 사실 저희 실험의 "하이브리드" 조건이 정확히 그 방향이었습니다 — 정리된 요약에 날것의 경험 로그를 함께 제공하는 구성이요.
결과적으로 하이브리드가 4.95/5.0으로 가장 높았습니다. 요약만 주면 2.65인데, 거기에 "실패했다", "원인 불명" 같은 과정 기록을 붙이니 오히려 요약의 약점이 보완되더라고요.
그래서 결론은 "요약 자체가 나쁜 게 아니라, 과정과 불확실성을 함께 담아야 한다"입니다.
하지만 N=1 이라서 다양한 사용자층으로 범용적 으로 쓰일 내용인지는 후속연구가 필요합니다.
그렇다면 합성 메모리에 그런 작업들의 프로세스, 실패, 성공의 내용을 담도록 구성하면 좀 달라질까요?
맞습니다. 저도 처음에 합성 메모리가 최소한 베이스라인보다는 나을 거라 예상했는데, 결과를 보고 놀랐습니다.
분석해보니 핵심은 "불확실성 보존" 이었습니다. 날것의 로그에는 "이거 해봤는데 안 됐다", "원인 모르겠다" 같은 흔적이 남아있어서 에이전트가 모르는 건 모른다고 답하는데, 요약본은 그런 맥락이 다 지워지면서 오히려 틀린 답을 확신있게 내놓더라고요.
경험적으로 어느정도 느끼던거긴 한데 합성 메모리는 제 생각보다도 너무 처참하네요
써보려했는데 gemini 2.5까지밖에 지원을 안하네요... 지원 모델 리스트도 바이브코딩 한 건가
흥미로운데 그냥 자기들 토큰 많이 써서, 비용 많이 받는 쪽으로 진화한게 아닌가 싶기도 하고, 사실은 어느 정도 라이브러리들은 AI가 학습되서 그냥 만드는게 아닌가 싶기도 합니다.
에이전트 선호로 특정 라이브러리만 발전할거 생각하니 좀 묘하기도 합니다.
결국 미 국방부가 앤스로픽은 버리고 OpenAI를 선택한건데, 흔히 말하는 워딩의 차이가 있네요.
OpenAI는 기술적 안전장치 구축, FDE(현장 엔지니어) 투입, 클라우드 전용 배포 같은 구체적인 이행 메커니즘을 함께 제안
Anthropic은 이용약관 수준의 예외 조항을 요구
미 국방부 입장에서는 "민간 기업이 개별 사용 사례에 거부권을 행사한다" 고 보고 괘씸죄 처럼 발표.
이 합의가 Anthropic이 공급망 위험으로 지정되고 나서 얼마후에 발표 되었는데,
Axios 기사를 보면 국방부가 Anthropic과의 대립을 다른 AI 기업과의 협상에서 톤을 세팅하는 용도로 활용했고,
OpenAI는 그 압력 속에서 국방부가 수용할 수 있는 형태로 합의를 이끌어낸 셈
공식 입장 표현의 차이도 크네요.
Sam Altman은 "국방부가 안전에 깊은 존중을 보였다" 고 했고,
Anthropic 측은 끝까지 "국방부의 요구에 양심상 동의할 수 없다" 는 톤
같은 원칙이라도 국방부에 체면을 세워주느냐 아니냐의 차이가 컸던 것으로 보이는데,
결과적으로는 OpenAI가 수용하면서 모양이 이상해 지니까
샘 알트먼이 말미에 "이 조건을 모든 AI 기업에 동일하게 제안해달라" 라고 넣어서
Anthropic에 대한 조치를 완화해달라는 우회적 메시지를 보낸 것 같네요.
그냥 미니멀하게 가 주면 안 될까...?
아님 워드패드가 없어진 김에 새롭게 더 가벼운 걸 내 주든지...
솔로 개발자로 7개 프로젝트를 운영하고 있는데, 이 글이 뼈 아프게 와닿습니다.
AI 코딩 도구 덕에 초기 개발 속도는 미친 듯이 빨라졌지만, 테스트 없이 빠르게 쌓은 코드는 결국 리팩토링 지옥이 되더군요. 특히 여러 서비스를 동시에 운영하다 보면, 테스트가 없는 프로젝트는 기능 하나 건드릴 때마다 다른 곳이 터질까 두려워서 손대기가 무섭습니다.
"테스트 = 해자"라는 비유가 정확합니다. 경쟁자가 코드를 복사할 수는 있어도, 수천 개의 엣지 케이스를 커버하는 테스트 스위트까지 복제하기는 어렵죠. 특히 AI가 코드 생성은 잘 하지만, 의미 있는 테스트 시나리오를 만드는 건 아직 사람의 도메인 지식이 필요한 영역이라는 점에서 더 그렇습니다.
개발자분들께 궁금한 것이 있는데, 왜 근래 대부분 프로젝트들은 Golang보다는 rust로 개발되는 경우가 많나요? 가장 큰 이유는 GC 유무 때문인가요?
요거 좋더라고요
흥미로운 연구네요. 특히 "Build vs Buy"에서 12/20 범주가 DIY라는 점이 인상적입니다.
저희도 AI 에이전트 페르소나 표준(Soul Spec)을 만들면서 비슷한 관찰을 했는데, Claude Code에 CLAUDE.md나 AGENTS.md로 도구를 명시하지 않으면 자기 방식대로 구현하는 경향이 강합니다.
이 연구의 "Recency Gradient"가 시사하는 건, 새로운 도구가 Claude의 기본 스택에 들어가려면 학습 데이터에 충분히 노출되거나, 프로젝트 컨텍스트 파일에 명시적으로 지정해야 한다는 점인 것 같습니다. 결국 Context Engineering이 도구 선택까지 좌우하는 셈이죠.
원본 데이터셋도 공개되어 있어서 좋습니다: https://github.com/amplifying-ai/claude-code-picks
가능합니다 ㅎㅎ
미합“중국”
Assistive agent optimization (AAO) 이라고 하더군요.
개발자용 도구는 이제 에이전트들이 선호하는 제품이 되는게 중요해 졌어요.
에이전트가 얘기도 안하면 점점 멀어짐
Ralph loop도 얼마 전에 추가되었고고, Financial skill도 추가된거 보면, 그냥 기다리고 있으면 3rd party 도구들에 있던거 금방금방 들어오는 느낌이네요
트위터 문화
?!?!?!!?!
플랫폼 톤 하니까 문득 든 궁금증인데요. 스레드는 왜 다들 반말로 이야기 하는건가요? 약간 카카오스토리 같은 느낌이에요.
Astro*