차후에는 o5, o3 Pro, o4 또는 4.5, Gemini 2.5 Pro, Grok 4, Claude Opus 4 등 닫힌 소스의 frontier 모델들에 대한 소문까지 포함한 2부가 나왔으면 하는 바람임
서로 다른 LLM 아키텍처 차이를 자세히 정리해줘서 고맙고, 덕분에 이해하기도 쉽고 교육적임
솔직히 GPT-2(2019) 시절과 비교하면 지금의 발전 속도가 믿기 힘들 정도임, 요즘은 LLM의 성능을 제대로 비교하는 것도 어려울 정도인데 2주마다 새로운 모델이 벤치마크를 갱신함. DeepSeek가 언급된 점이 반가운데, V3에서 도입된 아키텍처 혁신 덕분에 계산 효율성이 크게 향상됐고, 이 점이 당시 다른 모델과 차별점을 없게 만든 결정적인 포인트였음
다양한 새로운 아키텍처들이 정확도나 속도 면에서 많은 혁신을 이뤘지만, 여전히 정확한 정보 생성을 보장하는 근본적인 문제는 해결되지 않고 있음. Retrieval Augmented Generation(RAG)이나 에이전트 등 다양한 방식들이 이런 문제를 개선하긴 하지만, 앞으로의 아키텍처가 결국 이런 방식들을 대체할지도 궁금함
근본적으로 트랜스포머는 텍스트 예측을 목표로 훈련하는데, 이 방식은 논리성 임베딩에 한계가 있기 때문임. 더 이상 환각 현상을 줄이려면, 완전히 다른 교육 목표가 필요하다고 생각함
모델은 어떤 상황에서 일반화를 해도 되는지, 아니면 더 많은 정보가 필요한지 구별하지 못함. 예를 들어, 왜 어떤 메서드는 존재하는데 다른 비슷한 함수는 없는지 쉽게 구별하지 못함. 어릴 적 어머니를 훌륭한 cooker라 부른 적이 있는데, 머신과 인간에게 각기 다른 단어가 할당된다는 걸 몰랐었음. 이런 비슷한 단어의 일반화가 모델에도 적용된다고 느끼게 됨
DeepSeek-V2와 Llama 3.1 같은 최근 아키텍처는 설계적 개선만으로도 사실성(factuality)이 꽤 향상된 결과를 보여줌. 특히 집중(attention) 메커니즘과 환각 억제에 특화된 학습 목표가 배경임
RAG(검색 기반 응답)는 구조적으로 단순하고 구현도 쉽지만, 왜 아직까지 기본 LLM에 내장되지 않았는지 늘 궁금했음. 아예 모델 내부로 통합되지 못하는 건 RAG나 그 변형들의 근본적인 한계를 반증하는 것 같음. 정말 효과적인 방식이라면 외부 추가가 아니라 아키텍처 기본 기능으로 도입됐을 것이라고 생각함
Claude에게 원문을 읽고 새로운 아키텍처를 제안해보라고 지시했음 Claude의 결과물 링크
하지만 이 결과가 실제로 쓸만한지는 잘 모르겠음