GN⁺: 2025 AI 엔지니어 독서 목록
(latent.space)- AI 엔지니어를 위한 50개의 논문, 모델, 블로그를 10개의 분야로 나누어 선정
- LLMs, 벤치마크, 프롬프팅, RAG, 에이전트, 코드 생성, 비전, 음성, 확산, 파인튜닝 분야를 포함
섹션 1: 최전선 LLMs
- OpenAI 모델
- Anthropic 및 Google 모델
- Meta와 관련된 LLaMA 계열
- DeepSeek 모델
-
Apple Intelligence
- Apple Intelligence (논문) - 모든 Mac 및 iPhone에 포함된 모델
- 주목할 만한 추가 모델 및 연구
-
LLM 모델
- AI2 계열: Olmo, Molmo, OlmOE, Tülu 3, Olmo 2
- 기타: Grok, Amazon Nova, Yi, Reka, Jamba, Cohere, Nemotron, Microsoft Phi, HuggingFace SmolLM
-
Scaling Laws 연구
- Scaling Laws: Kaplan, Chinchilla, Emergence, Mirage, Post-Chinchilla Laws
- 최첨단 모델:
- Reasoning 모델 연구:
-
LLM 모델
섹션 2: 벤치마크 및 평가
- MMLU
- MuSR (논문): 긴 문맥 내 평가
-
MATH (논문): 수학 경시대회 문제 모음
- 최첨단 연구는 FrontierMath (논문) 및 고난도 문제에 초점
- 하위 집합: MATH Level 5, AIME, AMC10/AMC12
- IFEval (논문): 주요 명령어 이행 평가 벤치마크
-
ARC AGI (공식 페이지): 추상적 추론과 "IQ 테스트" 벤치마크
- 빠르게 포화되는 다른 벤치마크와 달리 장기적으로 유지
-
추가 참고 자료
- Latent Space: Benchmarks 101, Benchmarks 201
- Carlini, LMArena, Braintrust: 벤치마크에 대한 심층 분석
- LLM 관련 자료: LLM-as-Judge, Applied LLMs
- 데이터셋 리소스: Datasets
섹션 3: 프롬프팅, ICL 및 사고의 연쇄
-
GPT-3와 In-Context Learning (ICL)
- GPT-3 논문(논문): In-Context Learning (ICL) 개념 소개
- ICL은 프롬프팅과 밀접한 관련이 있으며, 이를 통해 LLM이 문맥 내에서 학습하고 적용 가능
- Prompt Injection: 프롬프트 조작 및 보안 문제 (Lilian Weng의 정리, Simon Willison의 시리즈)
-
The Prompt Report: 프롬프팅 관련 논문 서베이
- 개요: 프롬프팅 기술의 전반적인 발전과 최신 트렌드 요약 (관련 팟캐스트)
- Chain-of-Thought (CoT):
-
Tree of Thought:
- Lookahead와 Backtracking 개념 소개
- 복잡한 문제 해결을 위한 효과적인 방법 (관련 팟캐스트)
- Prompt Tuning:
-
Automatic Prompt Engineering:
- LLM이 직접 프롬프트를 생성하고 최적화하는 방법
- DSPy 프레임워크 (논문)에서 구현
- 연구 논문뿐 아니라 실무적인 가이드가 유용:
- Lilian Weng의 Prompt Engineering 블로그
- Eugene Yan의 Prompting 가이드
- Anthropic의 튜토리얼 및 워크숍:
섹션 4: RAG (Retrieval-Augmented Generation)
-
Introduction to Information Retrieval: 정보 검색의 기초를 다루는 고전적인 참고서
- RAG는 정보 검색(IR) 문제로, 60년 이상의 역사를 가진 분야와 밀접한 관련이 있음
- 주요 기술:
- TF-IDF, BM25: 텍스트 기반 검색
- FAISS, HNSW: 벡터 검색 및 근접 탐색
-
Meta RAG (2020년 논문) : RAG 용어 최초 등장
- HyDE (문서)
- Chunking (연구)
- Rerankers (Cohere 블로그)
- 멀티모달 데이터 처리 (YouTube)
-
MTEB: 임베딩 평가 벤치마크
- 논란과 한계 (관련 토론)
- 임베딩 모델 예시:
- SentenceTransformers
- OpenAI, Nomic Embed, ModernBERT Embed
- Matryoshka Embeddings (HuggingFace 블로그)
-
GraphRAG: Microsoft의 RAG와 지식 그래프 통합
-
GraphRAG:
- 지식 그래프를 RAG 워크플로우에 통합하여 개인 데이터에서 더 나은 결과 제공
- 오픈소스화 (Microsoft 블로그)
- 관련 연구:
- ColBERT, ColPali, ColQwen
-
GraphRAG:
-
RAGAS: OpenAI가 추천한 간단한 RAG 평가 방법
- Nvidia FACTS Framework (논문)
- Extrinsic Hallucinations in LLMs (Lilian Weng의 조사)
- Jason Wei의 Recall vs Precision (트윗)
- 학습 자료와 RAG 실무
섹션 5: 에이전트
- SWE-Bench:
- ReAct:
-
MemGPT:
- 장기 메모리 에뮬레이션 접근 방식
- 주요 활용:
- ChatGPT의 메모리 및 제어 기능
- LangGraph의 에피소드 메모리
- 관련 시스템:
-
Voyager:
- Nvidia의 인지 아키텍처 접근:
- 커리큘럼, 스킬 라이브러리, 샌드박스를 활용한 성능 향상
- 개념 확장:
- Agent Workflow Memory (논문)
- Nvidia의 인지 아키텍처 접근:
-
Anthropic의 Building Effective Agents:
- 2024년 에이전트 설계의 핵심 정리
- 주요 주제:
- 체이닝, 라우팅, 병렬화, 오케스트레이션, 평가, 최적화
- 관련 자료:
- Lilian Weng의 에이전트 연구
- Shunyu Yao의 LLM 에이전트 연구
- Chip Huyen의 2025년 에이전트 개요
-
추가 학습 자료 및 강의
- 2024년 최신 에이전트 디자인: NeurIPS 정리
- UC Berkeley MOOC: LLM Agents 강의
- 에이전트 정의 논의: 필요 시 이 정의 참조
섹션 6: 코드 생성(CodeGen)
-
The Stack paper
- The Pile의 코드 중심 오픈 데이터셋 쌍으로 시작
- 후속 작업:
- The Stack v2: 개선된 데이터셋
- StarCoder: 최적화된 코드 생성 모델
-
오픈 코드 모델 논문
- DeepSeek-Coder
- Qwen2.5-Coder
- CodeLlama
- 많은 이들이 Claude 3.5 Sonnet을 최고의 코드 모델로 평가하지만 공식 논문은 없음
-
HumanEval/Codex
- 코딩 도메인의 필수 벤치마크 (현재는 포화 상태)
- 현대적 대체 벤치마크:
-
SWE-Bench
- 에이전트 중심 평가로 유명하지만 비용이 많이 들고 모델보다는 에이전트 평가에 초점
-
AlphaCodeium
- Google의 AlphaCode 및 AlphaCode2 성능 기반
- Flow Engineering을 활용해 기존 모델의 성능을 대폭 향상
-
CriticGPT
- 코드 생성 시 발생하는 보안 문제 탐지에 초점
- OpenAI의 CriticGPT는 보안 문제를 식별하도록 학습
- Anthropic은 SAEs(Safety-relevant Activation Ensembles)를 사용해 문제를 유발하는 LLM 특징 분석 (연구)
- 코드 생성 시 발생하는 보안 문제 탐지에 초점
- 산업에서의 코드 생성은 연구에서 실무로 중심 이동:
섹션 7: 비전
- Non-LLM 기반 비전 연구
-
CLIP:
- ViT 기반 멀티모달 모델의 성공 사례
- 최신 모델:
- CLIP은 여전히 중요한 배경 지식
-
MMVP benchmark:
- CLIP의 한계를 평가
- 멀티모달 버전: MMMU, SWE-Bench Multimodal
-
Segment Anything Model (SAM):
- 이미지 및 비디오 세그멘테이션의 대표 모델
- 후속 연구: SAM 2 (관련 팟캐스트)
- 보완 모델: GroundingDINO
- Early Fusion vs Late Fusion:
- 출판되지 않은 최신 작업:
- GPT4V System Card 및 파생 연구 (논문)
- OpenAI 4o:
- 최신 모델:
섹션 8: 음성
- Whisper:
-
AudioPaLM:
- Google의 AudioPaLM은 PaLM에서 Gemini로 전환되기 전의 연구
- 참고: Meta의 Llama 3 음성 탐구 (논문)
-
NaturalSpeech:
- 주요 TTS 연구 중 하나
- 최근 v3 (논문)로 업데이트
- Kyutai Moshi:
-
OpenAI Realtime API: The Missing Manual:
- OpenAI의 실시간 음성 API에 대한 비공식 문서
- 최신 에이전트 및 실시간 작업에 중요한 도구
-
대형 연구소 외 다양한 솔루션 추천:
- Daily, Livekit, Vapi, Assembly, Deepgram, Fireworks, Cartesia, Elevenlabs
- 참고: State of Voice AI 2024
-
NotebookLM 음성 모델:
- 모델은 공개되지 않았으나, 모델링 프로세스에 대한 심층 설명 제공
-
Gemini 2.0: 음성과 비전을 자연스럽게 통합한 멀티모달 모델
- 2025년 이후: 음성과 비전 모달리티의 융합이 명확한 경로로 진화 중
섹션 9: 이미지/비디오 확산
- Latent Diffusion:
- OpenAI DALL-E 시리즈:
- Google Imagen 시리즈:
- Consistency Models:
-
Sora:
- OpenAI의 텍스트-비디오 변환 도구 (공식 논문 없음)
- 참고:
- DiT 논문 (같은 저자)
- OpenSora: 오픈 가중치 기반 경쟁 모델
- Lilian Weng의 정리
-
ComfyUI:
- 비전 모델 사용자 인터페이스로 주목받음 (관련 인터뷰)
-
전문 분야:
- Text Diffusion: 텍스트 기반 디퓨전 모델
- Music Diffusion: 음악 생성 디퓨전
- Autoregressive Image Generation: 자회귀 이미지 생성
- Open Weights 경쟁:
-
최신 동향 이해:
- Stable Diffusion 및 DALL-E 모델 활용
- 텍스트와 비디오 모달리티의 융합 연구
섹션 10: 모델 파인튜닝(Finetuning)
- LoRA/QLoRA:
-
DPO:
- OpenAI의 Preference Finetuning에서 지원
- PPO (논문)의 대안으로 인기가 있지만 성능은 다소 낮음
-
ReFT:
- 기존의 몇몇 레이어를 파인튜닝하는 대신 모델의 특징(feature)에 집중
- 효율적인 파인튜닝 접근법
-
Orca 3/AgentInstruct:
- 합성 데이터 생성에 적합한 방법
- 관련 연구:
- NeurIPS의 Synthetic Data Picks
-
RL 튜닝:
- OpenAI의 **RL Finetuning for o1**는 논란의 여지가 있지만 중요한 자료
- 관련 연구:
- Let’s Verify Step By Step
- Noam Brown의 강연
-
Unsloth 노트북:
- 깃허브에 실습 중심 노트북 제공
-
HuggingFace 가이드:
- How to fine-tune open LLMs: 파인튜닝 전체 과정에 대한 심층 가이드
AI 엔지니어를 위한 2025년 독서 목록 마무리
- 이 목록은 방대하고 위압적으로 느껴질 수 있지만, 중간에 포기해도 괜찮음. 중요한 것은 다시 시작하는 것
- 최신 정보를 유지하기 위해 2025년에도 지속적으로 업데이트될 예정
- 자신의 학습 방법을 만들어도 좋지만, 1시간 안에 논문 읽는 법을 참고하면 도움이 될 것
- 독서 및 학습 팁은 여기에서 확인 가능
- 커뮤니티와 함께 학습하기
-
디스코드 및 텔레그램 그룹:
- Krispin의 디스코드 그룹: https://app.discuna.com/invite/ai_engineer
- NYC에서 활동 중인 Fed of Flow AI의 텔레그램 그룹: AI NYC 텔레그램
- Latent Space 디스코드 커뮤니티 참여: 디스코드 초대 링크
-
노트와 하이라이트 공유:
- 독자 Niels가 시작한 블로그: 2025 AI Engineer Reading List 노트
-
디스코드 및 텔레그램 그룹:
Hacker News 의견
-
대부분의 논문은 깊은 이해보다는 지식 습득에 중점을 두고 있음. 주제에 익숙하지 않다면 논문보다는 교과서로 시작하는 것이 좋음. 최신 Bishop의 "Deep Learning: Foundations and Concepts (2024)"와 Chip Huyen의 "AI Engineering (2024)"이 좋은 자료임. "Dive into Deep Learning"이나 fast.ai의 자료도 추천됨
-
"AI Engineer"라는 직업이 무엇인지 모르겠지만, 연구 논문을 읽는 것이 실제로 필요한지 의문임. AI의 최첨단을 다루지 않는다면 논문을 읽는 것은 의미가 없을 수 있음. LLM의 반응을 이해하고 사용자 친화적인 앱을 구축하는 것이 더 중요함. OpenAI나 Groq의 API를 사용할 때 "multi head attention"과 "single head attention"의 차이를 아는 것은 크게 유용하지 않음
-
목록을 작성하는 것은 어려운 작업임. 선택한 것 외에도 적합한 후보가 많기 때문에 이것을 커리큘럼으로 보고, 현재 관련 논문은 고정된 참조가 아닌 이동하는 포인터로 이해해야 함. 특정 독서 목록을 논문 클럽에서 다룸
-
대부분의 오픈 소스 모델의 지침 미세 조정 방법은 Alpaca에서 비롯됨. Alpaca와 합성 데이터 생성에 관한 논문도 포함되어야 함
-
AI와 LLM 논문을 읽고 이해하는 데 시간을 낭비하지 말고, ELIZA에 대해 읽고 직접 구축해보는 것이 좋음. 텐서, 벡터, 필드, 언어학, 컴퓨터 아키텍처, 네트워크에 집중해야 함
-
독서 목록은 약 1년 전의 것임. 2025년에는 KTO, RLOO, DPO와 같은 기술에 집중해야 함. 2025년에는 증류와 최적화에만 집중해야 함. CoT는 새로운 것이 아니며, 수정된 CoT가 핵심임
-
"AI"라는 용어가 최근의 DL 발전에 의해 거의 완전히 흡수된 것이 흥미로움. Russell & Norvig, Minsky, Shannon, Lenat 등의 언급이 없음. AI에 대한 더 넓은 주제로의 소개에 관심이 있다면, 대부분의 대학원 과정에서 같은 책을 사용함
-
훌륭한 조사임. 아래의 코스와 결합하면 최고의 결과를 얻을 수 있음
-
훌륭한 목록임