# 2025 AI 엔지니어 독서 목록

> Clean Markdown view of GeekNews topic #18730. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=18730](https://news.hada.io/topic?id=18730)
- GeekNews Markdown: [https://news.hada.io/topic/18730.md](https://news.hada.io/topic/18730.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-01-14T16:38:29+09:00
- Updated: 2025-01-14T16:38:29+09:00
- Original source: [latent.space](https://www.latent.space/p/2025-papers)
- Points: 45
- Comments: 3

## Summary

AI 관련 뉴스레터이자 팟캐스트, 커뮤니티 이기도 한 Latent Space가 10개 주제(LLM, 벤치마크, 프롬프팅, RAG, 에이전트, 코드 생성, 비전, 음성, 확산, 파인튜닝) 에 관한 필수 논문을 딱 5개씩 추리고, 왜 그 논문이 중요한지를 간단히 설명합니다. 다양한 관련 블로그 및 모델 링크도 포함하고 있으니 참고하세요.

## Topic Body

- AI 엔지니어를 위한 50개의 논문, 모델, 블로그를 10개의 분야로 나누어 선정  
- LLMs, 벤치마크, 프롬프팅, RAG, 에이전트, 코드 생성, 비전, 음성, 확산, 파인튜닝 분야를 포함  
  
### 섹션 1: 최전선 LLMs  
- **OpenAI 모델**  
  - **GPT1** ([논문](https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf)), **GPT2** ([논문](https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf)), **GPT3** ([논문](https://arxiv.org/abs/2005.14165)), **Codex** ([논문](https://arxiv.org/abs/2107.03374)), **InstructGPT** ([논문](https://arxiv.org/abs/2203.02155)), **GPT4** ([논문](https://arxiv.org/abs/2303.08774))  
  - **GPT3.5** ([ChatGPT 소개](https://openai.com/index/chatgpt/)), **4o** ([GPT-4o 소개](https://openai.com/index/hello-gpt-4o/)), **o1** ([o1 프리뷰](https://openai.com/index/introducing-openai-o1-preview/)), **o3** ([시스템 카드](https://openai.com/index/deliberative-alignment/))  
- **Anthropic 및 Google 모델**  
  - **Claude 3** ([논문](https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf)), **Gemini 1** ([논문](https://arxiv.org/abs/2312.11805))  
  - **Claude 3.5 Sonnet** ([세부정보](https://www.latent.space/p/claude-sonnet)), **Gemini 2.0 Flash** ([공식 블로그](https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/#gemini-2-0-flash)), **Flash Thinking** ([Gemini API 문서](https://ai.google.dev/gemini-api/docs/thinking-mode)), **Gemma 2** ([논문](https://arxiv.org/abs/2408.00118))  
- **Meta와 관련된 LLaMA 계열**  
  - **LLaMA 1** ([논문](https://arxiv.org/abs/2302.13971)), **LLaMA 2** ([논문](https://arxiv.org/abs/2307.09288)), **LLaMA 3** ([논문](https://arxiv.org/abs/2407.21783))  
  - 확장 모델: **Mistral 7B** ([논문](https://arxiv.org/abs/2310.06825)), **Mixtral** ([논문](https://arxiv.org/abs/2401.04088)), **Pixtral** ([논문](https://arxiv.org/abs/2410.07073))  
- **DeepSeek 모델**  
  - **DeepSeek V1** ([논문](https://arxiv.org/abs/2401.02954)), **Coder** ([논문](https://arxiv.org/abs/2401.14196)), **MoE** ([논문](https://arxiv.org/abs/2401.06066)), **V2** ([논문](https://arxiv.org/abs/2405.04434)), **V3** ([깃허브](https://github.com/deepseek-ai/DeepSeek-V3))  
- **Apple Intelligence**  
  - **Apple Intelligence** ([논문](https://arxiv.org/abs/2407.21075)) - 모든 Mac 및 iPhone에 포함된 모델  
- 주목할 만한 추가 모델 및 연구  
  - **LLM 모델**  
    - **AI2 계열**: [Olmo](https://arxiv.org/abs/2402.00838), [Molmo](https://arxiv.org/abs/2409.17146), [OlmOE](https://arxiv.org/abs/2409.02060), [Tülu 3](https://allenai.org/blog/tulu-3-technical), [Olmo 2](https://x.com/soldni/status/1875266934943649808?s=46)  
    - **기타**: [Grok](https://github.com/xai-org/grok-1), [Amazon Nova](https://buttondown.com/ainews/archive/ainews-olympus-has-dropped-aka-amazon-nova/), [Yi](https://www.wired.com/story/chinese-startup-01-ai-is-winning-the-open-source-ai-race/), [Reka](https://www.latent.space/p/yitay), [Jamba](https://buttondown.com/ainews/archive/ainews-jamba-mixture-of-architectures-dethrones/), [Cohere](https://cohere.com/command), [Nemotron](https://buttondown.com/ainews/archive/ainews-to-be-named-2748/), [Microsoft Phi](https://arxiv.org/abs/2412.08905), [HuggingFace SmolLM](https://www.latent.space/p/2024-open-models)  
  - **Scaling Laws 연구**  
    - **Scaling Laws**: [Kaplan](http://arxiv.org/abs/2001.08361), [Chinchilla](https://arxiv.org/abs/2203.15556), [Emergence](https://arxiv.org/abs/2206.07682), [Mirage](https://arxiv.org/abs/2304.15004), [Post-Chinchilla Laws](https://arxiv.org/abs/2401.00448)  
  - 최첨단 모델:  
    - **o1**, [o3](https://en.wikipedia.org/wiki/OpenAI_o3), [R1](https://api-docs.deepseek.com/news/news1120), [QwQ](https://qwenlm.github.io/blog/qwq-32b-preview/), [QVQ](https://qwenlm.github.io/blog/qvq-72b-preview/), [f1](https://fireworks.ai/blog/fireworks-compound-ai-system-f1)  
  - Reasoning 모델 연구:  
    - [Let’s Verify Step By Step](https://arxiv.org/abs/2305.20050), [STaR](https://www.youtube.com/watch?v=Y5-FeaFOEFM), [Noam Brown의 강연](https://www.youtube.com/live/Gr_eYXdHFis)  
  
### 섹션 2: 벤치마크 및 평가  
- **MMLU**  
  - **MMLU** ([논문](https://arxiv.org/abs/2009.03300)): 다분야 지식 벤치마크의 표준  
    - 2025년 최첨단 연구는 **MMLU Pro** ([논문](https://arxiv.org/abs/2406.01574)), **GPQA Diamond** ([논문](https://arxiv.org/abs/2311.12022)), **BIG-Bench Hard** ([논문](https://arxiv.org/abs/2210.09261))를 사용  
  - **GPQA** ([논문](https://arxiv.org/abs/2311.12022)): 질문 생성 및 정답 평가에 중점  
  - **BIG-Bench** ([논문](https://arxiv.org/abs/2206.04615)): 다방면의 문제를 포함한 대규모 벤치마크  
- **MuSR** ([논문](https://arxiv.org/abs/2310.16049)): 긴 문맥 내 평가  
  - 관련 연구: **LongBench** ([논문](https://arxiv.org/abs/2412.15204)), **BABILong** ([논문](https://arxiv.org/abs/2406.10149)), **RULER** ([소개](https://www.latent.space/p/gradient))  
  - 문제 해결: **Lost in the Middle** ([논문](https://arxiv.org/abs/2307.03172)), **Needle in a Haystack** ([깃허브](https://github.com/gkamradt/LLMTest_NeedleInAHaystack))  
- **MATH** ([논문](https://arxiv.org/abs/2103.03874)): 수학 경시대회 문제 모음  
  - 최첨단 연구는 **FrontierMath** ([논문](https://arxiv.org/abs/2411.04872)) 및 고난도 문제에 초점  
  - 하위 집합: **MATH Level 5**, [AIME](https://www.kaggle.com/datasets/hemishveeraboina/aime-problem-set-1983-2024), [AMC10/AMC12](https://github.com/ryanrudes/amc)  
- **IFEval** ([논문](https://arxiv.org/abs/2311.07911)): 주요 명령어 이행 평가 벤치마크  
  - Apple의 공식 채택 ([링크](https://machinelearning.apple.com/research/introducing-apple-foundation-models))  
  - 관련 벤치마크: **MT-Bench** ([논문](https://arxiv.org/abs/2306.05685))  
- **ARC AGI** ([공식 페이지](https://arcprize.org/arc)): 추상적 추론과 "IQ 테스트" 벤치마크  
  - 빠르게 포화되는 다른 벤치마크와 달리 장기적으로 유지  
- **추가 참고 자료**  
  - **Latent Space**: [Benchmarks 101](https://www.latent.space/p/benchmarks-101), [Benchmarks 201](https://www.latent.space/p/benchmarks-201)  
  - **Carlini**, **LMArena**, **Braintrust**: 벤치마크에 대한 심층 분석  
  - LLM 관련 자료: [LLM-as-Judge](https://hamel.dev/blog/posts/llm-judge/), [Applied LLMs](https://applied-llms.org/#evaluation-monitoring)  
  - **데이터셋 리소스**: [Datasets](https://www.latent.space/p/datasets-101)  
  
### 섹션 3: 프롬프팅, ICL 및 사고의 연쇄  
  
- **GPT-3와 In-Context Learning (ICL)**  
  - **GPT-3** 논문([논문](https://arxiv.org/abs/2005.14165)): **In-Context Learning (ICL)** 개념 소개  
  - ICL은 프롬프팅과 밀접한 관련이 있으며, 이를 통해 LLM이 문맥 내에서 학습하고 적용 가능  
  - **Prompt Injection**: 프롬프트 조작 및 보안 문제 ([Lilian Weng의 정리](https://lilianweng.github.io/posts/2023-10-25-adv-attack-llm/), [Simon Willison의 시리즈](https://simonwillison.net/series/prompt-injection/))  
- **[The Prompt Report](https://arxiv.org/abs/2406.06608)**: 프롬프팅 관련 논문 서베이  
  - 개요: 프롬프팅 기술의 전반적인 발전과 최신 트렌드 요약 ([관련 팟캐스트](https://www.latent.space/p/learn-prompting))  
- **[Chain-of-Thought (CoT)](https://arxiv.org/abs/2201.11903)**:  
  - 단계별 사고 프로세스 모델링  
  - 관련 연구:  
    - **Scratchpads** ([논문](https://arxiv.org/abs/2112.00114))  
    - **Let’s Think Step By Step** ([논문](https://arxiv.org/abs/2205.11916))  
- **[Tree of Thought](https://arxiv.org/abs/2305.10601)**:  
  - Lookahead와 Backtracking 개념 소개  
  - 복잡한 문제 해결을 위한 효과적인 방법 ([관련 팟캐스트](https://www.latent.space/p/shunyu))  
- **[Prompt Tuning](https://aclanthology.org/2021.emnlp-main.243/)**:  
  - 프롬프트 없이 모델 성능 조정 가능:  
    - **Prefix-Tuning** ([논문](https://arxiv.org/abs/2101.00190))  
    - **Entropy 기반 디코딩 조정** ([깃허브](https://github.com/xjdr-alt/entropix))  
    - **Representation Engineering** ([블로그](https://vgel.me/posts/representation-engineering/))  
- **[Automatic Prompt Engineering](https://arxiv.org/abs/2211.01910)**:  
   - LLM이 직접 프롬프트를 생성하고 최적화하는 방법  
   - **DSPy 프레임워크** ([논문](https://arxiv.org/abs/2310.03714))에서 구현  
- 연구 논문뿐 아니라 실무적인 가이드가 유용:  
  - **Lilian Weng**의 [Prompt Engineering 블로그](https://lilianweng.github.io/posts/2023-03-15-prompt-engineering/)  
  - **Eugene Yan**의 [Prompting 가이드](https://eugeneyan.com/writing/prompting/)  
  - **Anthropic의 튜토리얼 및 워크숍**:  
    - [Interactive Prompt Engineering Tutorial](https://github.com/anthropics/prompt-eng-interactive-tutorial)  
    - [AI Engineer Workshop](https://www.youtube.com/watch?v=hkhDdcM5V94)  
  
### 섹션 4: RAG (Retrieval-Augmented Generation)  
  
- **[Introduction to Information Retrieval](https://nlp.stanford.edu/IR-book/information-retrieval-book.html)**: 정보 검색의 기초를 다루는 고전적인 참고서  
  - RAG는 정보 검색(IR) 문제로, 60년 이상의 역사를 가진 분야와 밀접한 관련이 있음  
  - 주요 기술:  
    - **TF-IDF**, **BM25**: 텍스트 기반 검색  
    - **FAISS**, **HNSW**: 벡터 검색 및 근접 탐색  
- **[Meta RAG](https://arxiv.org/abs/2005.11401)** ([2020년 논문](https://arxiv.org/abs/2005.11401)) : RAG 용어 최초 등장  
  - **HyDE** ([문서](https://docs.llamaindex.ai/en/stable/optimizing/advanced_retrieval/query_transformations/))  
  - **Chunking** ([연구](https://research.trychroma.com/evaluating-chunking))  
  - **Rerankers** ([Cohere 블로그](https://cohere.com/blog/rerank-3pt5))  
  - **멀티모달 데이터 처리** ([YouTube](https://www.youtube.com/watch?v=i2vBaFzCEJw))  
- **[MTEB](https://arxiv.org/abs/2210.07316)**: 임베딩 평가 벤치마크  
  - 논란과 한계 ([관련 토론](https://news.ycombinator.com/item?id=42504379))  
  - 임베딩 모델 예시:  
    - [SentenceTransformers](https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2)  
    - **OpenAI**, **Nomic Embed**, **ModernBERT Embed**  
    - **Matryoshka Embeddings** ([HuggingFace 블로그](https://huggingface.co/blog/matryoshka))  
- **[GraphRAG](https://arxiv.org/pdf/2404.16130)**: Microsoft의 RAG와 지식 그래프 통합  
  - **GraphRAG**:  
    - 지식 그래프를 RAG 워크플로우에 통합하여 개인 데이터에서 더 나은 결과 제공  
    - 오픈소스화 ([Microsoft 블로그](https://buttondown.com/ainews/archive/ainews-graphrag/))  
  - 관련 연구:  
    - [ColBERT](https://github.com/stanford-futuredata/ColBERT), **ColPali**, **ColQwen**  
- **[RAGAS](https://arxiv.org/abs/2309.15217)**: OpenAI가 추천한 간단한 RAG 평가 방법  
  - **Nvidia FACTS Framework** ([논문](https://arxiv.org/abs/2407.07858v1))  
  - **Extrinsic Hallucinations in LLMs** ([Lilian Weng의 조사](https://lilianweng.github.io/posts/2024-07-07-hallucination/))  
  - **Jason Wei의 Recall vs Precision** ([트윗](https://x.com/_jasonwei/status/1871285864690815053))  
- 학습 자료와 RAG 실무  
  - **LlamaIndex** ([문서](https://docs.llamaindex.ai/en/stable/understanding/rag/), [코스](https://www.deeplearning.ai/short-courses/building-evaluating-advanced-rag/))  
  - **LangChain** ([문서](https://python.langchain.com/docs/tutorials/rag/), [튜토리얼 영상](https://www.youtube.com/watch?v=wd7TZ4w1mSw))  
  - **RAG vs Long Context Debate**:  
    - [논문](https://arxiv.org/abs/2407.16833): RAG와 긴 컨텍스트 접근법 비교  
  
### 섹션 5: 에이전트  
- **[SWE-Bench](https://arxiv.org/abs/2310.06770)**:  
  - **에이전트 평가**를 위한 대표적인 벤치마크 (코딩 중심)  
  - Anthropic, Devin, OpenAI 등에서 채택되어 높은 주목도  
  - 관련 자료:  
    - **SWE-Agent** ([논문](https://arxiv.org/abs/2405.15793))  
    - **SWE-Bench Multimodal** ([논문](https://arxiv.org/abs/2410.03859))  
    - **Konwinski Prize** ([웹사이트](https://kprize.ai/))  
  - 비교: **WebArena** ([깃허브](https://github.com/web-arena-x/webarena)), **SWE-Gym** ([관련 트윗](https://x.com/jiayi_pirate/status/1871249410128322856))  
- **[ReAct](https://arxiv.org/abs/2210.03629)**:  
  - **도구 사용 및 함수 호출** LLM 연구의 시발점  
  - 관련 연구:  
    - **Gorilla** ([리더보드](https://gorilla.cs.berkeley.edu/leaderboard.html))  
    - **Toolformer** ([논문](https://arxiv.org/abs/2302.04761))  
    - **HuggingGPT** ([논문](https://arxiv.org/abs/2303.17580))  
- **[MemGPT](https://arxiv.org/abs/2310.08560)**:  
  - **장기 메모리 에뮬레이션** 접근 방식  
  - 주요 활용:  
    - ChatGPT의 [메모리 및 제어 기능](https://openai.com/index/memory-and-new-controls-for-chatgpt)  
    - [LangGraph의 에피소드 메모리](https://langchain-ai.github.io/langgraph/concepts/memory/#episodic-memory)  
  - 관련 시스템:  
    - **MetaGPT** ([논문](https://arxiv.org/abs/2308.00352))  
    - **AutoGen** ([논문](https://arxiv.org/abs/2308.08155))  
    - **Smallville** ([깃허브](https://github.com/joonspk-research/generative_agents))  
- **[Voyager](https://arxiv.org/abs/2305.16291)**:  
  - Nvidia의 **인지 아키텍처** 접근:  
    - **커리큘럼, 스킬 라이브러리, 샌드박스**를 활용한 성능 향상  
  - 개념 확장:  
    - **Agent Workflow Memory** ([논문](https://arxiv.org/abs/2409.07429))  
- **Anthropic의 [Building Effective Agents](https://www.anthropic.com/research/building-effective-agents)**:  
  - 2024년 에이전트 설계의 핵심 정리  
  - 주요 주제:  
    - **체이닝, 라우팅, 병렬화, 오케스트레이션, 평가, 최적화**  
  - 관련 자료:  
    - **Lilian Weng**의 [에이전트 연구](https://lilianweng.github.io/posts/2023-06-23-agent/)  
    - **Shunyu Yao**의 [LLM 에이전트 연구](https://www.latent.space/p/shunyu)  
    - **Chip Huyen**의 [2025년 에이전트 개요](https://huyenchip.com//2025/01/07/agents.html)  
- **추가 학습 자료 및 강의**  
  - **2024년 최신 에이전트 디자인**: [NeurIPS 정리](https://www.latent.space/p/2024-agents)  
  - **UC Berkeley MOOC**: [LLM Agents 강의](https://llmagents-learning.org/f24)  
  - **에이전트 정의 논의**: 필요 시 [이 정의](https://www.youtube.com/watch?v=wnsZ7DuqYp0) 참조  
  
### 섹션 6: 코드 생성(CodeGen)  
  
- **[The Stack paper](https://arxiv.org/abs/2211.15533)**  
  - The Pile의 코드 중심 오픈 데이터셋 쌍으로 시작  
  - 후속 작업:  
    - **[The Stack v2](https://huggingface.co/datasets/bigcode/the-stack-v2)**: 개선된 데이터셋  
    - **[StarCoder](https://arxiv.org/abs/2402.19173)**: 최적화된 코드 생성 모델  
- **오픈 코드 모델 논문**  
  - [DeepSeek-Coder](https://arxiv.org/abs/2401.14196)  
  - [Qwen2.5-Coder](https://arxiv.org/abs/2409.12186)  
  - [CodeLlama](https://ai.meta.com/research/publications/code-llama-open-foundation-models-for-code/)  
  - 많은 이들이 [Claude 3.5 Sonnet](https://www.latent.space/p/claude-sonnet)을 최고의 코드 모델로 평가하지만 공식 논문은 없음  
- **[HumanEval/Codex](https://arxiv.org/abs/2107.03374)**  
  - 코딩 도메인의 필수 벤치마크 (현재는 포화 상태)  
  - 현대적 대체 벤치마크:  
    - **[Aider](https://aider.chat/docs/leaderboards/)**  
    - **[Codeforces](https://arxiv.org/abs/2312.02143)**  
    - **[BigCodeBench](https://huggingface.co/spaces/bigcode/bigcodebench-leaderboard)**  
    - **[LiveCodeBench](https://livecodebench.github.io/)**  
    - **[SciCode](https://buttondown.com/ainews/archive/ainews-to-be-named-5745/)**  
  - **[SWE-Bench](https://arxiv.org/abs/2310.06770)**   
    - 에이전트 중심 평가로 유명하지만 비용이 많이 들고 모델보다는 에이전트 평가에 초점  
- **[AlphaCodeium](https://arxiv.org/abs/2401.08500)**  
  - Google의 **AlphaCode** 및 **AlphaCode2** 성능 기반  
  - **Flow Engineering**을 활용해 기존 모델의 성능을 대폭 향상  
- **[CriticGPT](https://criticgpt.org/criticgpt-openai/)**  
  - 코드 생성 시 발생하는 보안 문제 탐지에 초점  
    - OpenAI의 CriticGPT는 보안 문제를 식별하도록 학습  
    - Anthropic은 **SAEs**(Safety-relevant Activation Ensembles)를 사용해 문제를 유발하는 LLM 특징 분석 ([연구](https://transformer-circuits.pub/2024/scaling-monosemanticity/index.html#safety-relevant-code))  
- 산업에서의 코드 생성은 연구에서 실무로 중심 이동:  
  - **Devin**과 같은 코드 에이전트 활용 ([영상](https://www.youtube.com/watch?v=T7NWjoD_OuY&t=8s))  
  - 코드 생성에 대한 실무적 조언 ([YouTube](https://www.youtube.com/watch?v=Ve-akpov78Q))  
  
### 섹션 7: 비전  
- **Non-LLM 기반 비전 연구**  
  - **[YOLO](https://arxiv.org/abs/1506.02640)**:  
    - 실시간 객체 탐지 모델로 유명  
    - 현재 **v11**까지 발전 ([깃허브](https://github.com/ultralytics/ultralytics))  
    - 최근 연구: **[DETR](https://arxiv.org/abs/2304.08069)** 기반 트랜스포머 모델이 YOLO를 능가하는 성과를 보임  
  - 참고: YOLO의 다양한 버전과 발전 계보에 주의 ([관련 토론](https://news.ycombinator.com/item?id=42352342))  
- **[CLIP](https://arxiv.org/abs/2103.00020)**:  
  - ViT 기반 멀티모달 모델의 성공 사례  
  - 최신 모델:  
    - **[BLIP](https://arxiv.org/abs/2201.12086)**, **[BLIP2](https://arxiv.org/abs/2301.12597)**  
    - **[SigLIP/PaliGemma](https://www.latent.space/i/152857207/part-vision)**  
  - CLIP은 여전히 중요한 배경 지식  
- **[MMVP benchmark](https://arxiv.org/abs/2401.06209)**:  
  - CLIP의 한계를 평가  
  - 멀티모달 버전: **[MMMU](https://arxiv.org/abs/2311.16502)**, **[SWE-Bench Multimodal](https://arxiv.org/abs/2410.03859)**  
- **[Segment Anything Model (SAM)](https://arxiv.org/abs/2304.02643)**:  
  - 이미지 및 비디오 세그멘테이션의 대표 모델  
  - 후속 연구: **[SAM 2](https://arxiv.org/abs/2408.00714)** ([관련 팟캐스트](https://latent.space/p/sam2))  
  - 보완 모델: **[GroundingDINO](https://github.com/IDEA-Research/GroundingDINO)**  
- **Early Fusion vs Late Fusion**:  
  - **Late Fusion**: **[LLaVA](https://arxiv.org/abs/2304.08485)** ([팟캐스트](https://www.latent.space/p/neurips-2023-papers))  
  - **Early Fusion**:  
    - Meta의 **[Flamingo](https://huyenchip.com/2023/10/10/multimodal.html)**  
    - **[Chameleon](https://arxiv.org/abs/2405.09818)**  
    - Apple의 **[AIMv2](https://arxiv.org/abs/2411.14402)**  
    - Reka의 **[Core](https://arxiv.org/abs/2404.12387)**  
  - 참고 자료: [멀티모달 비전 연구 흐름](https://lilianweng.github.io/posts/2022-06-09-vlm/)  
- 출판되지 않은 최신 작업:  
  - **[GPT4V System Card](https://cdn.openai.com/papers/GPTV_System_Card.pdf)** 및 파생 연구 ([논문](https://arxiv.org/abs/2309.17421))  
  - OpenAI **4o**:  
    - [4o Vision 미세 조정](https://blog.roboflow.com/gpt-4o-object-detection/)  
  - 최신 모델:  
    - **Claude 3.5 Sonnet/Haiku**  
    - **Gemini 2.0 Flash**  
    - **o1**  
    - 기타 모델:  
      - **[Pixtral](https://mistral.ai/news/pixtral-large/)**  
      - **[Llama 3.2](https://buttondown.com/ainews/archive/ainews-llama-32-on-device-1b3b-and-multimodal/)**  
      - **[Moondream](https://www.youtube.com/watch?v=T7sxvrJLJ14)**  
      - **[QVQ](https://news.ycombinator.com/item?id=42505038)**  
  
### 섹션 8: 음성  
  
- **[Whisper](https://arxiv.org/abs/2212.04356)**:  
  - OpenAI의 성공적인 **ASR** 모델  
  - 주요 버전:  
    - **Whisper v2** ([관련 토론](https://news.ycombinator.com/item?id=33884716))  
    - **Whisper v3** ([관련 토론](https://news.ycombinator.com/item?id=38166965))  
    - **Distil-Whisper** ([깃허브](https://github.com/huggingface/distil-whisper))  
    - **Whisper v3 Turbo** ([분석](https://amgadhasan.substack.com/p/demystifying-openais-new-whisper))  
  - Whisper는 여러 공개 가중치 모델 제공, 하지만 일부 버전은 논문 없음  
- **[AudioPaLM](http://audiopalm/)**:  
  - Google의 AudioPaLM은 PaLM에서 Gemini로 전환되기 전의 연구  
  - 참고: Meta의 **Llama 3** 음성 탐구 ([논문](https://arxiv.org/abs/2407.21783))  
- **[NaturalSpeech](https://arxiv.org/abs/2205.04421?utm_source=chatgpt.com)**:  
  - 주요 **TTS** 연구 중 하나  
  - 최근 **v3** ([논문](https://arxiv.org/abs/2403.03100))로 업데이트  
- **[Kyutai Moshi](http://moshi/)**:  
  - **풀-듀플렉스 음성-텍스트** 오픈 가중치 모델  
  - 고품질 데모 ([YouTube](https://www.youtube.com/watch?v=hm2IJSKcYvo))  
  - 참고 모델: **Hume OCTAVE** ([블로그](https://www.hume.ai/blog/introducing-octave))  
- **[OpenAI Realtime API: The Missing Manual](https://www.latent.space/p/realtime-api)**:  
  - OpenAI의 실시간 음성 API에 대한 비공식 문서  
  - 최신 에이전트 및 실시간 작업에 중요한 도구  
- **대형 연구소 외 다양한 솔루션 추천**:  
  - **Daily**, **Livekit**, **Vapi**, **Assembly**, **Deepgram**, **Fireworks**, **Cartesia**, **Elevenlabs**  
  - 참고: **[State of Voice AI 2024](https://www.cartesia.ai/blog/state-of-voice-ai-2024)**  
  - **NotebookLM 음성 모델**:  
    - 모델은 공개되지 않았으나, **[모델링 프로세스에 대한 심층 설명](https://www.latent.space/p/notebooklm)** 제공  
- **Gemini 2.0**: 음성과 비전을 자연스럽게 통합한 멀티모달 모델  
  - **2025년 이후**: 음성과 비전 모달리티의 융합이 명확한 경로로 진화 중  
  
### 섹션 9: 이미지/비디오 확산  
- **[Latent Diffusion](https://arxiv.org/abs/2112.10752)**:  
  - Stable Diffusion의 핵심 논문  
  - 확장 버전:  
    - **SD2** ([공식 발표](https://stability.ai/news/stable-diffusion-v2-release))  
    - **[SDXL](https://arxiv.org/abs/2307.01952)** 및 **[SD3](https://arxiv.org/abs/2403.03206)**  
  - 현재 팀은 **[BFL Flux](https://github.com/black-forest-labs/flux)** 개발 중  
- **OpenAI DALL-E 시리즈**:  
  - **[DALL-E](https://arxiv.org/abs/2102.12092)**, **[DALL-E-2](https://arxiv.org/abs/2204.06125)**, **[DALL-E-3](https://cdn.openai.com/papers/dall-e-3.pdf)**  
- **Google Imagen 시리즈**:  
  - **[Imagen](https://arxiv.org/abs/2205.11487)**, **[Imagen 2](https://deepmind.google/technologies/imagen-2/)**, **[Imagen 3](https://arxiv.org/abs/2408.07009)**  
  - 참고: **[Ideogram](https://www.reddit.com/r/singularity/comments/1exsq4d/introducing_ideogram_20_our_most_advanced/)**  
- **[Consistency Models](https://arxiv.org/abs/2303.01469)**:  
  - 디퓨전 모델의 증류 작업  
  - 확장:  
    - **[LCMs](https://arxiv.org/abs/2310.04378)**  
    - 최신 업데이트: **[sCMs](https://arxiv.org/abs/2410.11081)**  
- **[Sora](https://openai.com/index/sora/)**:  
  - OpenAI의 텍스트-비디오 변환 도구 (공식 논문 없음)  
  - 참고:  
    - **[DiT 논문](https://arxiv.org/abs/2212.09748)** (같은 저자)  
    - **[OpenSora](https://arxiv.org/abs/2412.00131)**: 오픈 가중치 기반 경쟁 모델  
    - **[Lilian Weng의 정리](https://lilianweng.github.io/posts/2024-04-12-diffusion-video/)**  
- **ComfyUI**:  
  - 비전 모델 사용자 인터페이스로 주목받음 ([관련 인터뷰](https://www.latent.space/p/comfyui))  
- **전문 분야**:  
  - **[Text Diffusion](https://www.youtube.com/watch?v=1mG678f1ZYU&pp=ygUOdGV4dCBkaWZmdXNpb24%3D)**: 텍스트 기반 디퓨전 모델  
  - **[Music Diffusion](https://arxiv.org/abs/2302.03917)**: 음악 생성 디퓨전  
  - **[Autoregressive Image Generation](https://arxiv.org/abs/2406.06525)**: 자회귀 이미지 생성  
- **Open Weights 경쟁**:  
  - [Text-to-Video Arena](https://artificialanalysis.ai/text-to-video/arena?tab=Leaderboard)  
- **최신 동향 이해**:  
  - Stable Diffusion 및 DALL-E 모델 활용  
  - 텍스트와 비디오 모달리티의 융합 연구  
  
### 섹션 10: 모델 파인튜닝(Finetuning)  
  
- **[LoRA](https://arxiv.org/abs/2106.09685)/[QLoRA](http://arxiv.org/abs/2305.14314)**:  
  - 저비용 모델 파인튜닝의 표준  
  - 주요 응용:  
    - 로컬 모델 및 OpenAI의 **4o**에서도 지원 ([팟캐스트 확인](https://www.latent.space/p/cosine))  
    - **FSDP+QLoRA**: [교육 자료](https://www.answer.ai/posts/2024-03-06-fsdp-qlora.html)  
- **[DPO](https://arxiv.org/abs/2305.18290)**:  
  - OpenAI의 [Preference Finetuning](https://platform.openai.com/docs/guides/fine-tuning#preference)에서 지원  
  - **PPO** ([논문](https://arxiv.org/abs/1707.06347))의 대안으로 인기가 있지만 성능은 다소 낮음  
- **[ReFT](https://arxiv.org/abs/2404.03592)**:  
  - 기존의 몇몇 레이어를 파인튜닝하는 대신 모델의 특징(feature)에 집중  
  - 효율적인 파인튜닝 접근법  
- **[Orca 3/AgentInstruct](https://www.microsoft.com/en-us/research/blog/orca-agentinstruct-agentic-flows-can-be-effective-synthetic-data-generators/)**:  
  - 합성 데이터 생성에 적합한 방법  
  - 관련 연구:  
    - NeurIPS의 [Synthetic Data Picks](https://www.latent.space/p/2024-syndata-smolmodels)  
- **RL 튜닝**:  
  - OpenAI의 **[RL Finetuning for o1](https://www.interconnects.ai/p/openais-reinforcement-finetuning)**는 논란의 여지가 있지만 중요한 자료  
  - 관련 연구:  
    - **[Let’s Verify Step By Step](https://arxiv.org/abs/2305.20050)**  
    - **Noam Brown**의 [강연](https://x.com/swyx/status/1867990396762243324)  
- **Unsloth 노트북**:  
  - [깃허브](https://github.com/unslothai/unsloth)에 실습 중심 노트북 제공  
- **HuggingFace 가이드**:  
  - [How to fine-tune open LLMs](https://www.philschmid.de/fine-tune-llms-in-2025): 파인튜닝 전체 과정에 대한 심층 가이드  
  
### AI 엔지니어를 위한 2025년 독서 목록 마무리  
  
- 이 목록은 방대하고 위압적으로 느껴질 수 있지만, 중간에 포기해도 괜찮음. 중요한 것은 다시 시작하는 것  
- 최신 정보를 유지하기 위해 2025년에도 지속적으로 업데이트될 예정  
- 자신의 학습 방법을 만들어도 좋지만, [1시간 안에 논문 읽는 법](https://www.latent.space/i/152108729/how-to-read-papers-in-an-hour)을 참고하면 도움이 될 것  
- 독서 및 학습 팁은 [여기](https://x.com/swyx/status/1875606586569453592)에서 확인 가능  
- 커뮤니티와 함께 학습하기  
  - **디스코드 및 텔레그램 그룹**:  
    - **Krispin**의 디스코드 그룹: [https://app.discuna.com/invite/ai_engineer](https://app.discuna.com/invite/ai_engineer)  
    - NYC에서 활동 중인 **Fed of Flow AI**의 텔레그램 그룹: [AI NYC 텔레그램](https://x.com/feulf/status/1879221676656959523)  
    - **Latent Space** 디스코드 커뮤니티 참여: [디스코드 초대 링크](https://discord.gg/xJJMRaWCRt)  
  - **노트와 하이라이트 공유**:  
    - 독자 **Niels**가 시작한 블로그: [2025 AI Engineer Reading List 노트](https://niels-ole.com/2025/01/05/notes-on-the-2025-ai-engineer-reading-list)

## Comments


### Comment 33509

- Author: kipsong133
- Created: 2025-01-16T10:13:31+09:00
- Points: 1

이렇게 보니, 정말 자세히 보면 좋을 자료가 아직 넘쳐나는군요

### Comment 33425

- Author: neo
- Created: 2025-01-14T16:38:29+09:00
- Points: 2

###### [Hacker News 의견](https://news.ycombinator.com/item?id=42686457) 
- 대부분의 논문은 깊은 이해보다는 지식 습득에 중점을 두고 있음. 주제에 익숙하지 않다면 논문보다는 교과서로 시작하는 것이 좋음. 최신 Bishop의 "Deep Learning: Foundations and Concepts (2024)"와 Chip Huyen의 "AI Engineering (2024)"이 좋은 자료임. "Dive into Deep Learning"이나 fast.ai의 자료도 추천됨

- "AI Engineer"라는 직업이 무엇인지 모르겠지만, 연구 논문을 읽는 것이 실제로 필요한지 의문임. AI의 최첨단을 다루지 않는다면 논문을 읽는 것은 의미가 없을 수 있음. LLM의 반응을 이해하고 사용자 친화적인 앱을 구축하는 것이 더 중요함. OpenAI나 Groq의 API를 사용할 때 "multi head attention"과 "single head attention"의 차이를 아는 것은 크게 유용하지 않음

- 목록을 작성하는 것은 어려운 작업임. 선택한 것 외에도 적합한 후보가 많기 때문에 이것을 커리큘럼으로 보고, 현재 관련 논문은 고정된 참조가 아닌 이동하는 포인터로 이해해야 함. 특정 독서 목록을 논문 클럽에서 다룸

- 대부분의 오픈 소스 모델의 지침 미세 조정 방법은 Alpaca에서 비롯됨. Alpaca와 합성 데이터 생성에 관한 논문도 포함되어야 함

- AI와 LLM 논문을 읽고 이해하는 데 시간을 낭비하지 말고, ELIZA에 대해 읽고 직접 구축해보는 것이 좋음. 텐서, 벡터, 필드, 언어학, 컴퓨터 아키텍처, 네트워크에 집중해야 함

- 독서 목록은 약 1년 전의 것임. 2025년에는 KTO, RLOO, DPO와 같은 기술에 집중해야 함. 2025년에는 증류와 최적화에만 집중해야 함. CoT는 새로운 것이 아니며, 수정된 CoT가 핵심임

- "AI"라는 용어가 최근의 DL 발전에 의해 거의 완전히 흡수된 것이 흥미로움. Russell & Norvig, Minsky, Shannon, Lenat 등의 언급이 없음. AI에 대한 더 넓은 주제로의 소개에 관심이 있다면, 대부분의 대학원 과정에서 같은 책을 사용함

- 훌륭한 조사임. 아래의 코스와 결합하면 최고의 결과를 얻을 수 있음

- 훌륭한 목록임

### Comment 33511

- Author: francomoon7
- Created: 2025-01-16T10:37:39+09:00
- Points: 2
- Parent comment: 33425
- Depth: 1

Eliza를 직접 구축해본다는 게 무슨 뜻인가요?