# 대규모 모델을 위한 데이터 엔지니어링: 아키텍처, 알고리듬 및 프로젝트

> Clean Markdown view of GeekNews topic #26712. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=26712](https://news.hada.io/topic?id=26712)
- GeekNews Markdown: [https://news.hada.io/topic/26712.md](https://news.hada.io/topic/26712.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-02-16T05:42:13+09:00
- Updated: 2026-02-16T05:42:13+09:00
- Original source: [github.com/datascale-ai](https://github.com/datascale-ai/data_engineering_book/blob/main/README_en.md)
- Points: 15
- Comments: 1

## Summary

대규모 모델의 성능 한계를 결정짓는 핵심 요소는 **데이터 품질**이며, 이를 체계적으로 다루는 오픈소스 가이드북입니다. 사전학습 데이터 정제부터 멀티모달 정렬, RAG 파이프라인, 합성 데이터 생성까지 전 과정을 다루며, Ray·Spark·CLIP 등 현대적 스택을 활용한 **실습형 캡스톤 프로젝트**를 포함합니다. LLM 연구자와 데이터 엔지니어가 실제 파이프라인을 설계·운영하는 데 바로 참고할 수 있는 실무 중심 자료로 구성되어 있습니다.

## Topic Body

- 대규모 모델 시대에는 **데이터 품질이 모델 성능의 상한을 결정**함  
- 이를 위한 **체계적 데이터 엔지니어링 지식**을 제공하는 **오픈소스 가이드북**  
- **사전학습 데이터 정제**, **멀티모달 정렬**, **RAG 데이터 파이프라인**, **합성 데이터 생성** 등 전 과정을 포괄  
- 5개의 파트로 13개 챕터 구성. 추가로 **5개의 실습형 캡스톤 프로젝트**와 실행 가능한 코드, 아키텍처 설계가 포함되어 실무 학습 지원  
- Ray, Spark, CLIP, DVC 등 **현대적 기술 스택**을 활용해 텍스트·이미지·비디오 데이터를 처리  
- LLM 연구자, 데이터 엔지니어, MLOps 전문가 등 **AI 데이터 파이프라인 구축자에게 실질적 참고서**로 활용 가능  
  
---  
  
### 소개  
- 대규모 모델 시대에는 **데이터 품질이 모델 성능의 한계를 결정**  
  - LLM 데이터 엔지니어링에 대한 체계적 자료가 부족한 현실을 보완하기 위해 제작  
- 책은 **사전학습 데이터 정제부터 멀티모달 정렬, RAG, 합성 데이터 생성**까지 전체 기술 스택을 다룸  
  - Common Crawl 등 대규모 노이즈 데이터에서 고품질 코퍼스 추출  
  - 이미지-텍스트, 비디오, 오디오 데이터의 수집·정제·정렬  
  - SFT, RLHF, CoT 데이터 자동 생성  
  - 기업용 문서 파싱과 의미 단위 분할을 포함한 RAG 파이프라인 구축  
- **5개의 엔드투엔드 캡스톤 프로젝트**를 통해 실습 중심 학습 제공  
- 온라인 열람 가능: [https://datascale-ai.github.io/data_engineering_book/en/](https://datascale-ai.github.io/data_engineering_book/en/)  
  
### 책의 구성  
- 전체 구조는 **원시 데이터에서 애플리케이션까지의 완전한 데이터 엔지니어링 파이프라인**  
- 총 6개 파트, 13개 장, 5개 프로젝트로 구성  
  - Part 1: 인프라 및 핵심 개념  
  - Part 2: 텍스트 사전학습 데이터 엔지니어링  
  - Part 3: 멀티모달 데이터 엔지니어링  
  - Part 4: 정렬 및 합성 데이터 엔지니어링  
  - Part 5: 애플리케이션 수준 데이터 엔지니어링  
  - Part 6: 캡스톤 프로젝트 (Mini-C4, Legal SFT, LLaVA, Math/Code, Financial RAG)  
  
### 주요 특징  
#### 포괄적 이론  
- **Data-Centric AI** 철학을 전반에 반영  
- 사전학습 → 미세조정 → RLHF → RAG로 이어지는 **LLM 데이터 생애주기 전체**를 다룸  
- **스케일링 법칙**, 데이터 품질 평가, 멀티모달 정렬 등 심화 주제 포함  
  
#### 현대적 기술 스택  
- **분산 컴퓨팅**: Ray Data, Spark  
- **데이터 저장**: Parquet, WebDataset, Vector Databases  
- **텍스트 처리**: Trafilatura, KenLM, MinHash LSH  
- **멀티모달 처리**: CLIP, ColPali, img2dataset  
- **데이터 버전 관리**: DVC, LakeFS  
  
#### 풍부한 캡스톤 프로젝트  
- Mini-C4: Trafilatura + Ray + MinHash로 고품질 텍스트 코퍼스 구축  
- Legal Expert SFT: Self-Instruct + CoT 기반 도메인 지시 데이터셋  
- LLaVA Multimodal: Bbox 정렬 및 다중 이미지 인터리빙으로 시각 지시 데이터셋 생성  
- Math Textbook: Evol-Instruct + 샌드박스 검증으로 추론 데이터셋 구축  
- Financial Report RAG: ColPali + Qwen-VL로 멀티모달 질의응답 시스템 구현  
  
### 로컬 개발  
- **필수 환경**: Python 3.8 이상, MkDocs Material, mkdocs-static-i18n  
- 설치 및 미리보기  
  - `git clone`으로 저장소 복제 후 의존성 설치  
  - `mkdocs serve` 실행 시 로컬 미리보기 가능 (중·영문 전환 지원)  
- **정적 사이트 빌드**: `mkdocs build` 실행 시 `site/` 디렉터리에 결과 생성  
  
### 프로젝트 구조  
- `docs/` 폴더에 중문(`zh/`)과 영문(`en/`) 콘텐츠 포함  
- `images/`, `stylesheets/`, `javascripts/` 등 리소스 디렉터리 구성  
- `.github/workflows/`에 CI/CD 설정 포함  
- `mkdocs.yml`로 사이트 구성 관리  
- 라이선스는 **MIT License**  
  
### 대상 독자  
- **LLM 연구·개발 엔지니어**, **데이터 엔지니어**, **MLOps 엔지니어**, **기술형 AI PM**, **LLM 데이터 파이프라인 연구자**  
  
### 라이선스  
- **MIT License** 적용  
  
* 온라인 열람: [https://datascale-ai.github.io/data_engineering_book/en/](https://datascale-ai.github.io/data_engineering_book/en/)

## Comments


### Comment 51219

- Author: neo
- Created: 2026-02-16T05:42:13+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=47008163) 
- 이 책을 정말 감사히 읽고 있음. 번역 품질이 **매우 높음**  
  나는 LLM 훈련에 완전 초보인데, Apple Silicon에서 Python 코드 생성을 위한 새로운 아키텍처를 실험 중임  
  다만 데이터 도구들이 코드 중심이 아니라 일반 텍스트나 이미지에 초점이 맞춰져 있어서 답답함을 느낌  
  SGlang이 MacOS에서 안 돌아가서 **EBNF 제약 출력**을 활용한 합성 데이터 생성을 못 하고 있음  
  Python 코드 코퍼스를 직접 내려받아 APFS 문제, 샤딩, 커스텀 분류·정제·혼합 등을 처리 중인데, 코드용으로 **사전 태깅된 데이터셋**이 없다는 게 의외임  

- 새롭게 떠오르는 분야인 LLM용 데이터 엔지니어링을 다루는 책이라면, **ML 생애주기 전체를 위한 스토리지 포맷** 같은 신흥 카테고리도 언급해야 함  
  예를 들어 [Lance](https://github.com/lance-format/lance)는 분석 작업과 벡터 워크로드 모두에 최적화된 **컬럼형 스토리지**로, 버전 관리와 랜덤 액세스를 지원함  
  이는 샘플링, 효율적 필터링, 멀티모달 데이터(예: 비디오) 처리에 매우 중요함  
  비슷한 예로 [vortex](https://vortex.dev), Meta의 [nimble](https://github.com/facebookincubator/nimble) 등이 있음  

- 제목은 ‘Data Engineering for LLMs’가 더 적절하다고 생각함  
  - 좋은 지적임. 내용상 ‘Data Engineering for LLMs’가 훨씬 정확해서 프로젝트 리드에게 바로 전달할 예정임  

- 번역의 문제일 수도 있지만, 초반의 “Modern Data Stack” 설명은 신뢰감을 주지 못했음  
  [1_2_data_infra.md](https://github.com/datascale-ai/data_engineering_book/blob/main/docs/en/part1/1_2_data_infra.md) 부분은 다소 모호했지만,  
  이후 [데이터 정제](https://github.com/datascale-ai/data_engineering_book/blob/main/docs/en/part2/2_2_cleaning_denoising.md)와 [RAG 파이프라인](https://github.com/datascale-ai/data_engineering_book/blob/main/docs/en/part5/5_1_rag_pipeline.md) 섹션은 훨씬 명확했음  
  - 솔직한 피드백에 감사함  

- 영어 버전은 [README_en.md](https://github.com/datascale-ai/data_engineering_book/blob/main/README_en.md)에 있음  
  - 고마움! 상단 링크를 그걸로 교체했음. 원래 제출된 URL은 [data_engineering_book](https://github.com/datascale-ai/data_engineering_book)이었음  
    게시물이 스팸 필터에 걸렸었는데, 작성자가 이메일로 알려줘서 댓글로 배경을 공유하도록 초대했음. 이제는 상단에 그 내용을 반영했음  
  - 직접 링크 공유에 감사함  

- 아주 흥미로워서 북마크해두었음. 그런데 README가 **ChatGPT로 작성된 것**인지 궁금함  
  - 맞음. 우리는 중국 팀이고, 영어 번역에 GPT를 활용했음. 다소 ‘가짜 따뜻함’처럼 느껴졌다는 피드백 감사함. 앞으로 더 **중립적이고 간결한 톤**으로 다듬을 예정임  
  - 나도 그렇게 느꼈음. 요약표가 많고 인공적인 어투가 있어서 LLM이 쓴 듯한 느낌이 강했음. GPT가 아니더라도 **전면적인 리라이팅**이 필요함  

- “Data is the new oil, but only if you know how to refine it.”라는 문구가 인상적이었음  
  [석유](https://en.wikipedia.org/wiki/Petroleum)도 정제되지 않으면 쓸모없으니, “데이터는 새로운 석유이며, **정제해야 가치가 생김**” 정도로 표현하면 더 자연스러울 듯함  

- ‘Vector DB vs Keyword Search’ 섹션이 흥미로웠음. RAG 파이프라인 실험에서 **경계선**을 어디에 두는지 궁금함  
  우리 경험상 BM25 같은 키워드 검색이 엔티티 이름·ID에는 강하고, 벡터 검색은 개념적 질의에 강했음. 책에서 **하이브리드 검색**이나 재랭킹도 다루는지 궁금함  
  - 좋은 질문임. 실제 프로덕션에서는 BM25+벡터의 **하이브리드 접근**이 대부분의 경우 효과적이었음. 약 70/30 비율로 키워드가 정확 매칭에 유리함  
    핵심은 **재랭킹**임. 단순히 결과를 합치는 게 아니라 cross-encoder(예: Cohere나 커스텀 모델)로 점수를 다시 매겨야 함  
    순수 의미 기반 검색이 유리한 시점은 질의가 추상적 개념 위주일 때임  
  - 통찰에 감사함. 이런 패턴은 향후 업데이트에서 다룰 예정임. 현재 **춘절 연휴** 중이라 약간 지연될 수 있음  

- 각 챕터의 그림이 영어로 되어 있음 (README_en.md의 이미지는 예외)  
  - 알려줘서 고마움! 그 차이를 인지하고 README_en.md의 다이어그램을 바로 수정했음. 이제 올바르게 표시될 것임  

- Parquet만으로는 현대적 데이터 엔지니어링에 충분하지 않음. **Delta**와 **Iceberg**도 포함되어야 함  
  - 피드백 감사함! 해당 섹션 담당자에게 전달했음. 현재 **춘절 휴가** 중이라 업데이트가 조금 늦을 수 있음. 새해 복 많이 받길 바람