# PDF만 던져주면 끝날줄 알았다 - GPTs RAG 적용 실패기

> Clean Markdown view of GeekNews topic #19908. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=19908](https://news.hada.io/topic?id=19908)
- GeekNews Markdown: [https://news.hada.io/topic/19908.md](https://news.hada.io/topic/19908.md)
- Type: news
- Author: [computerphilosopher](https://news.hada.io/@computerphilosopher)
- Published: 2025-03-24T00:58:43+09:00
- Updated: 2025-03-24T00:58:43+09:00
- Original source: [velog.io](https://velog.io/@skynet/PDF%EB%A7%8C-%EB%8D%98%EC%A0%B8%EC%A3%BC%EB%A9%B4-%EB%81%9D%EB%82%A0%EC%A4%84-%EC%95%8C%EC%95%98%EB%8B%A4-GPTs-RAG-%EC%A0%81%EC%9A%A9-%EC%8B%A4%ED%8C%A8%EA%B8%B0)
- Points: 20
- Comments: 4

## Summary

불교 공부에 GPT를 활용하려 했으나, PDF 자료 학습 후에도 환각 문제가 발생하고 다단, 표, 그림등 비선형 구조가 GPT에게 방해가 되었습니다. 다양한 방법을 시도했으나 실패했으며, JSON 인덱스를 적용하여 정확도를 높였으나, 최종적으로는 라이선스 문제와 번역자의 반대 입장으로 인해 서비스를 종료했습니다. 저자는 이 경험을 통해 RAG의 복잡성을 깨닫고 AI 학습 자료의 라이선스 확인이 중요함을 알게 되었다고 설명합니다.

## Topic Body

#### 불교 GPT 개발 배경  
  
- 불교 공부에 GPT를 활용하고자 했으나, 기본 성능은 기대 이하.  
- PDF 자료 학습을 통해 답변 품질이 향상됨.  
- 자타카 경전 학습을 제안받아 프로젝트 착수.  
  
#### PDF 학습의 한계  
  
- 자타카 PDF 학습 후 환각 심각.  
- 다단, 표, 그림 등 비선형 구조가 GPT에게 방해됨.  
  
#### 시도한 방법들 (모두 실패)  
  
- epub 포맷 사용  
- instruction 조정  
- 마크다운 변환 + 크롤링  
- csv 인덱스 추가  
  
#### 해결의 실마리  
  
- 문제는 자타카의 번호 기반 구조와 GPT의 생성형 특성의 충돌.  
- GPT가 csv를 제대로 활용하지 못함.  
- JSON 인덱스를 제안받아 적용하자 정확도 급상승.  
  
#### 실제 적용 방식  
  
- epub → 마크다운 변환 (pandoc)  
- heading 수정, 불필요한 텍스트 제거  
- 경우에 따라 수작업으로 마크다운 구성  
  
#### 서비스 종료 이유  
  
- 아비담마 질문에서 환각 발생  
- 번역자 Sujato Bhante의 AI 학습 반대 입장  
- SuttaCentral 라이선스 위반 소지  
  
#### 결론  
  
- RAG는 단순하지 않다.  
- AI 학습용 자료는 반드시 라이선스를 확인해야 한다.

## Comments



### Comment 36282

- Author: pkj3186
- Created: 2025-03-24T13:08:24+09:00
- Points: 1

경전과 비슷한 표기법을 사용하는 다른 종류 학습에 도움이 될 수 있겠네요. 플라톤 서적이라든가...

### Comment 36280

- Author: bus710
- Created: 2025-03-24T12:43:27+09:00
- Points: 2

이거이거.... 우리 두고 지 혼자 열반에 들어버린거 아니죠?

### Comment 36278

- Author: 1206good
- Created: 2025-03-24T12:23:27+09:00
- Points: 1

Mistral OCR로 Doc As Prompt가 잘 될줄 알았는데, 저도 비슷한 문제가 있었습니다. 실마리 얻고갑니다.

### Comment 36260

- Author: halfenif
- Created: 2025-03-24T09:49:10+09:00
- Points: 1

"친구들에게 하기 힘든 연애상담을 LLM에 편하게 하세요"이 생각나는 군요.
