불교 GPT 개발 배경
- 불교 공부에 GPT를 활용하고자 했으나, 기본 성능은 기대 이하.
- PDF 자료 학습을 통해 답변 품질이 향상됨.
- 자타카 경전 학습을 제안받아 프로젝트 착수.
PDF 학습의 한계
- 자타카 PDF 학습 후 환각 심각.
- 다단, 표, 그림 등 비선형 구조가 GPT에게 방해됨.
시도한 방법들 (모두 실패)
- epub 포맷 사용
- instruction 조정
- 마크다운 변환 + 크롤링
- csv 인덱스 추가
해결의 실마리
- 문제는 자타카의 번호 기반 구조와 GPT의 생성형 특성의 충돌.
- GPT가 csv를 제대로 활용하지 못함.
- JSON 인덱스를 제안받아 적용하자 정확도 급상승.
실제 적용 방식
- epub → 마크다운 변환 (pandoc)
- heading 수정, 불필요한 텍스트 제거
- 경우에 따라 수작업으로 마크다운 구성
서비스 종료 이유
- 아비담마 질문에서 환각 발생
- 번역자 Sujato Bhante의 AI 학습 반대 입장
- SuttaCentral 라이선스 위반 소지
결론
- RAG는 단순하지 않다.
- AI 학습용 자료는 반드시 라이선스를 확인해야 한다.