불교 GPT 개발 배경

  • 불교 공부에 GPT를 활용하고자 했으나, 기본 성능은 기대 이하.
  • PDF 자료 학습을 통해 답변 품질이 향상됨.
  • 자타카 경전 학습을 제안받아 프로젝트 착수.

PDF 학습의 한계

  • 자타카 PDF 학습 후 환각 심각.
  • 다단, 표, 그림 등 비선형 구조가 GPT에게 방해됨.

시도한 방법들 (모두 실패)

  • epub 포맷 사용
  • instruction 조정
  • 마크다운 변환 + 크롤링
  • csv 인덱스 추가

해결의 실마리

  • 문제는 자타카의 번호 기반 구조와 GPT의 생성형 특성의 충돌.
  • GPT가 csv를 제대로 활용하지 못함.
  • JSON 인덱스를 제안받아 적용하자 정확도 급상승.

실제 적용 방식

  • epub → 마크다운 변환 (pandoc)
  • heading 수정, 불필요한 텍스트 제거
  • 경우에 따라 수작업으로 마크다운 구성

서비스 종료 이유

  • 아비담마 질문에서 환각 발생
  • 번역자 Sujato Bhante의 AI 학습 반대 입장
  • SuttaCentral 라이선스 위반 소지

결론

  • RAG는 단순하지 않다.
  • AI 학습용 자료는 반드시 라이선스를 확인해야 한다.

이거이거.... 우리 두고 지 혼자 열반에 들어버린거 아니죠?

경전과 비슷한 표기법을 사용하는 다른 종류 학습에 도움이 될 수 있겠네요. 플라톤 서적이라든가...

Mistral OCR로 Doc As Prompt가 잘 될줄 알았는데, 저도 비슷한 문제가 있었습니다. 실마리 얻고갑니다.

"친구들에게 하기 힘든 연애상담을 LLM에 편하게 하세요"이 생각나는 군요.