GN⁺: NotebookLlama - 구글 NotebookLM의 오픈 소스 버전
(github.com/meta-llama)- PDF를 팟캐스트로 변환하는 워크플로우를 구축하기 위한 튜토리얼 시리즈
- 텍스트-음성 변환 모델을 사용한 실험도 학습 가능
- LLM, 프롬프트, 오디오 모델에 대한 사전 지식이 없어도 모든 것이 각 노트북에서 다루어짐
단계별 과정
-
1단계: PDF 전처리
Llama-3.2-1B-Instruct
모델을 사용하여 PDF를 전처리하고.txt
파일로 저장함. -
2단계: 트랜스크립트 작성
Llama-3.1-70B-Instruct
모델을 사용하여 텍스트로부터 팟캐스트 트랜스크립트를 작성함. -
3단계: 극적 재작성
Llama-3.1-8B-Instruct
모델을 사용하여 트랜스크립트를 더 극적으로 만듦. -
4단계: 텍스트-음성 변환 워크플로우
parler-tts/parler-tts-mini-v1
및bark/suno
모델을 사용하여 대화형 팟캐스트를 생성함.
노트북 실행에 대한 자세한 단계
-
요구사항
70B, 8B, 1B Llama 모델을 사용하기 위해 GPU 서버 또는 API 제공자가 필요함. -
노트북 1
PDF를 처리하고 Feather light 모델을 사용하여.txt
파일로 변환함. -
노트북 2
노트북 1의 출력을 받아 창의적으로 팟캐스트 트랜스크립트로 변환함. -
노트북 3
이전 트랜스크립트를 받아 대화에 극적 요소와 중단을 추가함. -
노트북 4
마지막 노트북의 결과를 팟캐스트로 변환함.
향후 개선/추가 아이디어
- 음성 모델 실험: 더 자연스러운 소리를 위해 TTS 모델 개선 필요.
- LLM 대 LLM 토론: 두 에이전트가 주제를 토론하여 팟캐스트 개요 작성.
- 405B 모델을 사용한 트랜스크립트 작성 테스트.
- 더 나은 프롬프트 작성.
- 웹사이트, 오디오 파일, YouTube 링크 등을 수집할 수 있는 기능 지원.
GN⁺의 정리
- NotebookLlama는 PDF를 팟캐스트로 변환하는 오픈 소스 프로젝트로, 다양한 LLM과 TTS 모델을 사용하여 창의적인 콘텐츠를 생성함.
- 이 프로젝트는 LLM과 TTS 모델의 실험을 통해 더 자연스러운 음성을 생성할 수 있는 가능성을 제시함.
- 유사한 기능을 가진 프로젝트로는 Google의 TTS API와 Amazon Polly 등이 추천됨.
Hacker News 의견
-
NotebookLM의 "에피소드"를 들을수록, Google이 기존의 멀티모달 백본을 기반으로 두 명의 화자가 참여하는 "팟캐스트 토론" 모델을 훈련시켰다는 확신이 듦
- 두 화자가 인간처럼 서로 말을 끊고 대화하는 방식이 매우 자연스러움
- 실제 팟캐스트와 그 전사본을 기반으로 모델을 미세 조정했을 가능성이 있음
- "The Daily" 에피소드를 예로 들어, 언어 모델이 팟캐스트 내용을 요약하는 가상의 기사를 작성하고, 이를 두 화자 모델에 입력하여 출력된 전사본이 입력 기사와 얼마나 일치하는지 확인하는 방식일 것이라 추측함
-
NotebookLM은 기술에 익숙하지 않은 사람들에게도 매우 인상적임
- 70대 부모님과 8살 아이도 이 기술에 놀라움을 금치 못하고 계속 사용 중임
-
TTS 엔진 선택이 이상하다고 생각함
- 최신 오픈 TTS 시스템과 비교했을 때, XTTSv2나 새로운 F5-TTS가 더 나은 선택이었을 것이라고 주장함
-
샘플 출력이 매우 부족하다고 평가함
- NotebookLM 팀이 기존의 기초 모델을 사용하여 히트 상품을 만들어낸 점을 강조함
-
다른 언어와 다양한 억양, 특히 동남아시아 억양으로 출시되기를 기대함
-
NotebookLM이 오픈 소스가 아니라 iPython 노트북에서의 몇 가지 실험일 가능성이 있다고 생각함
- LLM 수준에서의 기능은 특별히 새롭지 않지만, 제품으로서의 포장 방식이 흥미로움
- "팟캐스트" 부분은 대규모 코퍼스의 소개/개요일 뿐이며, 봇과의 대화를 통해 인용된 참고 자료를 얻는 것이 더 유용하다고 봄
-
LLM을 사용한 프로토타이핑이 매우 빠르다는 점을 보여줌
- API를 사용해보지 않은 사람들에게 시도해볼 것을 권장함
-
NotebookLM이 팟캐스트만 생성하는지에 대한 의문을 가짐
- 팟캐스트는 재미있지만 다소 장난스러운 기능이라고 생각함
-
모바일 폰에서 로컬로 실행할 수 있다면 좋겠다고 생각함
- 예를 들어, 작업 문서를 팟캐스트로 변환하여 운전 중에 들을 수 있다면 생산성이 크게 향상될 것이라고 주장함
-
샘플이 다소 거칠다고 평가함
-
NotebookLM을 사용해본 사람의 출력을 듣고 싶다고 언급함