많은 텍스트를 RAG로 구축하고 키워드, 장소, 날짜 등으로 추출해봤지만, LLM이 재랭커 없이는 제대로 된 결과를 내지 못했음. 벡터 쿼리를 돌리면 항상 답은 나오지만, 대부분 무관한 조각들이 섞여 있음
정말 멋진 작업임. 시각적으로도 놀라운 완성도를 보여줌
훌륭한 시도이지만, 나도 다른 사람들처럼 텍스트 간의 실질적 연결은 잘 보이지 않음
예를 들어 Jobs와 『The Elephant in the Brain』 사이의 연결은 LLM이 잡지 못했지만, 인간은 쉽게 인식할 수 있음 — 자기기만이 전략적으로 작동한다는 점에서 두 인물이 닮아 있음
“Thanos committing fraud”라는 문구가 “useful lies” 섹션에 있는 게 혼란스러웠음
창업자가 감옥에 있는 상황에서 그 거짓말을 ‘유용하다’고 보는 건 이상함. AI가 엉성하게 분류한 것 같음
아마 “잡히기 전까지는 유용한 거짓말이었다”는 의미일지도 모르겠음
참고로 Thanos가 아니라 Theranos를 말하는 것 같음
나도 Claude Code를 이용해 내가 잘 모르는 GitHub 프로젝트를 ‘읽어보는’ 실험을 했음
러시아어로 된 트렌딩 프로젝트를 따라가다 GoodbyeDPI를 발견했는데, deep packet inspection의 세계로 빠져들었음
두 텍스트를 잇는 선들이 이해되지 않음. 대부분 의미 없는 연결선처럼 보임
“Father wound” 섹션에서 “abandoned at birth”와 “did not”이 연결되어 있는데, 단순한 시각적 장식으로 느껴짐
나도 같은 인상을 받았음
보기엔 멋지지만, 결국 LLM이 임의로 연결한 결과임
나도 비슷한 프로젝트를 해봤음
pdfplumber로 PDF 텍스트를 추출해 PostgreSQL에 넣고, 100자 단위로 chunking 후 sentence_transformers로 384차원 임베딩을 생성했음
이후 UMAP + HDBScan으로 차원 축소 및 클러스터링을 수행해 Plotly로 시각화했는데, 주제별 클러스터가 명확히 보였음
Docker Compose로 환경을 세팅하고 Flask 기반 웹 UI로 옮겼음. 코드 정리 후 오픈소스 공개를 계획 중임
접근 방식과 저장소를 꼭 보고 싶음
Bertopic과 유사한 접근으로 보임. 훌륭한 라이브러리임
예전에 “디지털 인문학” 관련 책을 읽었는데, “distant reading” 개념이 인상 깊었음
수백~수천 개의 텍스트를 컴퓨터로 분석해 거시적 통찰을 얻는 방식임
친구가 논문에서 Python으로 이런 분석을 직접 구현했는데, 정말 흥미로웠음
지금은 LLM 덕분에 이런 접근이 더 쉬워졌고, 코드를 몰라도 시도할 수 있음
관련 개념은 Distant reading 위키에서 볼 수 있음
LLM은 이런 모호한 설명으로도 자료를 찾아주는 데 꽤 유용함 ;)
아이디어는 좋지만, 각 책의 주제와 서사 간의 연결이 약함
일부는 단락 하나만 보고 전체 테마를 추론한 듯함
프롬프트를 여러 번 반복하거나 다단계 추출 과정을 추가하면 더 정교해질 수 있을 것 같음
Deleuze의 인용문처럼, 책을 ‘작동하는 기계’로 볼 수도 있고 ‘의미의 상자’로 볼 수도 있음
출처는 모르지만, 너무 단순화된 관점이라고 느낌
Deleuze 역시 영향을 받은 사상가였고, 이 프로젝트의 시도는 오히려 의미 있다고 생각함
다만 결과물은 실제 텍스트를 읽은 사람에게는 정확하지 않게 느껴질 수 있음
Hacker News 의견들
작품 자체는 아름답지만 실제 데이터 출력물은 거의 쓸모없어 보임
통계 모델에 너무 많은 비판적 사고를 위임한 듯한 느낌임
나도 여러 고급 LLM을 오랫동안 테스트해봤지만, 텍스트 간의 ‘보이지 않는 연결’을 찾는 일은 아직 불가능했음. 인간의 직관이 여전히 필요함
정말 멋진 작업임. 시각적으로도 놀라운 완성도를 보여줌
훌륭한 시도이지만, 나도 다른 사람들처럼 텍스트 간의 실질적 연결은 잘 보이지 않음
예를 들어 Jobs와 『The Elephant in the Brain』 사이의 연결은 LLM이 잡지 못했지만, 인간은 쉽게 인식할 수 있음 — 자기기만이 전략적으로 작동한다는 점에서 두 인물이 닮아 있음
“Thanos committing fraud”라는 문구가 “useful lies” 섹션에 있는 게 혼란스러웠음
창업자가 감옥에 있는 상황에서 그 거짓말을 ‘유용하다’고 보는 건 이상함. AI가 엉성하게 분류한 것 같음
나도 Claude Code를 이용해 내가 잘 모르는 GitHub 프로젝트를 ‘읽어보는’ 실험을 했음
러시아어로 된 트렌딩 프로젝트를 따라가다 GoodbyeDPI를 발견했는데, deep packet inspection의 세계로 빠져들었음
두 텍스트를 잇는 선들이 이해되지 않음. 대부분 의미 없는 연결선처럼 보임
“Father wound” 섹션에서 “abandoned at birth”와 “did not”이 연결되어 있는데, 단순한 시각적 장식으로 느껴짐
나도 비슷한 프로젝트를 해봤음
pdfplumber로 PDF 텍스트를 추출해 PostgreSQL에 넣고, 100자 단위로 chunking 후 sentence_transformers로 384차원 임베딩을 생성했음
이후 UMAP + HDBScan으로 차원 축소 및 클러스터링을 수행해 Plotly로 시각화했는데, 주제별 클러스터가 명확히 보였음
Docker Compose로 환경을 세팅하고 Flask 기반 웹 UI로 옮겼음. 코드 정리 후 오픈소스 공개를 계획 중임
예전에 “디지털 인문학” 관련 책을 읽었는데, “distant reading” 개념이 인상 깊었음
수백~수천 개의 텍스트를 컴퓨터로 분석해 거시적 통찰을 얻는 방식임
친구가 논문에서 Python으로 이런 분석을 직접 구현했는데, 정말 흥미로웠음
지금은 LLM 덕분에 이런 접근이 더 쉬워졌고, 코드를 몰라도 시도할 수 있음
관련 개념은 Distant reading 위키에서 볼 수 있음
아이디어는 좋지만, 각 책의 주제와 서사 간의 연결이 약함
일부는 단락 하나만 보고 전체 테마를 추론한 듯함
프롬프트를 여러 번 반복하거나 다단계 추출 과정을 추가하면 더 정교해질 수 있을 것 같음
Deleuze의 인용문처럼, 책을 ‘작동하는 기계’로 볼 수도 있고 ‘의미의 상자’로 볼 수도 있음
Deleuze 역시 영향을 받은 사상가였고, 이 프로젝트의 시도는 오히려 의미 있다고 생각함
다만 결과물은 실제 텍스트를 읽은 사람에게는 정확하지 않게 느껴질 수 있음