인터넷의 모든 PDF 분류하기

(snats.xyz)

2P by GN⁺ 10달전 | ★ favorite | 댓글과 토론

SafeDocs 전체를 LLMs, 임베딩 모델, XGBoost, 그리고 Linear Regressors를 사용하여 분류함.
분류 과정에서 다양한 실험과 성능 비교를 진행하고, 여러 모델의 성능을 평가함.

소개

Common Crawl(CC)은 인터넷을 아카이빙하는 웹 아카이브로, 과학자와 연구자를 위해 인터넷을 보존하는 데 중점을 둠.
CC는 PDF 파일을 전체 저장하지 않고 처음 1MB만 저장하는데, SafeDocs는 이러한 CC에서 PDF 파일을 다시 가져와 원본 PDF를 보존함.
SafeDocs 데이터셋은 약 840만 개의 PDF 파일로 구성되어 있으며, 압축 해제 시 8TB에 달함.
이러한 PDF들을 분류하는 시도를 했음.

데이터셋 생성

PDF 파일을 다양한 라벨로 분류하는 과정을 설명.
FineWeb 기술 블로그에서 영감을 받아 교육 콘텐츠의 하위 집합을 생성하고, LLM을 사용하여 라벨을 생성한 후 이를 학습할 수 있는 소형 모델을 훈련함.
100k개의 라벨을 생성하고, 불균형한 라벨을 조정하여 59k개의 라벨로 재구성.

모델 학습

아이디어 1: 임베딩 모델

임베딩 모델을 사용하여 텍스트, 이미지, 비디오 등의 데이터를 n차원 공간의 벡터로 변환.
Finetuning을 통해 분류 성능을 높임.
여러 모델을 테스트한 결과, Alibaba-large-gte-1.5 모델이 가장 성능이 좋았으며, 정확도 59.14%를 기록.

아이디어 2: XGBoost

XGBoost는 테이블 데이터의 최고 성능을 자랑하는 모델로, 간단한 이진 분류기를 여러 개 학습시켜 분류 문제를 해결함.
이 방법으로 정확도 83.97%를 달성.

아이디어 3: TFIDF

TFIDF는 텍스트의 특정 단어가 문서 내에서 얼마나 중요한지 계산하는 방법으로, 기본적인 NLP 기법을 사용해 모델을 학습.
정확도 67.52%를 기록.

아이디어 4: 딥러닝으로 복귀

딥러닝 분류기를 사용하여 최소 70% 정확도를 목표로 함.
더 많은 라벨을 생성하고, gte-large 모델로 실험한 결과, 정확도 69.22%를 달성.

실험 결과

최종적으로 XGBoost 임베딩 모델이 가장 높은 정확도 85.26%를 기록.
다양한 모델의 성능을 비교한 결과, XGBoost가 가장 우수한 성능을 보였음.

전체 코퍼스 분류

생성된 모델을 사용해 전체 PDF 데이터를 분류하고, 그 결과를 시각화함.
PCA와 UMAP을 사용해 분류 결과를 시각적으로 표현함.

결론

딥러닝 모델의 성능이 기대에 미치지 못했지만, 전반적으로 유의미한 성과를 달성.
PDF와 같은 복합 데이터를 사용하는 대규모 데이터셋이 점점 더 많이 등장할 것으로 예상.
데이터셋과 코드를 공개하여 더 나은 결과를 얻을 수 있는 기회를 제공.

GN⁺의 의견

이 프로젝트는 대규모 데이터셋의 분류 문제에서 다양한 접근 방식을 실험한 좋은 사례임.
XGBoost와 같은 전통적인 머신러닝 기법이 여전히 매우 효과적일 수 있음을 보여줌.
딥러닝 모델의 성능을 높이기 위해 더 많은 데이터와 GPU 리소스가 필요했을 가능성이 있음.
PDF와 같은 복합 데이터의 처리 방법에 대한 더 많은 연구와 실험이 필요함.
이 프로젝트는 연구와 개발에 관심이 있는 사람들에게 매우 유용한 참고 자료가 될 수 있음.