1P by neo 3달전 | favorite | 댓글 1개

TL;DR

  • 핵심 요약: 미세 조정된 모델이 OpenAI의 모델보다 정확했지만, 평가 구현이 어려웠음.
  • 주요 내용: 미세 조정 과정에서 많은 코드가 숨겨져 있고 실행 속도가 느렸음. 시스템이 없으면 유지 관리의 복잡성이 증가할 것임.

데이터셋 로딩

  • 데이터셋: Hugging Face Hub의 공개 저장소에서 테스트 데이터셋을 사용.
  • 데이터셋 구조: 'name', 'eventrefnumber', 'text', 'StartDate', 'eventtype', 'province', 'citydistrict', 'village', 'targetgroup', 'commander', 'position', 'minkilled', 'mincaptured', 'capturedcharacterisation', 'killedcharacterisation', 'killq', 'captureq', 'killcaptureraid', 'airstrike', 'noshotsfired', 'dataprocessed', 'flagged', 'glossarymeta', 'minleaderskilled', 'minfacilitatorskilled', 'minleaderscaptured', 'minfacilitatorscaptured', 'leaderq' 등.

예측 추가

  • 예측 추가: 각 데이터셋 행에 예측 결과를 추가하고, 이를 반복적으로 수행하여 계산 집약적인 단계를 피함.
  • Pydantic 객체 사용: 데이터 검증 및 품질 관리 기능을 처리하기 위해 Pydantic 객체로 데이터 구성.

JSON 유효성 테스트

  • 예측 결과: 모델에서 JSON 문자열을 출력하도록 설정.
  • GPT 모델 사용: GPT-4o 및 GPT-4 Turbo 모델을 사용하여 예측 수행.
  • 문제점: GPT 모델이 동일한 프롬프트에 대해 훈련되지 않았기 때문에 정확한 비교가 어려움.

비동기 예측

  • 비동기 처리: 많은 이벤트를 처리하기 위해 비동기 방식으로 예측 수행.
  • 재시도 로직: GPT-3.5-turbo 모델의 속도 제한을 고려하여 재시도 로직 추가.

데이터셋 변환 및 푸시

  • 데이터셋 변환: 예측 결과를 데이터셋에 추가하고 Hugging Face Hub에 푸시.
  • 함수 사용: 변환 및 푸시 과정을 반복적으로 수행하기 위해 함수 사용.

미세 조정된 모델 예측 추가

  • 로컬 모델: 로컬에서 훈련된 모델의 예측 결과를 데이터셋에 추가.
  • OpenAI 모델: OpenAI의 원클릭 미세 조정 서비스를 사용하여 훈련된 모델의 예측 결과 추가.
  • 다양한 모델: Mistral, Llama3, Solar LLM 등 다양한 모델의 예측 결과 추가.

최종 평가

  • 평가 지표: JSON 유효성 테스트, 시작 날짜 정확도, 주별 정확도, 타겟 그룹 정확도, 이벤트 유형 정확도 등 다양한 평가 지표 사용.
  • 최종 결과: 미세 조정된 모델이 OpenAI 모델보다 높은 정확도를 보였음.

GN⁺의 의견

  1. 미세 조정의 중요성: 미세 조정된 모델이 OpenAI의 기본 모델보다 높은 정확도를 보였다는 점에서, 특정 작업에 맞춘 모델의 중요성을 강조함.
  2. 평가의 복잡성: 평가 구현이 어려웠다는 점에서, 시스템적 접근의 필요성을 느끼게 함.
  3. 다양한 모델 사용: 다양한 모델을 사용하여 비교 평가를 수행한 점이 흥미로움. 이를 통해 모델의 장단점을 명확히 파악할 수 있음.
  4. 오픈 소스 활용: Hugging Face Hub와 같은 오픈 소스 플랫폼을 활용하여 데이터셋을 관리하고 공유한 점이 유용함.
  5. 비동기 처리의 필요성: 많은 데이터를 처리할 때 비동기 방식이 효율적이라는 점을 보여줌.
Hacker News 의견
  • OpenPipe 창립자: 데이터 추출은 미세 조정된 모델이 뛰어난 분야임. OpenPipe의 연구에 따르면, Llama 3 8B 모델이 GPT-4를 여러 작업에서 능가했음. 중요한 점은 고품질 훈련 데이터를 생성하는 방법임
  • 작은 전문 모델이 정보 추출 및 텍스트 분류에서 더 나은 성능을 보임. 작은 모델의 성능을 포함한 연구를 보고 싶음
  • 미지정 시스템의 방정식은 무한한 해를 가짐. 오픈 소스 AI 모델을 사용하여 SOTA 벤치마크를 능가할 수 있음. 현재 기술로는 지능형 시스템을 만들 수 없으며, 새로운 돌파구가 필요함
  • 데이터 추출 및 구조화는 실제 작업에서 유용한 LLM의 유일한 진지한 응용임. 작은 모델이 더 빠르고 저렴하며, 오프라인 작업에 적합함. 더 많은 실험과 특정 미세 조정이 가능함
  • 미세 조정 모델의 목적은 바로 이것임. 호스팅 및 로컬 옵션을 혼합한 미세 조정 과정을 보는 것이 좋음
  • GPT-4가 부정확했던 예시와 최상의 모델이 정확했던 예시를 보고 싶음. 0 온도로 다시 시도해보는 것도 좋음. 0 온도는 구조화된 데이터 추출에서 큰 차이를 만들 수 있음
  • 유사한 주제에 대한 논문을 작성했음: 논문 링크
  • Predibase에서 700개 이상의 미세 조정 실험을 수행하여 GPT-4와 비교했음. 85%의 경우 GPT-4를 능가했음. 결과는 여기에서 확인 가능함
  • 모든 모델을 가능한 한 많이 오픈 소스로 만들어야 함. 자유와 품질을 위해 오픈 소스가 일반적으로 더 나음
  • 타겟 뉴스 기사의 논란이 될 수 있는 내용이 ChatGPT의 요약 능력에 영향을 미칠 수 있음