내 파인튜닝 모델이 OpenAI의 GPT-4를 능가함

(mlops.systems)

1P by GN⁺ 2024-07-02 | ★ favorite | 댓글 1개

TL;DR

핵심 요약: 미세 조정된 모델이 OpenAI의 모델보다 정확했지만, 평가 구현이 어려웠음.
주요 내용: 미세 조정 과정에서 많은 코드가 숨겨져 있고 실행 속도가 느렸음. 시스템이 없으면 유지 관리의 복잡성이 증가할 것임.

데이터셋 로딩

데이터셋: Hugging Face Hub의 공개 저장소에서 테스트 데이터셋을 사용.
데이터셋 구조: 'name', 'eventrefnumber', 'text', 'StartDate', 'eventtype', 'province', 'citydistrict', 'village', 'targetgroup', 'commander', 'position', 'minkilled', 'mincaptured', 'capturedcharacterisation', 'killedcharacterisation', 'killq', 'captureq', 'killcaptureraid', 'airstrike', 'noshotsfired', 'dataprocessed', 'flagged', 'glossarymeta', 'minleaderskilled', 'minfacilitatorskilled', 'minleaderscaptured', 'minfacilitatorscaptured', 'leaderq' 등.

예측 추가

예측 추가: 각 데이터셋 행에 예측 결과를 추가하고, 이를 반복적으로 수행하여 계산 집약적인 단계를 피함.
Pydantic 객체 사용: 데이터 검증 및 품질 관리 기능을 처리하기 위해 Pydantic 객체로 데이터 구성.

JSON 유효성 테스트

예측 결과: 모델에서 JSON 문자열을 출력하도록 설정.
GPT 모델 사용: GPT-4o 및 GPT-4 Turbo 모델을 사용하여 예측 수행.
문제점: GPT 모델이 동일한 프롬프트에 대해 훈련되지 않았기 때문에 정확한 비교가 어려움.

비동기 예측

비동기 처리: 많은 이벤트를 처리하기 위해 비동기 방식으로 예측 수행.
재시도 로직: GPT-3.5-turbo 모델의 속도 제한을 고려하여 재시도 로직 추가.

데이터셋 변환 및 푸시

데이터셋 변환: 예측 결과를 데이터셋에 추가하고 Hugging Face Hub에 푸시.
함수 사용: 변환 및 푸시 과정을 반복적으로 수행하기 위해 함수 사용.

미세 조정된 모델 예측 추가

로컬 모델: 로컬에서 훈련된 모델의 예측 결과를 데이터셋에 추가.
OpenAI 모델: OpenAI의 원클릭 미세 조정 서비스를 사용하여 훈련된 모델의 예측 결과 추가.
다양한 모델: Mistral, Llama3, Solar LLM 등 다양한 모델의 예측 결과 추가.

최종 평가

평가 지표: JSON 유효성 테스트, 시작 날짜 정확도, 주별 정확도, 타겟 그룹 정확도, 이벤트 유형 정확도 등 다양한 평가 지표 사용.
최종 결과: 미세 조정된 모델이 OpenAI 모델보다 높은 정확도를 보였음.

GN⁺의 의견

미세 조정의 중요성: 미세 조정된 모델이 OpenAI의 기본 모델보다 높은 정확도를 보였다는 점에서, 특정 작업에 맞춘 모델의 중요성을 강조함.
평가의 복잡성: 평가 구현이 어려웠다는 점에서, 시스템적 접근의 필요성을 느끼게 함.
다양한 모델 사용: 다양한 모델을 사용하여 비교 평가를 수행한 점이 흥미로움. 이를 통해 모델의 장단점을 명확히 파악할 수 있음.
오픈 소스 활용: Hugging Face Hub와 같은 오픈 소스 플랫폼을 활용하여 데이터셋을 관리하고 공유한 점이 유용함.
비동기 처리의 필요성: 많은 데이터를 처리할 때 비동기 방식이 효율적이라는 점을 보여줌.

▲

GN⁺ 2024-07-02 [-]

Hacker News 의견

OpenPipe 창립자: 데이터 추출은 미세 조정된 모델이 뛰어난 분야임. OpenPipe의 연구에 따르면, Llama 3 8B 모델이 GPT-4를 여러 작업에서 능가했음. 중요한 점은 고품질 훈련 데이터를 생성하는 방법임
작은 전문 모델이 정보 추출 및 텍스트 분류에서 더 나은 성능을 보임. 작은 모델의 성능을 포함한 연구를 보고 싶음
미지정 시스템의 방정식은 무한한 해를 가짐. 오픈 소스 AI 모델을 사용하여 SOTA 벤치마크를 능가할 수 있음. 현재 기술로는 지능형 시스템을 만들 수 없으며, 새로운 돌파구가 필요함
데이터 추출 및 구조화는 실제 작업에서 유용한 LLM의 유일한 진지한 응용임. 작은 모델이 더 빠르고 저렴하며, 오프라인 작업에 적합함. 더 많은 실험과 특정 미세 조정이 가능함
미세 조정 모델의 목적은 바로 이것임. 호스팅 및 로컬 옵션을 혼합한 미세 조정 과정을 보는 것이 좋음
GPT-4가 부정확했던 예시와 최상의 모델이 정확했던 예시를 보고 싶음. 0 온도로 다시 시도해보는 것도 좋음. 0 온도는 구조화된 데이터 추출에서 큰 차이를 만들 수 있음
유사한 주제에 대한 논문을 작성했음: 논문 링크
Predibase에서 700개 이상의 미세 조정 실험을 수행하여 GPT-4와 비교했음. 85%의 경우 GPT-4를 능가했음. 결과는 여기에서 확인 가능함
모든 모델을 가능한 한 많이 오픈 소스로 만들어야 함. 자유와 품질을 위해 오픈 소스가 일반적으로 더 나음
타겟 뉴스 기사의 논란이 될 수 있는 내용이 ChatGPT의 요약 능력에 영향을 미칠 수 있음

답변달기