# 내 파인튜닝 모델이 OpenAI의 GPT-4를 능가함

> Clean Markdown view of GeekNews topic #15639. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=15639](https://news.hada.io/topic?id=15639)
- GeekNews Markdown: [https://news.hada.io/topic/15639.md](https://news.hada.io/topic/15639.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-07-02T10:02:34+09:00
- Updated: 2024-07-02T10:02:34+09:00
- Original source: [mlops.systems](https://mlops.systems/posts/2024-07-01-full-finetuned-model-evaluation.html)
- Points: 1
- Comments: 1

## Topic Body

#### TL;DR  
  
- **핵심 요약**: 미세 조정된 모델이 OpenAI의 모델보다 정확했지만, 평가 구현이 어려웠음.  
- **주요 내용**: 미세 조정 과정에서 많은 코드가 숨겨져 있고 실행 속도가 느렸음. 시스템이 없으면 유지 관리의 복잡성이 증가할 것임.  
  
#### 데이터셋 로딩  
  
- **데이터셋**: Hugging Face Hub의 공개 저장소에서 테스트 데이터셋을 사용.  
- **데이터셋 구조**: 'name', 'eventrefnumber', 'text', 'StartDate', 'eventtype', 'province', 'citydistrict', 'village', 'targetgroup', 'commander', 'position', 'minkilled', 'mincaptured', 'capturedcharacterisation', 'killedcharacterisation', 'killq', 'captureq', 'killcaptureraid', 'airstrike', 'noshotsfired', 'dataprocessed', 'flagged', 'glossarymeta', 'minleaderskilled', 'minfacilitatorskilled', 'minleaderscaptured', 'minfacilitatorscaptured', 'leaderq' 등.  
  
#### 예측 추가  
  
- **예측 추가**: 각 데이터셋 행에 예측 결과를 추가하고, 이를 반복적으로 수행하여 계산 집약적인 단계를 피함.  
- **Pydantic 객체 사용**: 데이터 검증 및 품질 관리 기능을 처리하기 위해 Pydantic 객체로 데이터 구성.  
  
#### JSON 유효성 테스트  
  
- **예측 결과**: 모델에서 JSON 문자열을 출력하도록 설정.  
- **GPT 모델 사용**: GPT-4o 및 GPT-4 Turbo 모델을 사용하여 예측 수행.  
- **문제점**: GPT 모델이 동일한 프롬프트에 대해 훈련되지 않았기 때문에 정확한 비교가 어려움.  
  
#### 비동기 예측  
  
- **비동기 처리**: 많은 이벤트를 처리하기 위해 비동기 방식으로 예측 수행.  
- **재시도 로직**: GPT-3.5-turbo 모델의 속도 제한을 고려하여 재시도 로직 추가.  
  
#### 데이터셋 변환 및 푸시  
  
- **데이터셋 변환**: 예측 결과를 데이터셋에 추가하고 Hugging Face Hub에 푸시.  
- **함수 사용**: 변환 및 푸시 과정을 반복적으로 수행하기 위해 함수 사용.  
  
#### 미세 조정된 모델 예측 추가  
  
- **로컬 모델**: 로컬에서 훈련된 모델의 예측 결과를 데이터셋에 추가.  
- **OpenAI 모델**: OpenAI의 원클릭 미세 조정 서비스를 사용하여 훈련된 모델의 예측 결과 추가.  
- **다양한 모델**: Mistral, Llama3, Solar LLM 등 다양한 모델의 예측 결과 추가.  
  
#### 최종 평가  
  
- **평가 지표**: JSON 유효성 테스트, 시작 날짜 정확도, 주별 정확도, 타겟 그룹 정확도, 이벤트 유형 정확도 등 다양한 평가 지표 사용.  
- **최종 결과**: 미세 조정된 모델이 OpenAI 모델보다 높은 정확도를 보였음.  
  
### GN⁺의 의견  
  
1. **미세 조정의 중요성**: 미세 조정된 모델이 OpenAI의 기본 모델보다 높은 정확도를 보였다는 점에서, 특정 작업에 맞춘 모델의 중요성을 강조함.  
2. **평가의 복잡성**: 평가 구현이 어려웠다는 점에서, 시스템적 접근의 필요성을 느끼게 함.  
3. **다양한 모델 사용**: 다양한 모델을 사용하여 비교 평가를 수행한 점이 흥미로움. 이를 통해 모델의 장단점을 명확히 파악할 수 있음.  
4. **오픈 소스 활용**: Hugging Face Hub와 같은 오픈 소스 플랫폼을 활용하여 데이터셋을 관리하고 공유한 점이 유용함.  
5. **비동기 처리의 필요성**: 많은 데이터를 처리할 때 비동기 방식이 효율적이라는 점을 보여줌.

## Comments


### Comment 26848

- Author: neo
- Created: 2024-07-02T10:02:34+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=40843848) 
- OpenPipe 창립자: 데이터 추출은 미세 조정된 모델이 뛰어난 분야임. OpenPipe의 연구에 따르면, Llama 3 8B 모델이 GPT-4를 여러 작업에서 능가했음. 중요한 점은 고품질 훈련 데이터를 생성하는 방법임
- 작은 전문 모델이 정보 추출 및 텍스트 분류에서 더 나은 성능을 보임. 작은 모델의 성능을 포함한 연구를 보고 싶음
- 미지정 시스템의 방정식은 무한한 해를 가짐. 오픈 소스 AI 모델을 사용하여 SOTA 벤치마크를 능가할 수 있음. 현재 기술로는 지능형 시스템을 만들 수 없으며, 새로운 돌파구가 필요함
- 데이터 추출 및 구조화는 실제 작업에서 유용한 LLM의 유일한 진지한 응용임. 작은 모델이 더 빠르고 저렴하며, 오프라인 작업에 적합함. 더 많은 실험과 특정 미세 조정이 가능함
- 미세 조정 모델의 목적은 바로 이것임. 호스팅 및 로컬 옵션을 혼합한 미세 조정 과정을 보는 것이 좋음
- GPT-4가 부정확했던 예시와 최상의 모델이 정확했던 예시를 보고 싶음. 0 온도로 다시 시도해보는 것도 좋음. 0 온도는 구조화된 데이터 추출에서 큰 차이를 만들 수 있음
- 유사한 주제에 대한 논문을 작성했음: [논문 링크](https://www.nature.com/articles/s41467-024-45563-x)
- Predibase에서 700개 이상의 미세 조정 실험을 수행하여 GPT-4와 비교했음. 85%의 경우 GPT-4를 능가했음. 결과는 [여기](https://predibase.com/fine-tuning-index)에서 확인 가능함
- 모든 모델을 가능한 한 많이 오픈 소스로 만들어야 함. 자유와 품질을 위해 오픈 소스가 일반적으로 더 나음
- 타겟 뉴스 기사의 논란이 될 수 있는 내용이 ChatGPT의 요약 능력에 영향을 미칠 수 있음