Reflection 70B의 공식 API는 클로드 Sonnet 3.5의 Wrapper 였음

(old.reddit.com)

3P by GN⁺ 2024-09-10 | ★ favorite | 댓글 1개

며칠 전 누군가 놀라운 벤치마크 결과와 함께 Llama 3.1 70B 미세 조정 버전이라고 주장하는 Reflection 70B를 발표
- Weight 릴리스는 엉망이었음. 3.1용 파인튜닝이라고 주장하며 3.0용 Lora를 출시
- 릴리스된 가중치로 실행했을 때 처음에는 평가가 기대에 미치지 못함
- 호스팅된 엔드포인트를 사용하면 평가가 SOTA 정도로 수행되기 시작
사람들이 엔드포인트에서 어떤 모델이 실행되고 있는지 확인할 수 있는 영리한 방법을 찾아냄
- 모델별 토큰 및 모델별 특정한 검열 사용
- 찾아낸 바에 의하면 그들의 파인튜닝한 자체 모델이 아니라 Sonnet 3.5를 감싼거라고 주장
- Sonnet인 것으로 포착된게 트위터에 게시된 후 내용이 바뀜
- 그러자 다른 사용자가 비슷한 방법을 사용하여 호스팅 모델을 GPT 4o로 바꿨다는 증거를 찾았다고 주장
결과가 섞여있고, 일관되지 않아서 무엇이 진실이고 무엇이 거짓인지 명확하지 않음
원 제작자의 릴리즈 트윗 : https://twitter.com/mattshumer_/status/1831767014341538166
프롬프트를 통해서 계속 뭔가 바뀌고 있다는 걸 트래킹한 트윗 타래 : https://x.com/RealJosephus/status/1832904398831280448

GN⁺ 2024-09-10 [-]

Hacker News 의견

Llama 3.1 70B 모델의 성능이 뛰어나다고 발표되었으나, 여러 문제가 발생함
- Lora for Llama 3.0의 가중치가 잘못 배포됨
- 초기 평가가 기대에 미치지 못함
- 호스팅된 엔드포인트에서 SOTA 성능을 보임
- 모델이 실제로 어떤 모델인지 확인하기 위해 다양한 방법이 사용됨
- Sonnet 3.5 모델을 사용한 것으로 밝혀짐
- 이후 GPT 4o 모델로 전환한 증거가 발견됨
- 혼란과 시간 낭비가 발생함
이 게시물이 더 많은 주목을 받아야 한다고 주장함
- AI 분야에서 큰 인물로 알려진 사람의 평판이 손상됨
- "claude" 필터링, 태그 오류, 모델이 claude라고 인정하는 증거 등이 있음
- Llama 버전에서 지원하지 않는 아랍어로 질문에 답변하는 모델의 행동이 가장 결정적임
사람들은 명성을 위해 많은 일을 함, Schumer의 최종 목표가 무엇인지 궁금함

저자의 원래 트윗 (곧 삭제될 예정)

세계 최고의 오픈 소스 모델인 Reflection 70B를 발표하게 되어 기쁩니다.  
Reflection-Tuning을 사용하여 훈련되었으며, LLM이 스스로의 실수를 수정할 수 있게 했어요.  
다음 주에 405B가 출시될 예정이며, 세계 최고의 모델이 될 것으로 기대합니다.

"odd"와 운이 맞고, 세 번째 글자로 시작하는 이름을 가진 사람 (C*** Debussy)이라는 농담이 있음
신뢰할 수 있는 출처에서 "확인"을 받았는지 궁금함, Reddit 게시물, 트위터 스레드, 출처가 불분명한 스크린샷을 신뢰하기 어려움

답변달기

Reflection 70B의 공식 API는 클로드 Sonnet 3.5의 Wrapper 였음

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견