3P by neo 1달전 | favorite | 댓글 1개
  • 며칠 전 누군가 놀라운 벤치마크 결과와 함께 Llama 3.1 70B 미세 조정 버전이라고 주장하는 Reflection 70B를 발표
    • Weight 릴리스는 엉망이었음. 3.1용 파인튜닝이라고 주장하며 3.0용 Lora를 출시
    • 릴리스된 가중치로 실행했을 때 처음에는 평가가 기대에 미치지 못함
    • 호스팅된 엔드포인트를 사용하면 평가가 SOTA 정도로 수행되기 시작
  • 사람들이 엔드포인트에서 어떤 모델이 실행되고 있는지 확인할 수 있는 영리한 방법을 찾아냄
    • 모델별 토큰 및 모델별 특정한 검열 사용
    • 찾아낸 바에 의하면 그들의 파인튜닝한 자체 모델이 아니라 Sonnet 3.5를 감싼거라고 주장
    • Sonnet인 것으로 포착된게 트위터에 게시된 후 내용이 바뀜
    • 그러자 다른 사용자가 비슷한 방법을 사용하여 호스팅 모델을 GPT 4o로 바꿨다는 증거를 찾았다고 주장
  • 결과가 섞여있고, 일관되지 않아서 무엇이 진실이고 무엇이 거짓인지 명확하지 않음
  • 원 제작자의 릴리즈 트윗 : https://twitter.com/mattshumer_/status/1831767014341538166
  • 프롬프트를 통해서 계속 뭔가 바뀌고 있다는 걸 트래킹한 트윗 타래 : https://x.com/RealJosephus/status/1832904398831280448
Hacker News 의견
  • Llama 3.1 70B 모델의 성능이 뛰어나다고 발표되었으나, 여러 문제가 발생함

    • Lora for Llama 3.0의 가중치가 잘못 배포됨
    • 초기 평가가 기대에 미치지 못함
    • 호스팅된 엔드포인트에서 SOTA 성능을 보임
    • 모델이 실제로 어떤 모델인지 확인하기 위해 다양한 방법이 사용됨
    • Sonnet 3.5 모델을 사용한 것으로 밝혀짐
    • 이후 GPT 4o 모델로 전환한 증거가 발견됨
    • 혼란과 시간 낭비가 발생함
  • 이 게시물이 더 많은 주목을 받아야 한다고 주장함

    • AI 분야에서 큰 인물로 알려진 사람의 평판이 손상됨
    • "claude" 필터링, 태그 오류, 모델이 claude라고 인정하는 증거 등이 있음
    • Llama 버전에서 지원하지 않는 아랍어로 질문에 답변하는 모델의 행동이 가장 결정적임
  • 사람들은 명성을 위해 많은 일을 함, Schumer의 최종 목표가 무엇인지 궁금함

  • 저자의 원래 트윗 (곧 삭제될 예정)

    세계 최고의 오픈 소스 모델인 Reflection 70B를 발표하게 되어 기쁩니다.  
    Reflection-Tuning을 사용하여 훈련되었으며, LLM이 스스로의 실수를 수정할 수 있게 했어요.  
    다음 주에 405B가 출시될 예정이며, 세계 최고의 모델이 될 것으로 기대합니다.  
    
  • "odd"와 운이 맞고, 세 번째 글자로 시작하는 이름을 가진 사람 (C*** Debussy)이라는 농담이 있음

  • 신뢰할 수 있는 출처에서 "확인"을 받았는지 궁금함, Reddit 게시물, 트위터 스레드, 출처가 불분명한 스크린샷을 신뢰하기 어려움