▲GN⁺ 2023-12-12 | parent | ★ favorite | on: Show HN: 가짜 Google Gemini 데모를 GPT-4를 사용하여 재제작, 이번엔 실제로 구현(sagittarius.greg.technology)Hacker News 의견 "가짜 Gemini 데모의 '마법'"은 LLM이 지속적으로 오디오와 비디오 입력을 받고, 사용자의 대화나 그림 그리기가 끝나는 시점을 알아채고 적절한 시기에 응답하는 것처럼 보였음. 소스 코드 검토 결과, 데모는 비디오 피드의 스크린샷을 800ms마다 캡처하고 사용자가 그림을 완성할 때까지 기다린 후 마지막 세 스크린샷을 전송함. 이러한 방식으로 LLM과 상호작용하는 것은 연속적인 오디오-비디오 입력 없이는 자연스럽지 않게 느껴짐을 증명함. 회사들이 왜 이런 식으로 거짓말을 하는지 이해할 수 없음. 실제로 많은 것을 잃을 수도 있는데, 이러한 과장된 홍보는 단기적으로는 도움이 될지 몰라도 장기적으로는 도움이 되지 않음. Google DeepMind는 실제로 최첨단 LLM을 가지고 있지 않았다고 확신함. ChatGPT가 출시되었을 때 Google은 AI 안전성 때문에 더 나은 모델을 공개하지 않았다고 했지만, 실제로는 그렇지 않았음. GPT-4V는 매우 인상적이며, 시각이나 멀티모달리티에 관심이 있는 사람은 LLaVA를 시도해볼 것을 권장함. 개인적으로 7B q5_k 변형을 사용해보고 매우 인상적이라고 생각함. GPT-4V를 사용하여 유사한 데모를 만들 수 있었음. Google이 진실된 마케팅을 했다면 모두가 적절하게 인상을 받았을 것이지만, 대신 일반 대중을 위한 오해의 소지가 있는 마케팅 비디오를 만들어 기술 전문가들에게 실망을 안겨줌. Google의 AI 대화 번역 앱을 실제로 사용해보려고 했지만, 실제 대화에는 전혀 사용할 수 없음. 데모에서는 자연스럽게 보였지만 실제로는 작동하지 않았음을 확인함. JPEG 이미지만이 GPT-4와의 유일한 인터페이스로 사용되는 것은 낭비라고 생각함. 인간의 눈은 '프레임' 자체보다는 프레임 간의 차이를 인식함. 비디오 코덱처럼 내부 상태가 키 프레임과 델타로 작동하는 모델이 실시간 비디오 처리의 다음 큰 단계가 될 수 있음. Google DeepMind는 실제로 최첨단 언어 모델을 가지고 있지 않았다고 확신함. ChatGPT 출시 당시 Google은 AI 안전성 때문에 더 나은 모델을 공개하지 않았다고 했지만, 실제로는 그렇지 않았음. 이 데모의 지연은 API를 통한 것이므로 용서될 수 있음. 로컬 인프라에서의 추론은 거의 즉각적이므로, 이 데모는 해당 인프라에 접근할 수 있다면 다른 모든 것을 능가할 것임. Sagittarius라는 이름을 선택한 것은 별자리에서 Gemini와 정반대에 위치해 있기 때문에 재미있음.
Hacker News 의견