GN⁺: Show HN: 가짜 Google Gemini 데모를 GPT-4를 사용하여 재제작, 이번엔 실제로 구현
(sagittarius.greg.technology)GPT-4를 이용한 구글 제미니 가짜 데모의 리메이크, 이번엔 진짜임
- 구글 제미니의 가짜 데모를 GPT-4를 사용하여 리메이크한 프로젝트.
- 실제로 작동하는 데모가 제공되며, 관련 코드는 GitHub 레포지토리에서 확인 가능.
- 프로젝트는 Greg Technology에 의해 만들어짐.
GN⁺의 의견
- 이 기사에서 가장 중요한 점은 GPT-4를 활용하여 과거의 가짜 데모를 실제로 구현한 프로젝트의 존재.
- 인공지능 기술의 발전이 실제로 사용 가능한 혁신적인 결과물을 만들어내는 과정을 보여주는 사례로서 흥미로움.
Hacker News 의견
- "가짜 Gemini 데모의 '마법'"은 LLM이 지속적으로 오디오와 비디오 입력을 받고, 사용자의 대화나 그림 그리기가 끝나는 시점을 알아채고 적절한 시기에 응답하는 것처럼 보였음.
- 소스 코드 검토 결과, 데모는 비디오 피드의 스크린샷을 800ms마다 캡처하고 사용자가 그림을 완성할 때까지 기다린 후 마지막 세 스크린샷을 전송함. 이러한 방식으로 LLM과 상호작용하는 것은 연속적인 오디오-비디오 입력 없이는 자연스럽지 않게 느껴짐을 증명함.
- 회사들이 왜 이런 식으로 거짓말을 하는지 이해할 수 없음. 실제로 많은 것을 잃을 수도 있는데, 이러한 과장된 홍보는 단기적으로는 도움이 될지 몰라도 장기적으로는 도움이 되지 않음.
- Google DeepMind는 실제로 최첨단 LLM을 가지고 있지 않았다고 확신함. ChatGPT가 출시되었을 때 Google은 AI 안전성 때문에 더 나은 모델을 공개하지 않았다고 했지만, 실제로는 그렇지 않았음.
- GPT-4V는 매우 인상적이며, 시각이나 멀티모달리티에 관심이 있는 사람은 LLaVA를 시도해볼 것을 권장함. 개인적으로 7B q5_k 변형을 사용해보고 매우 인상적이라고 생각함.
- GPT-4V를 사용하여 유사한 데모를 만들 수 있었음. Google이 진실된 마케팅을 했다면 모두가 적절하게 인상을 받았을 것이지만, 대신 일반 대중을 위한 오해의 소지가 있는 마케팅 비디오를 만들어 기술 전문가들에게 실망을 안겨줌.
- Google의 AI 대화 번역 앱을 실제로 사용해보려고 했지만, 실제 대화에는 전혀 사용할 수 없음. 데모에서는 자연스럽게 보였지만 실제로는 작동하지 않았음을 확인함.
- JPEG 이미지만이 GPT-4와의 유일한 인터페이스로 사용되는 것은 낭비라고 생각함. 인간의 눈은 '프레임' 자체보다는 프레임 간의 차이를 인식함. 비디오 코덱처럼 내부 상태가 키 프레임과 델타로 작동하는 모델이 실시간 비디오 처리의 다음 큰 단계가 될 수 있음.
- Google DeepMind는 실제로 최첨단 언어 모델을 가지고 있지 않았다고 확신함. ChatGPT 출시 당시 Google은 AI 안전성 때문에 더 나은 모델을 공개하지 않았다고 했지만, 실제로는 그렇지 않았음.
- 이 데모의 지연은 API를 통한 것이므로 용서될 수 있음. 로컬 인프라에서의 추론은 거의 즉각적이므로, 이 데모는 해당 인프라에 접근할 수 있다면 다른 모든 것을 능가할 것임.
- Sagittarius라는 이름을 선택한 것은 별자리에서 Gemini와 정반대에 위치해 있기 때문에 재미있음.