Gemini Pro 1.5의 킬러 앱은 비디오입니다

▲

GN⁺ 2024-02-22 | parent | ★ favorite | on: Gemini Pro 1.5의 킬러 앱은 비디오입니다(simonwillison.net)

Hacker News 의견

에이전트가 사용자의 화면을 항상 조용히 감시하게 되면 매우 유용하거나 디스토피아적일 수 있음.
- 사용자가 코딩하거나 계획을 세우고 연구하는 것을 몇 달 동안 지켜보고, 개인적이고 전문적인 조언을 할 수 있을 것으로 기대됨.
- 이러한 기술은 개인의 심리를 반영하고 많은 정보를 기억할 수 있어 기업이나 악의적인 행위자에게 매우 가치 있는 것이 될 수 있음.
- 모델이 안전하게 운영되어야 하며, 개인의 복제나 프라이버시 침해의 위험이 있음.
"Gemini Pro 1.5의 핵심 앱은 비디오 입력"이라는 제목이 적절함.
- YouTube와 같은 비디오 콘텐츠의 대규모 모더레이션에 유용할 수 있으며, 비용을 낮출 수 있다면 좋을 것임.
비디오는 이미지의 연속이며, OpenAI의 GPT-4-Vision 데모는 모델에게 프레임 목록을 전송하여 유사한 효과를 냄.
- GPT-4-Vision이 함수 호출이나 구조화된 데이터를 지원하여 JSON 출력을 보장한다면 좋을 것임.
- 비용을 절반으로 줄이기 위해 ffmpeg를 사용하여 매 다른 프레임을 출력하는 방법도 있음.
- OpenAI 데모는 약 600 프레임 비디오의 50번째 프레임마다 전송함.
AI가 비디오, 이미지, 텍스트를 분석하고 저렴하고 효율적으로 처리할 수 있게 되면, 프라이버시는 완전히 끝날 것임.
- 현재 대기업들은 우리에 대한 많은 데이터를 가지고 있지만, 모든 것을 이해하고 연결하는 데는 한계가 있음.
- 강력한 AI는 디지털 생활의 모든 측면을 이해할 수 있으며, 좋은 목적과 나쁜 목적으로 사용될 수 있는 잠재력이 매우 큼.
저자가 입력으로 사용된 비디오에서 언급된 책들이 실제로 정확한지 확인하지 않은 것 같음.
- 첫 번째로 확인한 "Growing Up with Lucy by April Henry"라는 책은 존재하지 않으며, 실제로는 Steve Grand의 책임.
- 멋진 데모이지만, 실제로 더 많은 것을 위해 사용하기에는 쓸모가 없음.
구글의 안전 필터가 "Cocktail"이라는 단어에 반응한 것 같음.
- 안전 설정을 낮추고 다시 시도했지만, 두 번째 시도에서도 거부됨.
- 구글의 위험 관리 부서가 조직을 완전히 장악하여, 가장 똑똑한 컴퓨터조차도 "cocktail"이나 "Abraham Lincoln"과 같은 위험한 단어나 이미지를 사용하는 것을 두려워함.
프레임 당 256 토큰만 사용하는 것은 놀랍다고 함.
- 한 장의 사진이 천 마디 말보다 가치가 있다는 말과 달리, 실제로는 약 192단어의 가치만 있음을 의미함.
"Cocktail"과 관련된 문제는 실제로 존재함.
- Moby Dick의 캐릭터들을 DALLE로 상상하려고 했지만, 완전히 거부당함.
- AI 회사라면 더 나은 욕설 필터를 만들 수 있을 것이라고 생각함.
구글의 하드웨어 규모 대 OpenAI(또는 마이크로소프트가 제공하는 것)의 실제 핵심 앱이 무엇인지 궁금함.
- 구글이 한 것이 OpenAI 팀에게 특별히 놀라운 것은 아니지만, 거대한 규모로 더 빠르게 반복할 수 있을지도 모름.
기술 자체는 인상적이고 흥미롭지만, Scunthorpe 문제의 복수라고 할 수 있는 상황에 대해 웃음이 나옴.
- 안전 필터가 "Cocktail"이라는 단어에 반응한 것으로 보임.