이 구현 방식이 정말 멋지다고 느껴짐. 여전히 임베딩(embeddings) 은 마법처럼 느껴지는 부분이 있음
하지만 이런 기술이 현실에서 감시 사회로 이어질 가능성이 가장 걱정스러움
지금은 수많은 카메라가 있지만, 실제로 모든 영상을 사람이 다 보는 건 불가능하기 때문에 어느 정도의 익명성과 사생활이 유지되고 있음
그러나 AI가 모든 영상을 실시간으로 분석하고 특정 인물이나 행동을 자연어로 탐지할 수 있게 되면, 전면 감시(panopticon) 가 현실이 될 수 있음
범죄 탐지나 낙상 감지 같은 긍정적인 활용도 있겠지만, 규제가 없다면 그 결과는 매우 위험할 것임
지금 이게 실제로 구현 중임. 시의회 회의에서 ALPR 카메라 계약을 논의하는 걸 들었는데, 거기서 Fusus라는 대시보드 제품을 알게 됨
다양한 카메라 시스템과 ALPR, 경보를 통합하고, 자연어로 영상 질의가 가능하다고 함
앞으로는 시민이 설치한 카메라도 통합될 예정이라 함. 결국 이게 Citizen 앱 같은 서비스와 연결되면, 이웃집 카메라가 경찰 시스템에 바로 연결되는 세상이 올 수도 있음
정말 걱정스러운 방향임
지금은 비용($2.50/시간)과 지연 시간(latency) 때문에 실시간 인덱싱이 어렵지만, 머지않아 가능해질 것임
그래서 나는 로컬 모델로 이런 걸 처리해서 영상이 외부로 나가지 않게 하는 게 중요하다고 생각함
하지만 전체적인 기술의 방향성은 신중히 고민해야 함
대부분의 카메라는 한 조직이 전부 접근할 수 없고, 정부가 보려면 영장(subpoena) 이 필요함
문제는 Flock이나 Ring처럼 대규모로 배포되거나, 한 회사가 모든 영상에 접근할 수 있을 때 생김
기술적으로는 이미 전면 감시 체계가 가능함. 단지 지금은 비용이 많이 들 뿐임
이런 비전 인식 모듈이 저전력 ASIC에서도 돌아가게 되면, 드론이 끔찍한 무기가 될 수 있음
멀티모달 AI가 광고 탐지와 광고 삽입 간의 무기 경쟁을 불러올 것 같음
예전에 Gemini 이전 모델로 AI 광고 제거를 실험했는데, 이번 기술은 훨씬 강력해서 광고를 즉시 식별하고 음소거하거나 제거할 수 있을 듯함
관련 실험을 여기서 정리함
흥미로운 글이었음. 어떤 사람이 AI 기반 웹 검색의 미래를 그렸는데, 결론은 밝지 않았음
결국 광고는 사라지지 않을 것임. AI 제공자가 광고 화이트리스트를 받거나, 더 나쁘게는 AI가 직접 광고 제품을 홍보하게 될 수도 있음
몇 달 전 Rexing 대시캠을 샀는데, 영상 접근이 너무 불편해서 직접 시스템을 만들어보려 함
SD카드를 뽑지 않고도 영상을 탐색하고 다운로드할 수 있게 하려는 중임
녹화 영상을 스크롤하다가 ‘이 장면을 자연어로 검색할 수 있으면 좋겠다’고 생각했는데, 이번 프로젝트를 보니 바로 적용하고 싶어짐
공유해줘서 고마움
이 기술을 영상 편집 소프트웨어에 적용할 수 있을까 궁금함
예를 들어 Premiere 플러그인에서 “고양이가 나오는 장면을 모두 제거해줘”라고 하면 자동으로 EDL(Edit Decision List) 을 만들어주는 식으로
좋은 아이디어임. 나도 이걸 다음 단계로 생각하고 있었음
SentrySearch는 이미 자연어 질의에 대해 정확한 in/out 타임스탬프를 반환하고 ffmpeg로 자동 트리밍함
이걸 EDL이나 Premiere 플러그인으로 확장하는 건 자연스러운 진화임
나는 Premiere 전문가는 아니지만, 누군가 EDL 익스포터나 플러그인을 시도한다면 PR 리뷰와 병합을 도와줄 의향이 있음
시작하면 GitHub 이슈로 알려주면 좋겠음
이게 로컬 모델에서도 작동할 수 있는지 궁금함
대시캠이 아니라 홈 모니터링 용도로도 흥미로움
대부분의 홈 모니터링은 움직임 감지 시에만 녹화하므로 이미 검색 공간이 많이 줄어듦
앞뒤로 빠르게 넘기면 문 앞에 누가 다가오는 30초 정도는 쉽게 찾을 수 있음
이런 기능은 앞으로 모든 홈 보안 시스템의 필수 기능이 될 것 같음
예전에 고양이가 문이 열렸을 때 밖으로 나갔는지 확인하려고 몇 시간씩 영상을 돌려봤는데, 사실은 집 안에 숨어 있었음
나도 임베딩 프로젝트를 진행 중인데, 아직 프로토타입 단계임
내 경우 Gemini는 아니고, 게임용 연결 퍼즐(reverse connections) 을 만드는 중임
관련 내용은 여기서 볼 수 있음
“영상 조각이 대부분 정지 프레임인지 확인”하는 코드 부분을 봤는데, ffmpeg의 select와 scene 파라미터를 조합하면 자동으로 처리할 수 있을 것 같음
나는 콘텐츠/비디오 인텔리전스 분야에서 일함
Gemini는 이런 사용 사례에 정말 잘 맞는 도구임
데모에서 “뒤에 자전거 거치대가 달린 차가 밤에 나를 끼어들었을 때”를 검색하는 걸 보고 웃었음
아마 그 차를 찾는 게 이 프로젝트를 만든 진짜 동기였을 듯함
Hacker News 의견들
이 구현 방식이 정말 멋지다고 느껴짐. 여전히 임베딩(embeddings) 은 마법처럼 느껴지는 부분이 있음
하지만 이런 기술이 현실에서 감시 사회로 이어질 가능성이 가장 걱정스러움
지금은 수많은 카메라가 있지만, 실제로 모든 영상을 사람이 다 보는 건 불가능하기 때문에 어느 정도의 익명성과 사생활이 유지되고 있음
그러나 AI가 모든 영상을 실시간으로 분석하고 특정 인물이나 행동을 자연어로 탐지할 수 있게 되면, 전면 감시(panopticon) 가 현실이 될 수 있음
범죄 탐지나 낙상 감지 같은 긍정적인 활용도 있겠지만, 규제가 없다면 그 결과는 매우 위험할 것임
다양한 카메라 시스템과 ALPR, 경보를 통합하고, 자연어로 영상 질의가 가능하다고 함
앞으로는 시민이 설치한 카메라도 통합될 예정이라 함. 결국 이게 Citizen 앱 같은 서비스와 연결되면, 이웃집 카메라가 경찰 시스템에 바로 연결되는 세상이 올 수도 있음
정말 걱정스러운 방향임
그래서 나는 로컬 모델로 이런 걸 처리해서 영상이 외부로 나가지 않게 하는 게 중요하다고 생각함
하지만 전체적인 기술의 방향성은 신중히 고민해야 함
문제는 Flock이나 Ring처럼 대규모로 배포되거나, 한 회사가 모든 영상에 접근할 수 있을 때 생김
멀티모달 AI가 광고 탐지와 광고 삽입 간의 무기 경쟁을 불러올 것 같음
예전에 Gemini 이전 모델로 AI 광고 제거를 실험했는데, 이번 기술은 훨씬 강력해서 광고를 즉시 식별하고 음소거하거나 제거할 수 있을 듯함
관련 실험을 여기서 정리함
결국 광고는 사라지지 않을 것임. AI 제공자가 광고 화이트리스트를 받거나, 더 나쁘게는 AI가 직접 광고 제품을 홍보하게 될 수도 있음
몇 달 전 Rexing 대시캠을 샀는데, 영상 접근이 너무 불편해서 직접 시스템을 만들어보려 함
SD카드를 뽑지 않고도 영상을 탐색하고 다운로드할 수 있게 하려는 중임
녹화 영상을 스크롤하다가 ‘이 장면을 자연어로 검색할 수 있으면 좋겠다’고 생각했는데, 이번 프로젝트를 보니 바로 적용하고 싶어짐
공유해줘서 고마움
이 기술을 영상 편집 소프트웨어에 적용할 수 있을까 궁금함
예를 들어 Premiere 플러그인에서 “고양이가 나오는 장면을 모두 제거해줘”라고 하면 자동으로 EDL(Edit Decision List) 을 만들어주는 식으로
SentrySearch는 이미 자연어 질의에 대해 정확한 in/out 타임스탬프를 반환하고 ffmpeg로 자동 트리밍함
이걸 EDL이나 Premiere 플러그인으로 확장하는 건 자연스러운 진화임
나는 Premiere 전문가는 아니지만, 누군가 EDL 익스포터나 플러그인을 시도한다면 PR 리뷰와 병합을 도와줄 의향이 있음
시작하면 GitHub 이슈로 알려주면 좋겠음
이게 로컬 모델에서도 작동할 수 있는지 궁금함
대시캠이 아니라 홈 모니터링 용도로도 흥미로움
앞뒤로 빠르게 넘기면 문 앞에 누가 다가오는 30초 정도는 쉽게 찾을 수 있음
예전에 고양이가 문이 열렸을 때 밖으로 나갔는지 확인하려고 몇 시간씩 영상을 돌려봤는데, 사실은 집 안에 숨어 있었음
나도 임베딩 프로젝트를 진행 중인데, 아직 프로토타입 단계임
내 경우 Gemini는 아니고, 게임용 연결 퍼즐(reverse connections) 을 만드는 중임
관련 내용은 여기서 볼 수 있음
“영상 조각이 대부분 정지 프레임인지 확인”하는 코드 부분을 봤는데, ffmpeg의 select와 scene 파라미터를 조합하면 자동으로 처리할 수 있을 것 같음
나는 콘텐츠/비디오 인텔리전스 분야에서 일함
Gemini는 이런 사용 사례에 정말 잘 맞는 도구임
데모에서 “뒤에 자전거 거치대가 달린 차가 밤에 나를 끼어들었을 때”를 검색하는 걸 보고 웃었음
아마 그 차를 찾는 게 이 프로젝트를 만든 진짜 동기였을 듯함