멀티모달 AI가 이미지 생성 외에 할 수 있는 일
(blog.naver.com)멀티모달 AI는 이미지 생성 외에도 미완성 이미지 완성, 비디오 속 다음 발언 예측, 텍스트+이미지 연동 검색, 만화 번역, 암 발병 위험 예측, 혐오발언 발견 등을 수행할 수 있음
1.미완성 이미지 완성
- 마이크로소프트 리서치 아시아와 베이징대가 개발한 누와가 관련 기능을 선보임
- 이는 미완성 이미지를 주면 그림을 마저 채워 완성함
- 스케치를 주면 이에 맞는 이미지나 비디오를 생성함
- 비디오의 다음 장면을 예측해 선보임
2.비디오 속 다음 발언 예측
- 구글 리서치가 개발한 모델은 비디오 장면과 화자의 말을 받아쓴 글이 주어지면 다음 발언을 예측함
- 비디오와 텍스트는 화자의 발언을 예측하는 ‘맥락’으로 쓰임
3.텍스트+이미지 검색
- 구글이 개발한 멈은 사용자가 검색창에 등산화 사진을 올리고, “내가 후지산을 등산하는 데 이 신발을 사용할 수 있을까?”라고 입력하면 이미지를 이해하고, 이를 사용자 질문과 연결해서 ‘등산화가 잘 기능할 것’이라고 알려줄 수 있음
- 추천장비 목록이 있는 블로그도 제시할 수 있음
4.만화 번역
- 도쿄대와 일본 기계번역 기업인 만트라 연구진이 선보인 ‘멀티모달상황 인식 번역 프레임워크’는 삽화와 대사를 함께 고려해 만화를 다른 언어로 번역할 수 있음
- 이는 일본 만화 ‘망가’ 이미지에서 장면, 대사 읽기 순서, 시각 정보 등 맥락 정보를 추출함
- 그 정보를 사용해서 말풍선 속 대사를 일본어에서 영어로 번역함
5.암 발병 위험 예측
- 하버드대 의대 브리검과 여성 병원 연구진이 개발한 멀티모달 AI는 세포 조직 사진과 텍스트 기반 유전체학 데이터를 참고해 암 발병 가능성을 예측할 수 있음
- 연구진은 세포 조직의 미세한 사진과 텍스트 기반 유전체학 데이터로 개별 모델 두개를 학습시킴
- 그 다음, 두 모델들은 단일 시스템에 통합돼 ‘환자가 여러 유형의 암에 걸릴 위험이 높은 지, 낮은 지’ 예측함
6.특정 사물 ‘이미지’ 학습해 같은 사물의 ‘3D 데이터’나 ‘비디오’ 인식
- 메타가 선보인 옴니보어는 호박 이미지만 학습했는데도 호박의 3D 모델도 알아볼 수 있음
- 또 요트 이미지만 학습했는데도 요트의 비디오까지 인식할 수 있음
7.혐오발언 발견
- 멀티모달 AI는 소셜미디어에 올라온 게시물에서 이미지와 텍스트 내용을 모두 참고해 혐오 발언을 발견하도록 도울 수도 있음
- 혐오 발언은 이미지와 텍스트를 합친 밈 형태로도 있음
- 메타는 “(AI가) ‘밈이 혐오스러운지 아닌지’ 인식하려면 밈 이미지와 텍스트 내용을 다 고려해야 한다”고 설명함
- 텅 빈 사막 사진에 ‘얼마나 많은 사람들이 널 사랑하는지 봐’라고 적힌 밈은 미묘하게 공격적임
- AI가 혐오 발언이 담긴 밈의 실제 의미를 발견하려면 밈을 전체적으로 분석해야 함
- 이미지와 텍스트를 결합하고, 이게 함께 나타났을 때 의미 변화 방식을 이해해야 함
- 멀티모달 AI는 이미지와 텍스트를 동시에 처리해 이 기능을 발휘할 걸로 예상됨
- 메타는 혐오 발언을 인식하기 위해 소셜미디어 게시물 내용을 포괄적으로 이해하는 자사 능력이 멀티모달 AI로 발전할 걸로 봄
- 메타는 멀티모달 혐오 발언을 확인하는 시스템을 개발하는 데 도움되는 데이터셋 ‘헤이트풀 밈’을 구축, 공유함