멀티모달 AI가 이미지 생성 외에 할 수 있는 일

(blog.naver.com)

멀티모달 AI는 이미지 생성 외에도 미완성 이미지 완성, 비디오 속 다음 발언 예측, 텍스트+이미지 연동 검색, 만화 번역, 암 발병 위험 예측, 혐오발언 발견 등을 수행할 수 있음

1.미완성 이미지 완성

2.비디오 속 다음 발언 예측

3.텍스트+이미지 검색

구글이 개발한 멈은 사용자가 검색창에 등산화 사진을 올리고, “내가 후지산을 등산하는 데 이 신발을 사용할 수 있을까?”라고 입력하면 이미지를 이해하고, 이를 사용자 질문과 연결해서 ‘등산화가 잘 기능할 것’이라고 알려줄 수 있음
추천장비 목록이 있는 블로그도 제시할 수 있음

4.만화 번역

도쿄대와 일본 기계번역 기업인 만트라 연구진이 선보인 ‘멀티모달상황 인식 번역 프레임워크’는 삽화와 대사를 함께 고려해 만화를 다른 언어로 번역할 수 있음
이는 일본 만화 ‘망가’ 이미지에서 장면, 대사 읽기 순서, 시각 정보 등 맥락 정보를 추출함
그 정보를 사용해서 말풍선 속 대사를 일본어에서 영어로 번역함

5.암 발병 위험 예측

하버드대 의대 브리검과 여성 병원 연구진이 개발한 멀티모달 AI는 세포 조직 사진과 텍스트 기반 유전체학 데이터를 참고해 암 발병 가능성을 예측할 수 있음
연구진은 세포 조직의 미세한 사진과 텍스트 기반 유전체학 데이터로 개별 모델 두개를 학습시킴
그 다음, 두 모델들은 단일 시스템에 통합돼 ‘환자가 여러 유형의 암에 걸릴 위험이 높은 지, 낮은 지’ 예측함

6.특정 사물 ‘이미지’ 학습해 같은 사물의 ‘3D 데이터’나 ‘비디오’ 인식

7.혐오발언 발견

함께 보면 좋은 글 β