Meta, Seamless Communication 모델 패밀리 발표

(ai.meta.com)

4P by GN⁺ 2023-12-02 | ★ favorite | 댓글 1개

언어간 장벽을 제거하고 더 자연스럽게 여러 언어 간 커뮤니케이션을 가능하게 하는 AI 연구 모델군
- SeamlessExpressive: 언어 간 표현과 언어의 미묘함을 보존
- SeamlessStreaming: 약 2초의 지연 시간으로 음성 및 텍스트 번역을 제공
- SeamlessM4T v2: 다국어 및 멀티태스킹 파운데이션 모델로, 음성과 텍스트를 통한 커뮤니케이션을 지원
- Seamless: SeamlessExpressive, SeamlessStreaming 및 SeamlessM4T v2의 기능을 하나로 통합

표현의 뉘앙스 보존

SeamlessExpressive는 인간 표현의 뉘앙스를 포착하는 번역을 목표로 함
기존 번역 도구는 대화 내용을 포착하는 데는 능숙하지만, 일반적으로 단조롭고 로봇 같은 음성으로 출력됨
SeamlessExpressive는 음성 스타일과 감정적 색채뿐만 아니라 말하기 속도와 일시 정지와 같은 언어의 미묘함을 보존하고자 함

거의 실시간 번역

SeamlessStreaming은 약 2초의 지연 시간으로 번역을 제공하는 최초의 대규모 다국어 모델
SeamlessM4T v2를 기반으로 하며, 자동 음성 인식 및 거의 100개의 입력 및 출력 언어에 대한 음성-텍스트 번역을 지원
또한 거의 100개의 입력 언어와 36개의 출력 언어에 대한 음성-음성 번역을 지원

범용 번역을 위한 기초 모델

2023년 8월, Meta는 음성 및 텍스트에 걸쳐 번역 및 전사에 있어 최첨단 결과를 제공하는 SeamlessM4T의 첫 버전을 소개함
이를 기반으로 개선된 모델인 SeamlessM4T v2는 새로운 SeamlessExpressive 및 SeamlessStreaming 모델의 파운데이션이 됨
새로운 아키텍처와 비자동 회귀 텍스트-유닛 디코더를 특징으로 하여 텍스트와 음성 출력 간의 일관성을 향상시킴

연구 접근 방식

협력과 개방형 연구의 힘을 믿으며, 연구자들이 이 작업을 기반으로 발전시킬 수 있도록 Seamless Communication 모델 전체를 공개함
안전하고 책임감 있는 AI 생태계를 촉진하기 위해 번역에서 환각 독성의 영향을 크게 줄이고, 표현력 있는 모델의 오디오 출력에 대한 맞춤형 워터마킹 접근 방식을 구현

GN⁺의 의견

이 기사에서 가장 중요한 것은 Meta가 언어 장벽을 허물기 위해 개발한 Seamless Communication AI 모델들의 소개임. 이 모델들은 표현의 뉘앙스를 유지하면서 거의 실시간으로 번역을 제공하고, 다양한 언어를 지원하는 강력한 기능을 갖추고 있음. 이러한 기술 발전은 전 세계 사람들이 더욱 자연스럽고 진정성 있는 방식으로 소통할 수 있는 길을 열어주고 있어, 많은 이들에게 흥미롭고 매력적인 소식으로 다가올 것임.

▲

GN⁺ 2023-12-02 [-]

Hacker News 의견

기대되는 미래 기술에 대한 희망

해외에서 헤드폰을 착용하고 자신의 언어로 주변 대화를 듣는 날을 기대함. 어린 시절 SF에서 본 '유니버설 번역기'에 매료되었으며, 아버지가 프랑스어-영어 동시통역사로 바쁘게 일하시는 것을 보고 직접 번역기를 만들어보려 했음. 번역은 중요한 일이며 많은 사람들에게 도움이 될 수 있음을 희망함.
기술을 활용한 언어 학습 도구에 대한 기대

이 기술을 활용한 언어 교사 개발을 기대함. 모든 사람이 하루 몇 시간씩 개인 교사를 가질 수 있음. 중국이나 멕시코에서 일하며 VR 게임을 통해 언어를 배우는 것이 매우 매력적임.
실시간 스트리밍 기술의 가능성

청각 장애가 있는 새 직원을 위해 회사가 실시간으로 작동하지 않는 Dragon과 같은 솔루션을 제안했으나, 직원이 직접 Whisper를 사용하여 실시간에 가까운 텍스트 변환 솔루션을 개발함. 새로운 모델을 사용하여 그가 어떤 일을 할지 기대됨.
번역의 정확성에 대한 우려

번역기가 때때로 부정확한 단어를 사용하는 것보다 오해를 불러일으키는 번역을 하는 것이 더 우려됨. 예를 들어, "what the fuck"을 스페인어로 번역할 때 의미가 누그러진 "qué diablos"로 출력되는 것은 원래 의도를 정확히 알고 싶은 사용자에게 문제가 될 수 있음.
AI에 의한 산업 변화에 대한 인식

아내가 여러 언어로 더빙을 하는 전문 성우가 되려 했을 때, AI에 의한 산업 변화를 예견하고 경로를 변경했음. AI의 발전에 대해 인상적인 결과를 느낌.
텍스트 음성 변환 기술의 발전과 향후 기대

텍스트 음성 변환 기술이 최근 몇 년 사이에 많이 발전했으나, 이 기술이 운영체제에 내장된 TTS 엔진(예: 스크린 리더 등)으로 언제 통합될지 궁금함.
특정 언어에 대한 지원 부족에 대한 불만

힌디어와 같은 주요 언어가 샘플에 포함되지 않은 것에 대해 실망함. 인도는 페이스북의 가장 큰 사용자 기반이지만, 페이스북은 인도에 충분한 기여를 하지 않고 있음.
언어 데이터 부족에 대한 문제 제기

영어-스와힐리어 번역 시도 결과가 좋지 않았음. Huggingface M4T V2를 사용했지만 대부분의 경우 제대로 작동하지 않고 단지 다른 목소리로 영어를 반환함. 어떤 데이터가 부족해서 언어가 제대로 작동하지 않는지 명확한 설명이 필요함. 데이터 제공을 통해 도움을 줄 수 있을지도 모름.
번역기의 오류에 대한 표현

"toxic word hallucinations"이라는 표현이 사이버펑크적이라고 느낌.
인공지능 번역 기술의 발전에 대한 감탄

지난 30년 동안 이루어진 진보에 대해 감동함. 90년대 중반 학생으로서 독일 인공지능 연구센터의 Verbmobil 시스템에서 일했는데, 이는 매우 제한된 범위에서 영어, 독일어, 일본어의 음성-음성 번역을 수행함. 당시에는 도메인 모델링, 문장 파싱, 의미 엔진, 3개 언어에 대한 맞춤형 음성-텍스트 변환 등 "전통적인" NLP 방식이 사용되었으나, 이 접근법은 결국 막다른 길이었음을 인식함.

답변달기