데이터셋 공개

xguru · 2024-06-21T09:46:01+09:00

Meta Fundamental AI Research (FAIR) 가 새로운 연구 결과물들을 공개 혁신, 창의성, 효율성, 책임감이라는 핵심 테마에 초점을 맞춘 6가지 연구 결과물을 포함 Meta Chameleon 텍스트와 이미지를 입력으로 받아 텍스트와 이미지의 조합을 출력할 수 있는 통합 아키텍처 모델 Diffusion 기반 학습이 아닌 Tokenization을 사용해 텍스트와 이미지를 처리하므로 통합적 접근이 가능하고 설계, 유지 관리, 확장이 용이함 Chameleon 7B와 34B 모델의 주요 구성 요소를 연구 전용 라이선스로 공개 이미지 생성 모델은 아직 공개하지 않음 Multi-Token Prediction 단어를 한 번에 하나씩 예측하는 기존 방식 대신 여러 단어를 한꺼번에 예측하는 새로운 접근 방식 제안 모델 성능과 학습 효율성이 향상되고 속도도 빨라짐 코드 완성을 위한 사전 학습된 모델을 비상업적/연구 전용 라이선스로 공개함 JASCO (Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation) 텍스트 프롬프트를 음악 클립으로 변환하는 텍스트 대 음악 생성 모델 특정 코드나 비트 등 다양한 입력을 받아 생성된 음악 출력을 더 잘 제어할 수 있음 Information bottleneck layer와 temporal blurring을 적용해 특정 제어와 관련된 정보 추출 평가 결과 생성 품질은 기준 모델과 비슷하지만 훨씬 더 다양한 제어가 가능함 연구 논문과 샘플 페이지 공개, 추후 추론 코드와 사전 학습 모델도 공개 예정 AudioSeal AI 생성 음성을 탐지하기 위한 오디오 워터마킹 기법 더 긴 오디오 클립 내에서 AI 생성 부분을 정확히 찾아낼 수 있음 기존의 복잡한 디코딩 알고리듬 대신 국소적 탐지 방식을 사용해 속도와 효율성 향상 상용 라이선스로 공개되며, 다양한 생성 AI 도구의 오용 방지를 위한 연구의 일환임 PRISM 데이터셋 공개 지원 LLM 개선을 위해 다양한 사람들로부터 피드백을 받는 것이 중요함 피드백 과정에 대한 방법, 도메인, 목표에 대해 연구 커뮤니티에 의문이 제기됨 Meta는 75개국 1,500명의 다양한 참가자의 사회인구통계 및 선호도를 매핑한 PRISM 데이터셋 공개를 지원함 데이터셋은 21개 LLM과의 8,011개 실시간 대화에 대한 각 사람의 선호도와 세분화된 피드백을 매핑함 AI 개발에 더 널리 참여하고 포용적인 기술 설계 접근 방식을 장려하기를 희망함 텍스트 대 이미지 생성 시스템의 지리적 격차 측정 및 개선 텍스트 대 이미지 모델이 모든 사람에게 잘 작동하고 세계의 지리적, 문화적 다양성을 반영하는 것이 중요함 "DIG In"이라는 자동 지표를 개발해 잠재적인 지리적 격차 평가 65,000개 이상의 주석과 20개 이상의 설문 응답을 수집해 사람들이 지리적 표현을 인식하는 방식 연구 사람들은 전체 이미지보다는 이미지 내 특정 구성 요소를 활용해 지리적 표현을 인식한다는 것을 알아냄 이를 바탕으로 텍스트 대 이미지 모델의 출력 다양성을 개선하는 방법 탐구 Contextualized Vendi Score guidance를 도입해 이미지 품질과 프롬프트-생성 일관성을 유지하면서 생성된 샘플의 표현 다양성 증대

(ai.meta.com)

3P by xguru 2024-06-21 | ★ favorite | 댓글과 토론

Meta Fundamental AI Research (FAIR) 가 새로운 연구 결과물들을 공개
혁신, 창의성, 효율성, 책임감이라는 핵심 테마에 초점을 맞춘 6가지 연구 결과물을 포함

Meta Chameleon

텍스트와 이미지를 입력으로 받아 텍스트와 이미지의 조합을 출력할 수 있는 통합 아키텍처 모델
- Diffusion 기반 학습이 아닌 Tokenization을 사용해 텍스트와 이미지를 처리하므로 통합적 접근이 가능하고 설계, 유지 관리, 확장이 용이함
- Chameleon 7B와 34B 모델의 주요 구성 요소를 연구 전용 라이선스로 공개
- 이미지 생성 모델은 아직 공개하지 않음

Multi-Token Prediction

단어를 한 번에 하나씩 예측하는 기존 방식 대신 여러 단어를 한꺼번에 예측하는 새로운 접근 방식 제안
- 모델 성능과 학습 효율성이 향상되고 속도도 빨라짐
- 코드 완성을 위한 사전 학습된 모델을 비상업적/연구 전용 라이선스로 공개함

JASCO (Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation)

텍스트 프롬프트를 음악 클립으로 변환하는 텍스트 대 음악 생성 모델
- 특정 코드나 비트 등 다양한 입력을 받아 생성된 음악 출력을 더 잘 제어할 수 있음
- Information bottleneck layer와 temporal blurring을 적용해 특정 제어와 관련된 정보 추출
- 평가 결과 생성 품질은 기준 모델과 비슷하지만 훨씬 더 다양한 제어가 가능함
- 연구 논문과 샘플 페이지 공개, 추후 추론 코드와 사전 학습 모델도 공개 예정

AudioSeal

AI 생성 음성을 탐지하기 위한 오디오 워터마킹 기법
- 더 긴 오디오 클립 내에서 AI 생성 부분을 정확히 찾아낼 수 있음
- 기존의 복잡한 디코딩 알고리듬 대신 국소적 탐지 방식을 사용해 속도와 효율성 향상
- 상용 라이선스로 공개되며, 다양한 생성 AI 도구의 오용 방지를 위한 연구의 일환임

PRISM 데이터셋 공개 지원

LLM 개선을 위해 다양한 사람들로부터 피드백을 받는 것이 중요함
- 피드백 과정에 대한 방법, 도메인, 목표에 대해 연구 커뮤니티에 의문이 제기됨
- Meta는 75개국 1,500명의 다양한 참가자의 사회인구통계 및 선호도를 매핑한 PRISM 데이터셋 공개를 지원함
- 데이터셋은 21개 LLM과의 8,011개 실시간 대화에 대한 각 사람의 선호도와 세분화된 피드백을 매핑함
- AI 개발에 더 널리 참여하고 포용적인 기술 설계 접근 방식을 장려하기를 희망함

텍스트 대 이미지 생성 시스템의 지리적 격차 측정 및 개선

텍스트 대 이미지 모델이 모든 사람에게 잘 작동하고 세계의 지리적, 문화적 다양성을 반영하는 것이 중요함
- "DIG In"이라는 자동 지표를 개발해 잠재적인 지리적 격차 평가
- 65,000개 이상의 주석과 20개 이상의 설문 응답을 수집해 사람들이 지리적 표현을 인식하는 방식 연구
- 사람들은 전체 이미지보다는 이미지 내 특정 구성 요소를 활용해 지리적 표현을 인식한다는 것을 알아냄
- 이를 바탕으로 텍스트 대 이미지 모델의 출력 다양성을 개선하는 방법 탐구
- Contextualized Vendi Score guidance를 도입해 이미지 품질과 프롬프트-생성 일관성을 유지하면서 생성된 샘플의 표현 다양성 증대