3P by xguru 3달전 | favorite | 댓글과 토론
  • Meta Fundamental AI Research (FAIR) 가 새로운 연구 결과물들을 공개
  • 혁신, 창의성, 효율성, 책임감이라는 핵심 테마에 초점을 맞춘 6가지 연구 결과물을 포함

Meta Chameleon

  • 텍스트와 이미지를 입력으로 받아 텍스트와 이미지의 조합을 출력할 수 있는 통합 아키텍처 모델
    • Diffusion 기반 학습이 아닌 Tokenization을 사용해 텍스트와 이미지를 처리하므로 통합적 접근이 가능하고 설계, 유지 관리, 확장이 용이함
    • Chameleon 7B와 34B 모델의 주요 구성 요소를 연구 전용 라이선스로 공개
    • 이미지 생성 모델은 아직 공개하지 않음

Multi-Token Prediction

  • 단어를 한 번에 하나씩 예측하는 기존 방식 대신 여러 단어를 한꺼번에 예측하는 새로운 접근 방식 제안
    • 모델 성능과 학습 효율성이 향상되고 속도도 빨라짐
    • 코드 완성을 위한 사전 학습된 모델을 비상업적/연구 전용 라이선스로 공개함

JASCO (Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation)

  • 텍스트 프롬프트를 음악 클립으로 변환하는 텍스트 대 음악 생성 모델
    • 특정 코드나 비트 등 다양한 입력을 받아 생성된 음악 출력을 더 잘 제어할 수 있음
    • Information bottleneck layer와 temporal blurring을 적용해 특정 제어와 관련된 정보 추출
    • 평가 결과 생성 품질은 기준 모델과 비슷하지만 훨씬 더 다양한 제어가 가능함
    • 연구 논문과 샘플 페이지 공개, 추후 추론 코드와 사전 학습 모델도 공개 예정

AudioSeal

  • AI 생성 음성을 탐지하기 위한 오디오 워터마킹 기법
    • 더 긴 오디오 클립 내에서 AI 생성 부분을 정확히 찾아낼 수 있음
    • 기존의 복잡한 디코딩 알고리듬 대신 국소적 탐지 방식을 사용해 속도와 효율성 향상
    • 상용 라이선스로 공개되며, 다양한 생성 AI 도구의 오용 방지를 위한 연구의 일환임

PRISM 데이터셋 공개 지원

  • LLM 개선을 위해 다양한 사람들로부터 피드백을 받는 것이 중요함
    • 피드백 과정에 대한 방법, 도메인, 목표에 대해 연구 커뮤니티에 의문이 제기됨
    • Meta는 75개국 1,500명의 다양한 참가자의 사회인구통계 및 선호도를 매핑한 PRISM 데이터셋 공개를 지원함
    • 데이터셋은 21개 LLM과의 8,011개 실시간 대화에 대한 각 사람의 선호도와 세분화된 피드백을 매핑함
    • AI 개발에 더 널리 참여하고 포용적인 기술 설계 접근 방식을 장려하기를 희망함

텍스트 대 이미지 생성 시스템의 지리적 격차 측정 및 개선

  • 텍스트 대 이미지 모델이 모든 사람에게 잘 작동하고 세계의 지리적, 문화적 다양성을 반영하는 것이 중요함
    • "DIG In"이라는 자동 지표를 개발해 잠재적인 지리적 격차 평가
    • 65,000개 이상의 주석과 20개 이상의 설문 응답을 수집해 사람들이 지리적 표현을 인식하는 방식 연구
    • 사람들은 전체 이미지보다는 이미지 내 특정 구성 요소를 활용해 지리적 표현을 인식한다는 것을 알아냄
    • 이를 바탕으로 텍스트 대 이미지 모델의 출력 다양성을 개선하는 방법 탐구
    • Contextualized Vendi Score guidance를 도입해 이미지 품질과 프롬프트-생성 일관성을 유지하면서 생성된 샘플의 표현 다양성 증대