IBM과 NASA, 과학 지식 접근성 향상을 위한 언어 모델 개발

(research.ibm.com)

4P by GN⁺ 2024-03-15 | ★ favorite | 댓글과 토론

IBM과 NASA, 과학적 지식 접근성 향상을 위한 언어 모델 구축

IBM과 NASA가 과학 문헌을 통해 효율적인 언어 모델을 만드는 새로운 협력을 시작함.
Transformer 아키텍처를 기반으로 한 이 모델들은 분류, 개체 추출, 질문 응답, 정보 검색 등 다양한 애플리케이션에 사용 가능함.
다양한 분야에서 높은 성능을 달성하며 신속하게 응답할 수 있으며, 과학 및 학술 커뮤니티의 이익을 위해 Hugging Face에 오픈소스로 공개됨.

트랜스포머 기반 언어 모델

BERT, RoBERTa, IBM의 Slate 및 Granite 모델군을 포함한 변환기 기반 언어 모델은 자연어 이해 작업에 매우 중요함.
이 모델들은 언어 작동 방식에 대한 통계적 이해를 바탕으로 하며, 가려진 단어를 복원하여 문장을 재구성하는 마스크 언어 모델링 작업을 통해 학습함.
단어를 모델이 사용할 수 있는 단위로 분해하는 토크나이저는 방대한 어휘 학습에 중요한 역할을 함.

과학분야에 특화된 토크나이저와 훈련 데이터

IBM과 NASA는 천문물리학, 행성 과학, 지구 과학, 태양물리학, 생물 및 물리 과학 데이터의 코퍼스에서 600억 토큰에 대해 모델을 훈련함.
일반적인 토크나이저와 달리 개발된 특화된 토크나이저는 "axes" 및 "polycrystalline"과 같은 과학 용어를 인식할 수 있음.
모델이 처리한 50,000개 토큰 중 절반 이상이 Hugging Face의 RoBERTa 모델과 비교하여 고유함.

성능 향상

도메인 특화 어휘로 학습된 IBM-NASA 모델은 생물의학 작업을 평가하는 인기 있는 BLURB 벤치마크에서 오픈 RoBERTa 모델을 5% 앞섬.
내부 과학 질문 응답 벤치마크에서 2.4% F1 점수 향상, 내부 지구 과학 개체 인식 테스트에서 5.5% 향상을 보임.

인코더 모델과 정보 검색

훈련된 인코더 모델은 많은 비생성적 언어 작업에 대해 미세 조정될 수 있으며, 문서 검색을 위한 정보가 풍부한 임베딩을 생성할 수 있음.

모델의 성공적인 결과

이 모델들은 약 2억 6천 8백만 개의 텍스트 쌍을 사용하여, NASA가 큐레이션한 약 400개의 질문 테스트 세트에서 관련 구절을 검색하는 데 뛰어난 성능을 보임.
특화된 학습 데이터, 맞춤형 토크나이저, 학습 방법론 덕분에 모델의 상당한 개선이 이루어짐.

Hugging Face에서의 오픈소스 공개

IBM과 NASA의 투명한 AI에 대한 약속에 따라, 두 모델 모두 Hugging Face에서 사용할 수 있음.
인코더 모델은 우주 분야의 응용 프로그램에 대해 더 미세 조정될 수 있으며, 검색 모델은 RAG를 위한 정보 검색 응용 프로그램에 사용될 수 있음.

GN⁺의 의견

이 협력은 과학적 지식의 접근성을 향상시키는 데 큰 도움이 될 것으로 보임. 특히 과학 분야의 전문 용어를 이해하고 처리할 수 있는 언어 모델의 개발은 연구자들에게 매우 유용할 것임.
모델이 오픈소스로 제공되어 다양한 연구자와 개발자들이 자유롭게 사용하고 개선할 수 있는 기회를 제공함으로써, AI 연구의 민주화에 기여할 수 있음.
그러나 이러한 고급 모델을 효과적으로 활용하기 위해서는 충분한 컴퓨팅 자원과 AI 모델링에 대한 전문 지식이 필요할 수 있음. 이는 일부 연구자나 기관에게는 진입 장벽이 될 수 있음.
이 기술을 도입할 때 고려해야 할 사항으로는 모델의 복잡성과 훈련에 필요한 데이터의 양, 그리고 이를 처리할 수 있는 하드웨어의 성능이 있음. 이 모델을 선택함으로써 얻을 수 있는 이점은 과학적 문헌의 더 깊은 이해와 더 빠른 정보 검색이지만, 비용과 자원의 투입이 필요함.