제프 딘: 머신 러닝의 최신 동향 [비디오]

(youtube.com)

25P by GN⁺ 2024-02-21 | ★ favorite | 댓글 3개

Jeff Dean(Google): 머신 러닝의 흥미로운 트렌드

기계 학습의 흥미로운 추세와 기대

기계 학습은 최근 몇 년 동안 우리가 컴퓨터가 할 수 있는 것에 대한 기대를 크게 바꾸어 놨다.
언어, 이미지, 자연어 처리 등 모든 분야에서 컴퓨터가 세상을 더 잘 인식하고 이해할 수 있는 능력을 가지게 되었다.
*컴퓨터가 *볼 수 있고 *감지할 수 있는 기술의 발전은 인간 활동의 거의 모든 분야에서 많은 기회를 열어놓았다.
더 큰 규모의 컴퓨팅 자원, 특수화된 컴퓨터 등의 발전은 더 나은 결과를 제공하며, *새로운 가능성을 열어놓았다.
우리는 더 효율적으로 *컴퓨터가 할 수 있는 일의 범위를 좁히면서 고효율로 구동할 수 있는 더 다양한 형태의 하드웨어가 필요하다.

️음성인식, 번역, 이미지 분석 기술 발전 및 예측 정확도 향상

음성인식 기술은 오디오 파형을 5초 동안의 의미있는 말로 변환해주는 것이며 이에 대한 발전이 크다.
번역 기술은 한 언어에서 다른 언어로의 번역이 컴퓨터에게 큰 도움이 되는 기능으로 발전하고 있다.
이미지 분석 기술은 레이블 명칭뿐 아니라 장면을 설명하는 짧은 문장으로 변환되는 등 컴퓨터 비전 분야에서 큰 발전을 이루었다.
또한, 이전 몇 년 동안 이러한 기술들을 반대로 활용하는 것도 가능해졌다.
10년 동안 사람의 정확도보다도 뛰어난 성능 향상이 이루어진 것이 신기하다.

AI 모델의 품질을 향상시키기 위해 하드웨어 스케일링의 중요성

음성 인식의 정확도를 측정하는 대표적인 벤치마크인 'Word Error Rate'는 기존의 13.25%에서 2.5%까지 크게 개선되었다.
이로 인해 사용성이 크게 향상되어 이제는 이메일을 따라쓰거나 딕테이션을 할 수 있을 정도로 신뢰할 수 있게 되었다.
특히 하드웨어의 스케일업은 모델 품질을 향상시키는데 도움이 되며, 이를 위해 머신 러닝에 최적화된 하드웨어를 필요로 한다.
신경망(neural network) 모델에는 감소된 정밀도가 사용되어도 문제가 없다는 특징이 있고, 이를 통해 더 효율적인 모델 학습이 가능하다.
또한, 모델 학습에 사용되는 알고리즘들은 선형 대수 연산의 다양한 조합으로 이루어져 있어, 감소된 정밀도의 선형 대수 연산을 효율적으로 처리할 수 있는 컴퓨터가 필요하다.

컴퓨터 네트워크 발전과 언어 모델에 대한 열정

첫 번째 세대에는 간단하지만 고대역폭 네트워크였다. 각 칩은 2D 그리드로 연결되어 있었고, 16x6 그리드에 4개의 이웃 칩과 전선으로 연결되었다.
이는 네트워크에서 라우팅을 하지 않아도 되고, 칩 사이를 짧은 거리로 연결하므로 고속 대역폭, 저렴한 연결이 가능했다.
다음 세대에서는 8개 랙에 1024개 칩으로 확장되었고, 다음 세대에서는 64개의 랙에 각각 64개 칩을 사용했다.
특히 최근에는 V5 시리즈로 나온데, 나눔 인퍼런스용 256개 칩을 사용하는 V5P 모델은 각 칩당 더 많은 메모리, 높은 대역폭, 그리고 메모리 대역폭을 제공한다.
이 모델은 16비트 부동소수점 성능으로 칩 당 거의 반 페타플롭스의 성능을 제공하며, XOR 플롭스로는 칩 당 약 9,000개의 칩으로 계산할 수 있다.
컴퓨터가 할 수 있는 일 중에서 가장 변화가 크게 일어나고 있는 분야 중 하나는 언어다. 이미지와 음성 인식에 대한 발전 이야기를 나눴는데, 사실 언어 모델에 대한 흥미는 NN 네트워크 이전부터 있었다. 그래서 우리는 Google 번역팀과 협력하여 언어 모델에 대한 연구를 진행하였다.

️ 대량의 데이터와 간단한 기술로 고품질 번역 시스템을 구축

과학 대회를 위해 개발된 고품질 번역 시스템을 진짜 실무에 사용하기 위해 노력함
2조 토큰에서 5단어 시퀀스가 얼마나 자주 나오는지 통계를 내어 3000억 개의 고유한 5-gram을 메모리에 저장하는 시스템 구축
없는 데이터를 찾을 때는 그 이전의 4-gram, 3-gram 등을 참고하는 새로운 알고리즘 'stupid backoff' 개발
단순한 기법이 대량의 데이터와 결합되면 효과적인 결과를 얻을 수 있다는 교훈을 얻음

️단어를 고차원 벡터로 표현하여 유사한 맥락에 있는 단어들을 가깝게, 다른 맥락에 있는 단어들을 멀게 함

단어를 이산적으로 표현하는 대신, 고차원 벡터로 표현하여 유사한 맥락에 있는 단어들을 가깝게 하고 다른 맥락에 있는 단어들을 멀게 함.
수많은 데이터를 사용하여 트레이닝 프로세스를 거쳐 유사한 맥락에서 출현하는 단어들을 가깝게 하고 다른 맥락에서 출현하는 단어들을 멀게 하여 공간에서 유사한 단어들을 같이 묶어냄.
분산 표현은 단어를 대표하는 100차원 벡터 안에 많은 정보를 인코딩하고, 이러한 방법으로 언어 번역 모델인 '시퀀스 투 시퀀스 러닝'이 개발되었음.
'시퀀스 투 시퀀스 러닝'은 신경망을 사용하여 문장을 하나씩 입력하면서 문장을 구성하고, 각 단어의 분산 표현을 업데이트하여 번역 결과를 출력함.

모델을 사용하여 자연어 번역 및 다중 대화를 수행

훈련 데이터에는 영어 문장과 그에 해당하는 뜻의 프랑스어 문장이 함께 있는데, 이 데이터로 모델을 훈련시킨다.
입력된 영어 문장으로부터 시작하여 프랑스어 문장을 번역하는 모델을 구축한다.
다중 대화를 위해 이전 상호작용들로 구성된 컨텍스트를 사용하여 적절한 응답을 생성하도록 모델을 훈련시킨다.
Transformer 모델을 사용하여 입력을 병렬로 처리하고, 각 부분에 집중하여 번역 정확도를 개선한다.
현재는 알고리즘과 머신러닝 하드웨어의 발전으로 인해 더 큰 규모의 모델을 훈련하고 더 효율적인 응답을 생성할 수 있다.

다양한 모달리티에 대해 구분없이 처리할 수 있는 대화형 다중 모달 모델 개발

OpenAI의 Mina, ChatGPT, Google의 Bard와 같은 신경망 대화형 모델의 진보에 대해 이야기했다.
언어 모델의 변화에 대해서도 언급하고, OpenAI의 GPT2와 Google의 T5 작업을 언급했다. 이 모델들은 매개변수 수가 크게 증가하고 있음.
이러한 작업의 기초로 사용되는 Transformer의 발전에 대해 언급하였다.
OpenAI의 GPT3, GPT-4 및 Google의 Gemini 프로젝트 등에 대해 이야기했다. Gemini 프로젝트는 텍스트뿐만 아니라 이미지, 오디오 등 다양한 모달리티를 동시에 처리할 수 있는 모델을 개발하는 것을 목표로 한다.
Gemini 프로젝트는 텍스트와 이미지, 비디오, 오디오 등을 하나의 시퀀스로 처리하고, Transformer를 기반으로 모델을 훈련시킨다. 이를 통해 다양한 모달리티에 대해 일관된 표현을 구축할 수 있다.

️텐서플로 훈련 인프라, 다양한 크기의 Gemini 제품과 자동 복구 시스템

텐서플로의 Gemini은 Ultra, Pro, Nano 3가지 크기로 제공되며, 각 모델은 다른 용도나 장소에 적합하다.
Gemini은 모델 훈련에 대한 매우 확장 가능한 패브릭을 제공하며, 고성능 네트워크와 자동 복구 시스템을 갖추고 있다.
탐지된 failures를 최소화하기 위해 멀티노드 환경에서 동시에 업그레이드를 실행하고, 고속 네트워크로 다른 복사본의 상태를 복원하며, 복구 시간을 몇 초로 줄일 수 있다.
다양한 데이터를 사용하여 모델을 훈련하며, 웹 문서, 책, 코드, 이미지, 오디오, 비디오 등의 다양한 형식을 훈련 데이터로 사용한다.
모델 훈련 데이터의 최종 구성은 작은 모델로 실험하고 성능을 평가하여 결정되며, 다양한 평가 지표를 활용하여 최적의 데이터 혼합을 찾는다.

데이터 품질은 중요하고 고려되어야 함. 모델 아키텍처보다 데이터 품질이 더 중요함.

학습 마지막에는 도메인 관련 데이터를 활용하여 다국어 데이터를 추가한다.
높은 품질의 데이터는 모델 성능에 큰 차이를 만든다.
자동으로 커리큘럼을 학습할 수 있는 능력은 미래 연구 분야 중 하나이다.
질문을 할 때 모델이 더 효과적으로 대답할 수 있도록 하는 방법과 모델의 장점을 최대한 끌어내는 방법에 대한 연구도 진행 중이다.
체인 오브 쑤트 프롬프팅 기법을 사용하면 모델이 더 다양한 단계를 고려해 정확한 답변을 제공할 수 있다.

모델 평가 및 성능 분석 결과 알아보기

해당 모델은 학생이 잘못된 답을 도출한 사례를 예시로 소개하고, 수정되어야 할 부분을 지적한다.
모델은 32개 학문 벤치마크를 평가하였고, Gemini Ultra 모델은 30개 벤치마크에서 기존 예상 성능을 초월하는 결과를 보였다.
이 모델은 다중언어 성능도 고려하고, 복잡한 트레이드오프를 고민한다.
이 모델은 영상 이해와 다중모달 능력이 뛰어나며, 다양한 벤치마크에서 우수한 성과를 달성한 것으로 나타났다.

️️ Gemini 모델은 훌륭한 음성 인식 성능과 다국어 능력을 가지고 있으며, 챗봇으로도 프로그래밍까지 가능.

Gemini 모델은 다양한 음성 인식 기준에서 최고 수준의 오류율을 보여줬고, 다국어 능력도 우수한 편이다.
기존에 팀이 많은 노력을 기울여 모델을 평가하고 그 능력을 상세히 이해하기 위한 작업을 수행했다.
Gemini 모델은 유익한 정보와 프로그래밍 코드도 제공할 수 있어서 굉장히 놀라웠다.
또한, TPUs에 대한 지식도 갖추었으며, 훌륭한 효율성과 성능 향상을 제공한다고 설명한다.
Gemini 모델은 다양한 챗봇의 개성을 가질 수 있는데, 이 중 Bard는 도움이 되는 친구로서 질문에 도움을 주며, 이 모델은 LMY 사이트에서 높은 ELO 점수를 달성한것으로 알려져 있다.

인공지능 모델 활용과 도메인별 훈련

다양한 모델이 있고, 이 중 순위권을 보여주는 무료 서비스와 그렇지 않은 유료 서비스가 있다.
Gemini는 엔글랜드, 미국, 대한민국, 대만, 싱가포르의 '백만 명당 기업 수'를 계산해 테이블 형태로 제공한다.
엔글랜드의 수가 가장 높고, 이를 해석해주며, 미국, 대한민국, 대만, 싱가포르 순으로 나열된다.
각 정보는 다양한 소스로부터 수집되며, 정확한 정의에 따라 실제 숫자가 약간 다를 수 있다.
인공지능 모델들을 도메인별로 훈련하면 특정 문제에 대해 전문적인 결과를 얻을 수 있다.

이미지와 비디오를 생성하는 생성 모델에 대한 빠른 설명.

이번 영상에서는 이미지와 비디오를 생성하는 생성 모델에 대해 간략히 설명한다.
관련 연구 프로젝트로 'Party'와 'Imagine'가 있으며, 시각적 이미지를 생성하는 모델을 만드는데 있어서 텍스트 입력을 활용하여 특정한 이미지를 생성할 수 있다.
예를 들어, 새로운 이미지를 만들어보라는 텍스트 입력에 대해 모델이 이를 해석하고 실제 이미지를 생성한다.
이러한 생성 모델은 사물 묘사와 함께 픽셀에 대한 텍스트 표현을 기반으로 이미지를 생성한다.
이러한 방식을 통해 원하는 텍스트에 기반한 이미지를 생성할 수 있다.

️이미지 기능의 발전은 스마트폰 사용자에게 편리함을 제공한다.

이미지 분석 모델을 다른 매개변수로 여러 개 훈련시키면 규모에 따라 결과가 달라진다.
스마트폰 카메라 기능은 기술적인 사진학과 기계 학습의 조합으로 더욱 향상되었다.
사진 모드, 야간 모드, 색상 강조, 자동 대화 응답 등 다양한 기능으로 실시간 변환과 텍스트 추출이 가능하다.
이러한 기능들은 사용자의 문맥을 고려하여 존재하지 않는 것 같은 변환과 응답을 제공한다.
선명한 이미지 전송과 다국어 번역 등 제한된 리터러시 환경에서의 혁상적인 이점을 제공한다.

️기계 학습 기술을 활용한 물질 과학과 의료 영역에서의 활용

물질 과학 분야에서 기계 학습이 사용되어 빠른 시뮬레이터 생성 등 다양한 측면에 영향을 주고 있다.
기계 학습을 통해 가능한 물질들을 조사하고 특성을 가진 재료를 식별하는데 큰 잠재력이 있다.
의료 영역에서는 의료 이미지 진단에도 기계 학습이 사용되고 있으며, 당뇨 망막병증 등을 조기에 발견할 수 있다.
의료 영상 분석을 통해 의사가 부족한 지역에서도 환자를 선별할 수 있으며, 인공지능 모델이 전문의와 비슷한 효능을 가질 수 있다.

머신러닝과 컴퓨터가 세상을 변화시키는 동안, 머신러닝의 적용과 책임감에 대한 원칙

GPU를 이용해 빠른 스크리닝, 사진을 통한 피부과 진단을 실시
공정하지 않은 편향성 제거, 모델의 해석 가능성, 프라이버시 고려, 사회적 이익 등 기계 학습 적용에 대한 원칙을 발표
현재도 편향성, 프라이버시, 안전성 등에 관한 연구를 진행 중
머신러닝과 컴퓨팅의 발전으로 사용자와 자연스러운 대화와 상호작용이 가능해지고, 컴퓨터가 다양한 형태의 정보를 이해하고 생성할 수 있다고 기대
이러한 기술의 가능성과 동시에 사회에 대한 책임감을 가져야 함

등장하는 질문들을 통해 데이터의 중요성 및 고객 요구에 대해 논의

Slido를 통해 도착한 질문들 중 몇 가지 경향성을 가진 질문을 선택해 공유한다.
데이터 분야에서는 고품질 데이터와 모델 용량이 모델의 성능을 향상시킬 수 있다.
하지만 데이터의 품질과 모델의 크기를 고려해야 한다. 낮은 품질의 데이터는 모델의 수학 문제 해결 능력 등에 부정적인 영향을 줄 수 있다.
많은 양의 비디오 데이터를 사용한 학습은 아직 충분히 일어나지 않았으며, 언어 데이터 뿐만 아니라 시각 및 음성 데이터를 통해 세계를 이해하는 것이 언어로만 학습하는 것과 다를 것이다.
전체적으로 데이터의 소진은 아직 되지 않았으며, 더 많은 발전 가능성이 있다.

️멀티모달 모델은 각각의 도메인을 위한 타겟 모델보다 더 성능이 좋을까요?

멀티모달 모델은 일부 경우에서는 성능이 더 좋을 수 있습니다.
모달리티를 늘릴수록 다른 모달리티의 성능이 향상되는 경향이 있습니다.
좁은 문제에 대해 타겟된 데이터셋을 수집한 경우, 그 문제에 대한 성능이 높아질 수 있습니다.
하지만 복잡한 문제이거나 특화된 데이터를 수집하기가 어려운 경우, 다양한 지식을 갖고 있는 모델이 필요합니다.
적은 리소스를 가진 개인들은 큰 모델을 훈련하기 어려우므로, machine learning 분야에서 다양한 연구 주제를 탐구할 수 있습니다.

GPU를 사용한 모델 연구 및 다양한 데이터 모달리티 중요성 강조

GPU 하나 또는 소수의 GPU를 사용하여 데이터 품질 평가, 자동 평가, 온라인 커리큘럼 학습 및 최적화 방법과 같은 연구가 가능하다.
트랜스포머 연구는 8개의 GPU 위에서 수행되었다. LLM과 시퀀스-투-시퀀스 모델 또한 8개의 GPU로 연구되었다.
LLM 및 트랜스포머가 모든 것인가에 대한 의문들이 제기되었으며, 기계 학습 분야에서 다른 모델 연구에 대한 역할은 어떤지에 대한 고민이 있다.
다른 아이디어를 주목할 만한 발전이 이뤄지지 못하게 하는 것은 우려스러울 정도로 구체화되지 않았거나 덜 탐구된 아이디어를 배제하는 것일 수도 있다.
다양한 모달리티를 다루는 것이 중요하다고 판단되며, 비주얼, 오디오, 언어 뿐만 아니라 의료에서의 심장 박동센서 데이터와 같은 다른 모달리티를 고려해야 한다.