30P by xguru 17일전 | favorite | 댓글 1개

[ #1 대규모 생성형 모델(Large Generative Models) ]

LLM과 LMM을 활용한 합성 데이터 생성

  • Large Language Model(LLM)은 텍스트 출력을 생성하는 반면, Large Multi-Modal Model(LMM)은 텍스트, 코드, 이미지 등 다양한 형태의 합성 데이터를 생성할 수 있음
  • 실제 데이터가 부족하거나, 개인정보 보호에 민감하거나, 수집 및 레이블링 비용이 높은 분야에서 특히 널리 사용됨 (예: NLP, 컴퓨터 비전, 자율 주행 시스템 개발 등)
  • 합성 데이터는 일반적으로 실제 데이터를 보완하거나 미세 조정(fine-tuning)에 사용되며, 전체를 대체하는 용도로는 사용되지 않음
  • 아무리 정교하더라도 문제 영역에 대한 근사치만 생성할 수 있으며, 과도하게 의존하면 합성 데이터 생성 과정에 존재하는 특성에 모델이 과적합될 위험이 있음
  • 합성 데이터 생성 방법
    1. 자기 개선(Self-improvement): 모델이 지침, 입력 컨텍스트 및 응답을 생성하고, 유효하지 않거나 기존 데이터와 너무 유사한 예제는 필터링되며, 남은 데이터는 원래 모델을 미세 조정하는 데 사용됨
    2. 증류(Distillation): 더 강력한 교사 모델의 지식을 덜 강력하지만 더 효율적인 학생 모델로 전달하는 과정. 합성 데이터가 종종 부정확하더라도 지침 조정(instruction-tuning) 과정에 효과적으로 기여할 수 있음
  • Microsoft는 주로 다른 LLM에서 생성된 합성 데이터로 학습된 Phi라는 일련의 작은 모델을 출시했으며, 대부분의 비전방 모델보다 우수한 성능을 보임
  • Hugging Face는 Microsoft가 사용한 합성 학습 데이터셋의 큐레이션에 대한 정보 부족에 대응하여 이를 재현하는 것을 목표로 Cosmopedia를 만들었음

LLM을 활용한 데이터 레이블링 및 데이터셋 통합

  • 최신 LLM은 인간 주석자와 동등하거나 더 높은 수준으로 텍스트 데이터셋에 레이블을 지정할 수 있음
  • 인간 주석자와 달리 LLM은 피로나 편견 없이 대규모 데이터셋에 동일한 주석 기준을 일관되게 적용할 수 있음
  • Segment Anything과 같은 대규모 데이터셋으로 학습된 대형 생성 모델은 의미론적 분할(semantic segmentation)과 같은 작업에 전통적으로 사용되는 전문화된 비생성 컴퓨터 비전 모델보다 종종 제로샷 능력으로 더 나은 성능을 보임
  • LLM은 다양한 데이터 소스를 통합하여 통합 데이터셋을 생성하는 데이터셋 스티칭(Dataset Stitching)을 통해 사용 가능한 실제 데이터 풀을 확장하는 데에도 사용될 수 있음

Grader로서의 LLM

  • 인간 피드백으로부터의 강화 학습(RLHF)은 GPT-3를 채팅을 통해 사용자와의 대화형 상호 작용에 최적화된 획기적인 시스템으로 만든 핵심 미세 조정 기술이었음
  • 이제 인간 대신 LLM을 사용하여 피드백을 제공하는 AI 피드백으로부터의 강화 학습(RLAIF)이라는 접근 방식이 등장했음
  • RLAIF의 주요 장점은 인간을 기계로 전환함으로써 확장성과 비용 절감이 가능하다는 점임

[ #2 데이터 레이블링 플랫폼 ]

  • 초기에는 Amazon Mechanical Turk와 같은 크라우드소싱 및 작업 아웃소싱 플랫폼을 활용하여 저렴한 온라인 인력을 통해 데이터 레이블링이나 정제 작업을 수행했음
  • 최근에는 V7, Scale AI 등 자동화된 데이터 레이블링 및 관리 기능을 제공하는 플랫폼이 발전하고 인기를 끌고 있음
  • 이러한 플랫폼은 규정 준수 및 품질 보증 조치와 함께 대규모 데이터 수요가 있는 기업이 더 효율적으로 확장하고 더 높은 수준의 일관성을 제공할 수 있게 해줌

플랫폼별 특징 및 신규 플레이어

  • V7은 의료 영상과 같이 높은 수준의 전문성이 요구되는 작업에 중점을 두는 경향이 있는 반면, Scale은 자율 주행 분야에서 성장하여 국방 분야로 확장했음
  • Invisible과 같은 신규 플레이어는 LLM 특화 워크플로우(예: 지도 학습 기반 미세 조정, RLHF, 인간 평가, 레드 티밍 등)를 위한 전문 인력에 대한 수요를 충족시키고 있음
  • 인기 있는 데이터 레이블링 서비스로는 CVAT, Dataloop, Invisible, Labelbox, Scale AI, V7 등이 있음

인간 주석 데이터 품질 개선 방안

  • 많은 플랫폼이 여전히 어느 정도 인간 주석자에 의존하고 있어, 복잡하고 주관적이며 사회적으로 관련성이 높은 영역에서 AI 적용이 확대됨에 따라 출력 품질 평가에 더 많은 노력이 필요함
  • 다수결, 일치율, 확률 모델링 접근 방식 등을 사용하여 여러 평가자 입력에서 실제 레이블을 추정하고 신뢰할 수 없는 "스패머" 평가자를 식별할 수 있음
  • 평가자 간 체계적인 불일치를 포착하고 이를 활용하여 학습을 개선하는 기술(예: 불일치 디컨볼루션, 다중 주석자 모델링 등)이 있음
  • 영향 함수, 학습 중 예측 변화 추적 등을 통해 잘못 레이블된 데이터 포인트를 탐지할 수 있음

[ #3 개방형 데이터셋 ]

  • 2016년 이후 개방형 데이터 운동과 업계, 학계, 정부 간 데이터 공유의 가치 인식으로 인해 개방형 데이터셋이 급증했음
  • 개방형 데이터셋은 대부분의 영역에 존재하지만 특히 컴퓨터 비전, NLP, 음성/오디오 처리, 로봇 제어 및 내비게이션 분야에서 접근성이 높음
  • 이는 커뮤니티 노력(예: Hugging Face, PyTorch, TensorFlow, Kaggle 등)과 대기업의 대규모 데이터셋 공개가 결합되어 발전했음

개방형 데이터셋 활용 시 고려사항

  • 무료이고 벤치마킹에 도움이 된다는 장점이 있지만 특정 고려사항이 있음
  • 민감하거나 규제가 많은 분야에서는 개방형 데이터셋이 더 희소하고 오래되었으며 규모가 작은 경향이 있음
  • 개방형 데이터의 품질과 최신성은 크게 다를 수 있어 빠르게 변화하는 분야에서는 관련성 문제가 발생할 수 있음
  • 과도한 사용은 인기 있는 데이터셋에 지나치게 의존하여 모델이 벤치마크에서는 잘 수행되지만 실제 응용에서는 성능이 떨어지는 과적합 위험이 있음

유용한 개방형 데이터셋 리소스

[ #4 시뮬레이션 환경 ]

  • 시뮬레이션 환경은 AI 모델이나 에이전트가 통제된 환경에서 학습하여 합성 데이터를 생성하고, 실제 배포 전에 시스템을 테스트할 수 있게 해줌
  • 실제 데이터를 보완하고 현실에서 접하기 어렵거나 비용이 많이 드는 에지 케이스를 탐색하는 데 특히 도움이 됨
  • 이는 시스템을 안전하게 훈련하고 실제 세계에서 발생할 수 있는 수많은 변수를 고려해야 하는 로보틱스나 자율 주행차 등의 분야에서 특히 인기가 있음

시뮬레이션 환경 구축 시 고려사항

  • 풍부하고 정확한 물리 모델링이 가능한 3D 시뮬레이션을 처음부터 만들고 검증하는 것은 상당한 자원과 인프라를 필요로 할 수 있음
  • NVIDIA는 Omniverse라는 통합 3D 그래픽 및 물리 기반 워크플로우 플랫폼을 기반으로 하는 시뮬레이션 환경을 포함한 강력한 GPU 가속 로보틱스 플랫폼 ISAAC을 만들었음
  • 비용 부담을 줄이기 위해 오픈 소스 시뮬레이션 환경을 활용할 수 있음
  • Epic Games의 Unreal Engine은 높은 충실도의 그래픽, 사실적인 물리 시뮬레이션, 유연한 프로그래밍 인터페이스 등으로 인해 시뮬레이션 환경 구축을 위한 강력한 도구로 자리잡았음

활용 사례 및 오픈소스 환경

  • Applied Intuition: 자율 주행 시스템 개발자를 위한 시뮬레이션 및 검증 솔루션 제공
  • Sereact: 창고에서 픽앤팩 자동화를 위해 공간 및 물리적 뉘앙스를 이해할 수 있도록 시뮬레이션 환경을 기반으로 하는 소프트웨어 개발
  • Wayve: 여러 개의 4D 시뮬레이션 환경을 만든 영국 기반 자율 주행 스타트업
  • 자율 주행 분야: CARLA, LG SVL Simulator, AirSim 등
  • 로보틱스 분야: Gazebo, CoppeliaSim, PyBullet, MuJoCo 등

[ #5 웹/책 및 다른 자료들의 스크래핑 ]

  • 대량의 텍스트, 오디오, 비디오 스크래핑은 파운데이션 모델 개발의 핵심 요소였음
  • 대기업은 자체 독점 시스템을 사용하는 반면, 스타트업은 다양한 기성품 및 오픈소스 도구를 활용할 수 있음
  • Apache Nutch와 같은 분산 크롤링 프레임워크, Puppeteer나 Selenium과 같은 헤드리스 브라우저, Beautiful Soup과 같은 파싱 라이브러리, Luminati와 같은 프록시 및 IP 관리 서비스, 저렴하고 효과적인 OCR 기술 등이 발전했음

데이터 품질과 양의 트레이드오프

  • 도메인과 애플리케이션에 따라 데이터 품질과 양 사이의 트레이드오프가 달라짐
  • 언어 모델은 충분한 양이 제공되는 경우 비교적 노이즈가 많고 큐레이션되지 않은 데이터에서도 효과적으로 학습할 수 있음
  • 반면 컴퓨터 비전에서는 작은 고품질 데이터셋을 이미지 변형(예: 자르기, 회전, 노이즈 추가 등)을 통해 확장하여 좋은 결과를 얻을 수 있음

커리큘럼 러닝과 데이터셋 큐레이션

  • 커리큘럼 러닝은 단순한 예제에서 복잡한 예제로 이동하며 모델에 데이터를 의미 있는 순서로 제시하는 학습 전략임
  • 사람의 학습 방식을 모방하여 모델이 어려운 예제에 도전하기 전에 좋은 초기 파라미터를 학습하도록 하여 효율성을 높임

사례

  • Databricks의 최근 SOTA 오픈 LLM인 DBRX는 이를 활용하여 모델 품질을 상당히 개선했음
  • Sync Labs는 상대적으로 품질이 낮은 대량의 비디오를 사용하여 비디오의 입술을 새로운 오디오에 맞게 재동기화할 수 있는 모델을 학습시켰음
  • Metalware는 전문 교과서에서 스캔한 비교적 작은 이미지 세트와 GPT-2를 결합하여 펌웨어 엔지니어를 위한 코파일럿을 만들었음

[ #6 저작권 문제와 라이선싱 가능성 ]

  • 2016년 이후 AI 생태계의 성숙은 창업자에게 긍정적인 영향을 미쳤지만, 추가적인 복잡성도 야기했음
  • 파운데이션 모델 제공업체의 대량 웹 스크래핑으로 인해 미디어 기업, 작가, 예술가들이 다양한 저작권 소송을 제기하고 있음
  • 이러한 소송은 현재 유럽과 미국의 법원 시스템을 통해 진행 중이며, 대기업(예: Meta, OpenAI)이나 점점 더 확립된 연구소(예: Midjourney, Stability)를 대상으로 하고 있음
  • 이는 스타트업이 데이터 수집 방식에 신중해야 함을 강조함
  • 만약 기업들이 패소할 경우, 학습 데이터에서 저작권이 있는 자료를 식별하고 창작자에게 보상하거나 이러한 결과물을 파기하고 처음부터 다시 시작해야 할 수 있음
  • 이에 따라 일부 기업은 미디어 조직과 파트너십을 맺거나 콘텐츠나 음성 사용에 대해 예술가에게 직접 보상하는 등 창작자 친화적인 데이터 수집 전략을 선제적으로 추진하고 있음

윤리적 데이터 소싱 인증 체계의 등장

  • 전 Stability 임원 등이 주도하는 윤리적으로 소싱된 학습 데이터에 대한 인증 체계가 등장하고 있음
  • 이러한 인증 체계는 아직 초기 단계이지만 흥미로운 방안이며 지켜볼 만한 가치가 있음

사례

  • ElevenLabs: 성우에 대한 페이아웃과 음성 데이터 파트너십
  • Google: Gemini 학습을 위해 Reddit 데이터를 사용할 수 있도록 하는 계약 체결
  • OpenAI: Shutterstock의 이미지, 비디오, 음악, 메타데이터 라이브러리로 DALL-E를 학습시키기 위한 파트너십과 Associate Press의 뉴스 아카이브 라이선스 계약

[ #7 레이블링된 대규모 데이터셋의 필요성 감소 ]

  • 2016년 이후 비지도 학습과 준지도 학습 기술이 크게 발전하면서, 스타트업이 전통적으로 필수적이라고 여겨졌던 대규모 레이블링된 데이터셋 없이도 강력한 모델을 구축할 수 있게 되었음
  • 이러한 접근 방식은 2016년 이전에도 연구자들에게 알려져 있었지만, 최근 몇 년 동안 접근성, 정교함, 실용성이 크게 향상되었음
  • 비지도 학습은 데이터에 내재된 통계적 패턴과 구조를 학습하는 데 중점을 두며, 전통적으로 대규모 데이터셋 탐색(예: 비지도 클러스터링)에 유용했고 현재는 LLM 사전 학습의 핵심임
  • 준지도 학습은 소량의 레이블링된 데이터와 함께 대량의 레이블링되지 않은 데이터를 사용하며, 모델의 성능을 개선하고 향상시키는 데 가장 효과적임
  • 대조 학습과 소량 샷 학습과 같은 기법을 통해 이러한 접근 방식을 강화할 수 있음
    • 대조 학습(Contrastive Learning)은 유사한 데이터 포인트와 유사하지 않은 데이터 포인트를 구분함으로써 모델이 풍부한 표현을 학습할 수 있게 하며, 컴퓨터 비전 작업에 유용함 (예: OpenAI의 CLIP)
    • 퓨-샷 학습(Few-shot learning)은 모델이 매우 적은 수의 예제로 새로운 작업에 적응할 수 있게 해줌
  • 원래의 스케일링 법칙 논문은 더 큰 모델이 소량 샷 학습에 더 능숙하다는 것을 보여주었음
  • 비지도 사전 학습에 더 많은 양의 레이블링되지 않은 데이터가 필요하지만, 이 단계는 작은 비생성 모델보다 더 적은 레이블링된 예제로 다운스트림 작업을 해결할 수 있는 능력을 부여함

한계점과 고려사항

  • 레이블링되지 않은 데이터를 활용하는 모델은 종종 더 복잡한 아키텍처를 필요로 함
  • 레이블링에 소비되는 비용을 연산에 소비되는 비용으로 교환하는 것을 의미함
  • 구현과 확장이 더 어려울 뿐만 아니라 해석 가능성이 떨어져 결정 과정을 이해하는 것이 중요한 민감한 분야에서 단점으로 작용할 수 있음
  • 이러한 복잡성은 더 많은 계산 자원을 필요로 하며, 지도 학습 방법보다 성능 상한이 낮은 경우가 많음

[ #8 아직 이른 것들 ]

데이터 마켓플레이스

  • 2016년 이후 데이터를 수집, 저장, 처리, 공유하는 것이 쉽고 저렴해짐에 따라 몇 가지 데이터 마켓플레이스가 생겨났지만, 이 분야는 크게 활성화되지 않았음
  • Datarade, Dawex, AWS Data Exchange, Snowflake 등의 마켓플레이스와 플랫폼은 다양한 일반적인 사용 사례에 걸쳐 이미지, 텍스트, 오디오, 비디오 데이터를 쉽게 찾을 수 있게 해주었지만, 이는 주로 고객이 데이터를 호스팅하기로 선택한 것에 대한 추가 가치를 제공하기 위한 것임
  • 이러한 마켓플레이스 외에도 Appen, Scale AI, Invisible, Surge 등 숙련된 아웃소싱 인력을 통해 맞춤형 데이터셋 생성 및 레이블링을 제공하는 회사들이 있음
  • 그러나 전문화와 독점 데이터의 경쟁 우위에 대한 주의사항이 여전히 유효하며, AI 스타트업이 이러한 마켓플레이스에 크게 의존한다는 증거는 거의 없음
  • 초기에는 편리할 수 있지만, 정제, 맞춤화, 필터링, 하위 샘플링에 상당한 노력이 여전히 필요함
  • 많은 스타트업이 처음부터 자체 독점 데이터셋을 구축하고 이를 경쟁 우위로 활용하는 것을 선호함

게이미피케이션

  • 게이미피케이션은 크라우드소싱 및 시민 과학 이니셔티브의 맥락에서 다양한 기업과 조직에 의해 데이터 수집 전략으로 탐구되었음 (예: Folding@Home)
  • 그러나 소수의 사례를 제외하고는 게이미피케이션은 상대적으로 틈새 시장에 머물러 있음
  • 게임과 같은 경쟁에 동기를 부여받고 여유 시간이 있는 특정 사용자 하위 집합에만 어필하므로 기여자 수의 잠재력에 상대적으로 낮은 상한선이 있음
  • 동기 부여된 사람들 사이에서도 기여된 데이터의 품질과 정확성은 여전히 문제가 되며, 특히 에지 케이스를 처리할 때 추가적인 검증 및 통제 조치가 필요함

연합 학습

  • 2016년 Google이 도입한 연합 학습(Federated learning, FL)은 데이터를 로컬에 그대로 두면서 여러 분산 서버나 모바일 기기에서 모델을 학습시킬 수 있다는 약속을 제시했음
  • 이론적으로 의료나 금융 같은 민감한 분야에서 일하는 스타트업이 전통적인 프라이버시 문제를 피하면서 파트너십을 통해 중요한 학습 데이터에 접근할 수 있게 해줄 수 있음
  • 그러나 FL은 책임, 데이터 소유권, 국경 간 데이터 전송 문제로 인해 설계된 민감한 분야에서 채택이 저해되었고, 모델과 데이터셋이 복잡해짐에 따라 분산 학습 및 집계와 관련된 계산 및 통신 오버헤드가 상당한 병목 현상이 되었으며, 데이터 소유자가 가치 제안을 보장하는 상당히 복잡한 기술을 받아들여야 한다는 인식이 남아 있음

[ ## 결론 ]

  • 2016년 이후 상당한 진전에도 불구하고 데이터 수집은 여전히 스타트업에게 고충으로 남아 있음
  • 커뮤니티나 시장이 이 문제를 해결할 것으로 보이지는 않음
  • 대부분의 AI 스타트업은 여전히 설립 시점에서 데이터 수집의 어려움에 직면하겠지만, 이는 차별화의 기회가 될 수 있음
  • 창의적으로 올바른 기반을 구축하는 것은 여전히 매우 실질적인 경쟁 우위의 원천임
  • 데이터 자체는 결코 해자(Moat)가 될 수 없음
  • 시간이 지나면 경쟁사들은 자체 데이터를 확보하거나 동일한 결과를 달성하기 위한 보다 효율적인 기술을 찾는 데 성공할 것임
  • 지난 1년 동안 작은 모델과 큰 모델 간의 성능 격차가 점진적으로 줄어든 LLM 평가에서 이를 명확히 볼 수 있음
  • 훌륭한 데이터 수집은 궁극적으로 필요하지만 충분하지는 않음
  • 킬러 제품 및 진정한 고객 통찰력과 함께 성공을 위한 한 가지 요소임

감사합니다 엄청난 정보네요~