시뮬레이션 환경은 AI 모델이나 에이전트가 통제된 환경에서 학습하여 합성 데이터를 생성하고, 실제 배포 전에 시스템을 테스트할 수 있게 해줌
실제 데이터를 보완하고 현실에서 접하기 어렵거나 비용이 많이 드는 에지 케이스를 탐색하는 데 특히 도움이 됨
이는 시스템을 안전하게 훈련하고 실제 세계에서 발생할 수 있는 수많은 변수를 고려해야 하는 로보틱스나 자율 주행차 등의 분야에서 특히 인기가 있음
시뮬레이션 환경 구축 시 고려사항
풍부하고 정확한 물리 모델링이 가능한 3D 시뮬레이션을 처음부터 만들고 검증하는 것은 상당한 자원과 인프라를 필요로 할 수 있음
NVIDIA는 Omniverse라는 통합 3D 그래픽 및 물리 기반 워크플로우 플랫폼을 기반으로 하는 시뮬레이션 환경을 포함한 강력한 GPU 가속 로보틱스 플랫폼 ISAAC을 만들었음
비용 부담을 줄이기 위해 오픈 소스 시뮬레이션 환경을 활용할 수 있음
Epic Games의 Unreal Engine은 높은 충실도의 그래픽, 사실적인 물리 시뮬레이션, 유연한 프로그래밍 인터페이스 등으로 인해 시뮬레이션 환경 구축을 위한 강력한 도구로 자리잡았음
활용 사례 및 오픈소스 환경
Applied Intuition: 자율 주행 시스템 개발자를 위한 시뮬레이션 및 검증 솔루션 제공
Sereact: 창고에서 픽앤팩 자동화를 위해 공간 및 물리적 뉘앙스를 이해할 수 있도록 시뮬레이션 환경을 기반으로 하는 소프트웨어 개발
Wayve: 여러 개의 4D 시뮬레이션 환경을 만든 영국 기반 자율 주행 스타트업
자율 주행 분야: CARLA, LG SVL Simulator, AirSim 등
로보틱스 분야: Gazebo, CoppeliaSim, PyBullet, MuJoCo 등
[ #5 웹/책 및 다른 자료들의 스크래핑 ]
대량의 텍스트, 오디오, 비디오 스크래핑은 파운데이션 모델 개발의 핵심 요소였음
대기업은 자체 독점 시스템을 사용하는 반면, 스타트업은 다양한 기성품 및 오픈소스 도구를 활용할 수 있음
Apache Nutch와 같은 분산 크롤링 프레임워크, Puppeteer나 Selenium과 같은 헤드리스 브라우저, Beautiful Soup과 같은 파싱 라이브러리, Luminati와 같은 프록시 및 IP 관리 서비스, 저렴하고 효과적인 OCR 기술 등이 발전했음
데이터 품질과 양의 트레이드오프
도메인과 애플리케이션에 따라 데이터 품질과 양 사이의 트레이드오프가 달라짐
언어 모델은 충분한 양이 제공되는 경우 비교적 노이즈가 많고 큐레이션되지 않은 데이터에서도 효과적으로 학습할 수 있음
반면 컴퓨터 비전에서는 작은 고품질 데이터셋을 이미지 변형(예: 자르기, 회전, 노이즈 추가 등)을 통해 확장하여 좋은 결과를 얻을 수 있음
커리큘럼 러닝과 데이터셋 큐레이션
커리큘럼 러닝은 단순한 예제에서 복잡한 예제로 이동하며 모델에 데이터를 의미 있는 순서로 제시하는 학습 전략임
사람의 학습 방식을 모방하여 모델이 어려운 예제에 도전하기 전에 좋은 초기 파라미터를 학습하도록 하여 효율성을 높임
사례
Databricks의 최근 SOTA 오픈 LLM인 DBRX는 이를 활용하여 모델 품질을 상당히 개선했음
Sync Labs는 상대적으로 품질이 낮은 대량의 비디오를 사용하여 비디오의 입술을 새로운 오디오에 맞게 재동기화할 수 있는 모델을 학습시켰음
Metalware는 전문 교과서에서 스캔한 비교적 작은 이미지 세트와 GPT-2를 결합하여 펌웨어 엔지니어를 위한 코파일럿을 만들었음
[ #6 저작권 문제와 라이선싱 가능성 ]
2016년 이후 AI 생태계의 성숙은 창업자에게 긍정적인 영향을 미쳤지만, 추가적인 복잡성도 야기했음
파운데이션 모델 제공업체의 대량 웹 스크래핑으로 인해 미디어 기업, 작가, 예술가들이 다양한 저작권 소송을 제기하고 있음
이러한 소송은 현재 유럽과 미국의 법원 시스템을 통해 진행 중이며, 대기업(예: Meta, OpenAI)이나 점점 더 확립된 연구소(예: Midjourney, Stability)를 대상으로 하고 있음
이는 스타트업이 데이터 수집 방식에 신중해야 함을 강조함
만약 기업들이 패소할 경우, 학습 데이터에서 저작권이 있는 자료를 식별하고 창작자에게 보상하거나 이러한 결과물을 파기하고 처음부터 다시 시작해야 할 수 있음
이에 따라 일부 기업은 미디어 조직과 파트너십을 맺거나 콘텐츠나 음성 사용에 대해 예술가에게 직접 보상하는 등 창작자 친화적인 데이터 수집 전략을 선제적으로 추진하고 있음
윤리적 데이터 소싱 인증 체계의 등장
전 Stability 임원 등이 주도하는 윤리적으로 소싱된 학습 데이터에 대한 인증 체계가 등장하고 있음
이러한 인증 체계는 아직 초기 단계이지만 흥미로운 방안이며 지켜볼 만한 가치가 있음
사례
ElevenLabs: 성우에 대한 페이아웃과 음성 데이터 파트너십
Google: Gemini 학습을 위해 Reddit 데이터를 사용할 수 있도록 하는 계약 체결
OpenAI: Shutterstock의 이미지, 비디오, 음악, 메타데이터 라이브러리로 DALL-E를 학습시키기 위한 파트너십과 Associate Press의 뉴스 아카이브 라이선스 계약
[ #7 레이블링된 대규모 데이터셋의 필요성 감소 ]
2016년 이후 비지도 학습과 준지도 학습 기술이 크게 발전하면서, 스타트업이 전통적으로 필수적이라고 여겨졌던 대규모 레이블링된 데이터셋 없이도 강력한 모델을 구축할 수 있게 되었음
이러한 접근 방식은 2016년 이전에도 연구자들에게 알려져 있었지만, 최근 몇 년 동안 접근성, 정교함, 실용성이 크게 향상되었음
비지도 학습은 데이터에 내재된 통계적 패턴과 구조를 학습하는 데 중점을 두며, 전통적으로 대규모 데이터셋 탐색(예: 비지도 클러스터링)에 유용했고 현재는 LLM 사전 학습의 핵심임
준지도 학습은 소량의 레이블링된 데이터와 함께 대량의 레이블링되지 않은 데이터를 사용하며, 모델의 성능을 개선하고 향상시키는 데 가장 효과적임
대조 학습과 소량 샷 학습과 같은 기법을 통해 이러한 접근 방식을 강화할 수 있음
대조 학습(Contrastive Learning)은 유사한 데이터 포인트와 유사하지 않은 데이터 포인트를 구분함으로써 모델이 풍부한 표현을 학습할 수 있게 하며, 컴퓨터 비전 작업에 유용함 (예: OpenAI의 CLIP)
퓨-샷 학습(Few-shot learning)은 모델이 매우 적은 수의 예제로 새로운 작업에 적응할 수 있게 해줌
원래의 스케일링 법칙 논문은 더 큰 모델이 소량 샷 학습에 더 능숙하다는 것을 보여주었음
비지도 사전 학습에 더 많은 양의 레이블링되지 않은 데이터가 필요하지만, 이 단계는 작은 비생성 모델보다 더 적은 레이블링된 예제로 다운스트림 작업을 해결할 수 있는 능력을 부여함
한계점과 고려사항
레이블링되지 않은 데이터를 활용하는 모델은 종종 더 복잡한 아키텍처를 필요로 함
레이블링에 소비되는 비용을 연산에 소비되는 비용으로 교환하는 것을 의미함
구현과 확장이 더 어려울 뿐만 아니라 해석 가능성이 떨어져 결정 과정을 이해하는 것이 중요한 민감한 분야에서 단점으로 작용할 수 있음
이러한 복잡성은 더 많은 계산 자원을 필요로 하며, 지도 학습 방법보다 성능 상한이 낮은 경우가 많음
[ #8 아직 이른 것들 ]
데이터 마켓플레이스
2016년 이후 데이터를 수집, 저장, 처리, 공유하는 것이 쉽고 저렴해짐에 따라 몇 가지 데이터 마켓플레이스가 생겨났지만, 이 분야는 크게 활성화되지 않았음
Datarade, Dawex, AWS Data Exchange, Snowflake 등의 마켓플레이스와 플랫폼은 다양한 일반적인 사용 사례에 걸쳐 이미지, 텍스트, 오디오, 비디오 데이터를 쉽게 찾을 수 있게 해주었지만, 이는 주로 고객이 데이터를 호스팅하기로 선택한 것에 대한 추가 가치를 제공하기 위한 것임
이러한 마켓플레이스 외에도 Appen, Scale AI, Invisible, Surge 등 숙련된 아웃소싱 인력을 통해 맞춤형 데이터셋 생성 및 레이블링을 제공하는 회사들이 있음
그러나 전문화와 독점 데이터의 경쟁 우위에 대한 주의사항이 여전히 유효하며, AI 스타트업이 이러한 마켓플레이스에 크게 의존한다는 증거는 거의 없음
초기에는 편리할 수 있지만, 정제, 맞춤화, 필터링, 하위 샘플링에 상당한 노력이 여전히 필요함
많은 스타트업이 처음부터 자체 독점 데이터셋을 구축하고 이를 경쟁 우위로 활용하는 것을 선호함
게이미피케이션
게이미피케이션은 크라우드소싱 및 시민 과학 이니셔티브의 맥락에서 다양한 기업과 조직에 의해 데이터 수집 전략으로 탐구되었음 (예: Folding@Home)
그러나 소수의 사례를 제외하고는 게이미피케이션은 상대적으로 틈새 시장에 머물러 있음
게임과 같은 경쟁에 동기를 부여받고 여유 시간이 있는 특정 사용자 하위 집합에만 어필하므로 기여자 수의 잠재력에 상대적으로 낮은 상한선이 있음
동기 부여된 사람들 사이에서도 기여된 데이터의 품질과 정확성은 여전히 문제가 되며, 특히 에지 케이스를 처리할 때 추가적인 검증 및 통제 조치가 필요함
연합 학습
2016년 Google이 도입한 연합 학습(Federated learning, FL)은 데이터를 로컬에 그대로 두면서 여러 분산 서버나 모바일 기기에서 모델을 학습시킬 수 있다는 약속을 제시했음
이론적으로 의료나 금융 같은 민감한 분야에서 일하는 스타트업이 전통적인 프라이버시 문제를 피하면서 파트너십을 통해 중요한 학습 데이터에 접근할 수 있게 해줄 수 있음
그러나 FL은 책임, 데이터 소유권, 국경 간 데이터 전송 문제로 인해 설계된 민감한 분야에서 채택이 저해되었고, 모델과 데이터셋이 복잡해짐에 따라 분산 학습 및 집계와 관련된 계산 및 통신 오버헤드가 상당한 병목 현상이 되었으며, 데이터 소유자가 가치 제안을 보장하는 상당히 복잡한 기술을 받아들여야 한다는 인식이 남아 있음
[ ## 결론 ]
2016년 이후 상당한 진전에도 불구하고 데이터 수집은 여전히 스타트업에게 고충으로 남아 있음
커뮤니티나 시장이 이 문제를 해결할 것으로 보이지는 않음
대부분의 AI 스타트업은 여전히 설립 시점에서 데이터 수집의 어려움에 직면하겠지만, 이는 차별화의 기회가 될 수 있음
창의적으로 올바른 기반을 구축하는 것은 여전히 매우 실질적인 경쟁 우위의 원천임
데이터 자체는 결코 해자(Moat)가 될 수 없음
시간이 지나면 경쟁사들은 자체 데이터를 확보하거나 동일한 결과를 달성하기 위한 보다 효율적인 기술을 찾는 데 성공할 것임
지난 1년 동안 작은 모델과 큰 모델 간의 성능 격차가 점진적으로 줄어든 LLM 평가에서 이를 명확히 볼 수 있음