2024년 AI 스타트업을 위한 데이터 수집 전략

(press.airstreet.com)

30P by xguru 17일전 | favorite | 댓글 1개

[ #1 대규모 생성형 모델(Large Generative Models) ]

LLM과 LMM을 활용한 합성 데이터 생성

Large Language Model(LLM)은 텍스트 출력을 생성하는 반면, Large Multi-Modal Model(LMM)은 텍스트, 코드, 이미지 등 다양한 형태의 합성 데이터를 생성할 수 있음
실제 데이터가 부족하거나, 개인정보 보호에 민감하거나, 수집 및 레이블링 비용이 높은 분야에서 특히 널리 사용됨 (예: NLP, 컴퓨터 비전, 자율 주행 시스템 개발 등)
합성 데이터는 일반적으로 실제 데이터를 보완하거나 미세 조정(fine-tuning)에 사용되며, 전체를 대체하는 용도로는 사용되지 않음
아무리 정교하더라도 문제 영역에 대한 근사치만 생성할 수 있으며, 과도하게 의존하면 합성 데이터 생성 과정에 존재하는 특성에 모델이 과적합될 위험이 있음
합성 데이터 생성 방법
1. 자기 개선(Self-improvement): 모델이 지침, 입력 컨텍스트 및 응답을 생성하고, 유효하지 않거나 기존 데이터와 너무 유사한 예제는 필터링되며, 남은 데이터는 원래 모델을 미세 조정하는 데 사용됨
2. 증류(Distillation): 더 강력한 교사 모델의 지식을 덜 강력하지만 더 효율적인 학생 모델로 전달하는 과정. 합성 데이터가 종종 부정확하더라도 지침 조정(instruction-tuning) 과정에 효과적으로 기여할 수 있음
Microsoft는 주로 다른 LLM에서 생성된 합성 데이터로 학습된 Phi라는 일련의 작은 모델을 출시했으며, 대부분의 비전방 모델보다 우수한 성능을 보임
Hugging Face는 Microsoft가 사용한 합성 학습 데이터셋의 큐레이션에 대한 정보 부족에 대응하여 이를 재현하는 것을 목표로 Cosmopedia를 만들었음

LLM을 활용한 데이터 레이블링 및 데이터셋 통합

최신 LLM은 인간 주석자와 동등하거나 더 높은 수준으로 텍스트 데이터셋에 레이블을 지정할 수 있음
인간 주석자와 달리 LLM은 피로나 편견 없이 대규모 데이터셋에 동일한 주석 기준을 일관되게 적용할 수 있음
Segment Anything과 같은 대규모 데이터셋으로 학습된 대형 생성 모델은 의미론적 분할(semantic segmentation)과 같은 작업에 전통적으로 사용되는 전문화된 비생성 컴퓨터 비전 모델보다 종종 제로샷 능력으로 더 나은 성능을 보임
LLM은 다양한 데이터 소스를 통합하여 통합 데이터셋을 생성하는 데이터셋 스티칭(Dataset Stitching)을 통해 사용 가능한 실제 데이터 풀을 확장하는 데에도 사용될 수 있음

Grader로서의 LLM

인간 피드백으로부터의 강화 학습(RLHF)은 GPT-3를 채팅을 통해 사용자와의 대화형 상호 작용에 최적화된 획기적인 시스템으로 만든 핵심 미세 조정 기술이었음
이제 인간 대신 LLM을 사용하여 피드백을 제공하는 AI 피드백으로부터의 강화 학습(RLAIF)이라는 접근 방식이 등장했음
RLAIF의 주요 장점은 인간을 기계로 전환함으로써 확장성과 비용 절감이 가능하다는 점임

[ #2 데이터 레이블링 플랫폼 ]

초기에는 Amazon Mechanical Turk와 같은 크라우드소싱 및 작업 아웃소싱 플랫폼을 활용하여 저렴한 온라인 인력을 통해 데이터 레이블링이나 정제 작업을 수행했음
최근에는 V7, Scale AI 등 자동화된 데이터 레이블링 및 관리 기능을 제공하는 플랫폼이 발전하고 인기를 끌고 있음
이러한 플랫폼은 규정 준수 및 품질 보증 조치와 함께 대규모 데이터 수요가 있는 기업이 더 효율적으로 확장하고 더 높은 수준의 일관성을 제공할 수 있게 해줌

플랫폼별 특징 및 신규 플레이어

V7은 의료 영상과 같이 높은 수준의 전문성이 요구되는 작업에 중점을 두는 경향이 있는 반면, Scale은 자율 주행 분야에서 성장하여 국방 분야로 확장했음
Invisible과 같은 신규 플레이어는 LLM 특화 워크플로우(예: 지도 학습 기반 미세 조정, RLHF, 인간 평가, 레드 티밍 등)를 위한 전문 인력에 대한 수요를 충족시키고 있음
인기 있는 데이터 레이블링 서비스로는 CVAT, Dataloop, Invisible, Labelbox, Scale AI, V7 등이 있음

인간 주석 데이터 품질 개선 방안

많은 플랫폼이 여전히 어느 정도 인간 주석자에 의존하고 있어, 복잡하고 주관적이며 사회적으로 관련성이 높은 영역에서 AI 적용이 확대됨에 따라 출력 품질 평가에 더 많은 노력이 필요함
다수결, 일치율, 확률 모델링 접근 방식 등을 사용하여 여러 평가자 입력에서 실제 레이블을 추정하고 신뢰할 수 없는 "스패머" 평가자를 식별할 수 있음
평가자 간 체계적인 불일치를 포착하고 이를 활용하여 학습을 개선하는 기술(예: 불일치 디컨볼루션, 다중 주석자 모델링 등)이 있음
영향 함수, 학습 중 예측 변화 추적 등을 통해 잘못 레이블된 데이터 포인트를 탐지할 수 있음

[ #3 개방형 데이터셋 ]

2016년 이후 개방형 데이터 운동과 업계, 학계, 정부 간 데이터 공유의 가치 인식으로 인해 개방형 데이터셋이 급증했음
개방형 데이터셋은 대부분의 영역에 존재하지만 특히 컴퓨터 비전, NLP, 음성/오디오 처리, 로봇 제어 및 내비게이션 분야에서 접근성이 높음
이는 커뮤니티 노력(예: Hugging Face, PyTorch, TensorFlow, Kaggle 등)과 대기업의 대규모 데이터셋 공개가 결합되어 발전했음

개방형 데이터셋 활용 시 고려사항

무료이고 벤치마킹에 도움이 된다는 장점이 있지만 특정 고려사항이 있음
민감하거나 규제가 많은 분야에서는 개방형 데이터셋이 더 희소하고 오래되었으며 규모가 작은 경향이 있음
개방형 데이터의 품질과 최신성은 크게 다를 수 있어 빠르게 변화하는 분야에서는 관련성 문제가 발생할 수 있음
과도한 사용은 인기 있는 데이터셋에 지나치게 의존하여 모델이 벤치마크에서는 잘 수행되지만 실제 응용에서는 성능이 떨어지는 과적합 위험이 있음

유용한 개방형 데이터셋 리소스

Amazon, Google, Microsoft 등 대기업은 다양한 개방형 데이터 허브와 검색 엔진을 보유하고 있음
Hugging Face는 관련 도구와 함께 사용 준비가 된 데이터셋 허브를 만들었음
Kaggle의 데이터셋 검색 기능
VisualData: 컴퓨터 비전 데이터셋을 위한 허브
V7은 500개 이상의 개방형 데이터셋 목록을 공개했음

[ #4 시뮬레이션 환경 ]

시뮬레이션 환경은 AI 모델이나 에이전트가 통제된 환경에서 학습하여 합성 데이터를 생성하고, 실제 배포 전에 시스템을 테스트할 수 있게 해줌
실제 데이터를 보완하고 현실에서 접하기 어렵거나 비용이 많이 드는 에지 케이스를 탐색하는 데 특히 도움이 됨
이는 시스템을 안전하게 훈련하고 실제 세계에서 발생할 수 있는 수많은 변수를 고려해야 하는 로보틱스나 자율 주행차 등의 분야에서 특히 인기가 있음

시뮬레이션 환경 구축 시 고려사항

풍부하고 정확한 물리 모델링이 가능한 3D 시뮬레이션을 처음부터 만들고 검증하는 것은 상당한 자원과 인프라를 필요로 할 수 있음
NVIDIA는 Omniverse라는 통합 3D 그래픽 및 물리 기반 워크플로우 플랫폼을 기반으로 하는 시뮬레이션 환경을 포함한 강력한 GPU 가속 로보틱스 플랫폼 ISAAC을 만들었음
비용 부담을 줄이기 위해 오픈 소스 시뮬레이션 환경을 활용할 수 있음
Epic Games의 Unreal Engine은 높은 충실도의 그래픽, 사실적인 물리 시뮬레이션, 유연한 프로그래밍 인터페이스 등으로 인해 시뮬레이션 환경 구축을 위한 강력한 도구로 자리잡았음

활용 사례 및 오픈소스 환경

Applied Intuition: 자율 주행 시스템 개발자를 위한 시뮬레이션 및 검증 솔루션 제공
Sereact: 창고에서 픽앤팩 자동화를 위해 공간 및 물리적 뉘앙스를 이해할 수 있도록 시뮬레이션 환경을 기반으로 하는 소프트웨어 개발
Wayve: 여러 개의 4D 시뮬레이션 환경을 만든 영국 기반 자율 주행 스타트업
자율 주행 분야: CARLA, LG SVL Simulator, AirSim 등
로보틱스 분야: Gazebo, CoppeliaSim, PyBullet, MuJoCo 등

[ #5 웹/책 및 다른 자료들의 스크래핑 ]

대량의 텍스트, 오디오, 비디오 스크래핑은 파운데이션 모델 개발의 핵심 요소였음
대기업은 자체 독점 시스템을 사용하는 반면, 스타트업은 다양한 기성품 및 오픈소스 도구를 활용할 수 있음
Apache Nutch와 같은 분산 크롤링 프레임워크, Puppeteer나 Selenium과 같은 헤드리스 브라우저, Beautiful Soup과 같은 파싱 라이브러리, Luminati와 같은 프록시 및 IP 관리 서비스, 저렴하고 효과적인 OCR 기술 등이 발전했음

데이터 품질과 양의 트레이드오프

도메인과 애플리케이션에 따라 데이터 품질과 양 사이의 트레이드오프가 달라짐
언어 모델은 충분한 양이 제공되는 경우 비교적 노이즈가 많고 큐레이션되지 않은 데이터에서도 효과적으로 학습할 수 있음
반면 컴퓨터 비전에서는 작은 고품질 데이터셋을 이미지 변형(예: 자르기, 회전, 노이즈 추가 등)을 통해 확장하여 좋은 결과를 얻을 수 있음

커리큘럼 러닝과 데이터셋 큐레이션

커리큘럼 러닝은 단순한 예제에서 복잡한 예제로 이동하며 모델에 데이터를 의미 있는 순서로 제시하는 학습 전략임
사람의 학습 방식을 모방하여 모델이 어려운 예제에 도전하기 전에 좋은 초기 파라미터를 학습하도록 하여 효율성을 높임

사례

Databricks의 최근 SOTA 오픈 LLM인 DBRX는 이를 활용하여 모델 품질을 상당히 개선했음
Sync Labs는 상대적으로 품질이 낮은 대량의 비디오를 사용하여 비디오의 입술을 새로운 오디오에 맞게 재동기화할 수 있는 모델을 학습시켰음
Metalware는 전문 교과서에서 스캔한 비교적 작은 이미지 세트와 GPT-2를 결합하여 펌웨어 엔지니어를 위한 코파일럿을 만들었음

[ #6 저작권 문제와 라이선싱 가능성 ]

2016년 이후 AI 생태계의 성숙은 창업자에게 긍정적인 영향을 미쳤지만, 추가적인 복잡성도 야기했음
파운데이션 모델 제공업체의 대량 웹 스크래핑으로 인해 미디어 기업, 작가, 예술가들이 다양한 저작권 소송을 제기하고 있음
이러한 소송은 현재 유럽과 미국의 법원 시스템을 통해 진행 중이며, 대기업(예: Meta, OpenAI)이나 점점 더 확립된 연구소(예: Midjourney, Stability)를 대상으로 하고 있음
이는 스타트업이 데이터 수집 방식에 신중해야 함을 강조함
만약 기업들이 패소할 경우, 학습 데이터에서 저작권이 있는 자료를 식별하고 창작자에게 보상하거나 이러한 결과물을 파기하고 처음부터 다시 시작해야 할 수 있음
이에 따라 일부 기업은 미디어 조직과 파트너십을 맺거나 콘텐츠나 음성 사용에 대해 예술가에게 직접 보상하는 등 창작자 친화적인 데이터 수집 전략을 선제적으로 추진하고 있음

윤리적 데이터 소싱 인증 체계의 등장

전 Stability 임원 등이 주도하는 윤리적으로 소싱된 학습 데이터에 대한 인증 체계가 등장하고 있음
이러한 인증 체계는 아직 초기 단계이지만 흥미로운 방안이며 지켜볼 만한 가치가 있음

사례

ElevenLabs: 성우에 대한 페이아웃과 음성 데이터 파트너십
Google: Gemini 학습을 위해 Reddit 데이터를 사용할 수 있도록 하는 계약 체결
OpenAI: Shutterstock의 이미지, 비디오, 음악, 메타데이터 라이브러리로 DALL-E를 학습시키기 위한 파트너십과 Associate Press의 뉴스 아카이브 라이선스 계약

[ #7 레이블링된 대규모 데이터셋의 필요성 감소 ]

2016년 이후 비지도 학습과 준지도 학습 기술이 크게 발전하면서, 스타트업이 전통적으로 필수적이라고 여겨졌던 대규모 레이블링된 데이터셋 없이도 강력한 모델을 구축할 수 있게 되었음
이러한 접근 방식은 2016년 이전에도 연구자들에게 알려져 있었지만, 최근 몇 년 동안 접근성, 정교함, 실용성이 크게 향상되었음
비지도 학습은 데이터에 내재된 통계적 패턴과 구조를 학습하는 데 중점을 두며, 전통적으로 대규모 데이터셋 탐색(예: 비지도 클러스터링)에 유용했고 현재는 LLM 사전 학습의 핵심임
준지도 학습은 소량의 레이블링된 데이터와 함께 대량의 레이블링되지 않은 데이터를 사용하며, 모델의 성능을 개선하고 향상시키는 데 가장 효과적임
대조 학습과 소량 샷 학습과 같은 기법을 통해 이러한 접근 방식을 강화할 수 있음
- 대조 학습(Contrastive Learning)은 유사한 데이터 포인트와 유사하지 않은 데이터 포인트를 구분함으로써 모델이 풍부한 표현을 학습할 수 있게 하며, 컴퓨터 비전 작업에 유용함 (예: OpenAI의 CLIP)
- 퓨-샷 학습(Few-shot learning)은 모델이 매우 적은 수의 예제로 새로운 작업에 적응할 수 있게 해줌
원래의 스케일링 법칙 논문은 더 큰 모델이 소량 샷 학습에 더 능숙하다는 것을 보여주었음
비지도 사전 학습에 더 많은 양의 레이블링되지 않은 데이터가 필요하지만, 이 단계는 작은 비생성 모델보다 더 적은 레이블링된 예제로 다운스트림 작업을 해결할 수 있는 능력을 부여함

한계점과 고려사항

레이블링되지 않은 데이터를 활용하는 모델은 종종 더 복잡한 아키텍처를 필요로 함
레이블링에 소비되는 비용을 연산에 소비되는 비용으로 교환하는 것을 의미함
구현과 확장이 더 어려울 뿐만 아니라 해석 가능성이 떨어져 결정 과정을 이해하는 것이 중요한 민감한 분야에서 단점으로 작용할 수 있음
이러한 복잡성은 더 많은 계산 자원을 필요로 하며, 지도 학습 방법보다 성능 상한이 낮은 경우가 많음

[ #8 아직 이른 것들 ]

데이터 마켓플레이스

2016년 이후 데이터를 수집, 저장, 처리, 공유하는 것이 쉽고 저렴해짐에 따라 몇 가지 데이터 마켓플레이스가 생겨났지만, 이 분야는 크게 활성화되지 않았음
Datarade, Dawex, AWS Data Exchange, Snowflake 등의 마켓플레이스와 플랫폼은 다양한 일반적인 사용 사례에 걸쳐 이미지, 텍스트, 오디오, 비디오 데이터를 쉽게 찾을 수 있게 해주었지만, 이는 주로 고객이 데이터를 호스팅하기로 선택한 것에 대한 추가 가치를 제공하기 위한 것임
이러한 마켓플레이스 외에도 Appen, Scale AI, Invisible, Surge 등 숙련된 아웃소싱 인력을 통해 맞춤형 데이터셋 생성 및 레이블링을 제공하는 회사들이 있음
그러나 전문화와 독점 데이터의 경쟁 우위에 대한 주의사항이 여전히 유효하며, AI 스타트업이 이러한 마켓플레이스에 크게 의존한다는 증거는 거의 없음
초기에는 편리할 수 있지만, 정제, 맞춤화, 필터링, 하위 샘플링에 상당한 노력이 여전히 필요함
많은 스타트업이 처음부터 자체 독점 데이터셋을 구축하고 이를 경쟁 우위로 활용하는 것을 선호함

게이미피케이션

게이미피케이션은 크라우드소싱 및 시민 과학 이니셔티브의 맥락에서 다양한 기업과 조직에 의해 데이터 수집 전략으로 탐구되었음 (예: Folding@Home)
그러나 소수의 사례를 제외하고는 게이미피케이션은 상대적으로 틈새 시장에 머물러 있음
게임과 같은 경쟁에 동기를 부여받고 여유 시간이 있는 특정 사용자 하위 집합에만 어필하므로 기여자 수의 잠재력에 상대적으로 낮은 상한선이 있음
동기 부여된 사람들 사이에서도 기여된 데이터의 품질과 정확성은 여전히 문제가 되며, 특히 에지 케이스를 처리할 때 추가적인 검증 및 통제 조치가 필요함

연합 학습

2016년 Google이 도입한 연합 학습(Federated learning, FL)은 데이터를 로컬에 그대로 두면서 여러 분산 서버나 모바일 기기에서 모델을 학습시킬 수 있다는 약속을 제시했음
이론적으로 의료나 금융 같은 민감한 분야에서 일하는 스타트업이 전통적인 프라이버시 문제를 피하면서 파트너십을 통해 중요한 학습 데이터에 접근할 수 있게 해줄 수 있음
그러나 FL은 책임, 데이터 소유권, 국경 간 데이터 전송 문제로 인해 설계된 민감한 분야에서 채택이 저해되었고, 모델과 데이터셋이 복잡해짐에 따라 분산 학습 및 집계와 관련된 계산 및 통신 오버헤드가 상당한 병목 현상이 되었으며, 데이터 소유자가 가치 제안을 보장하는 상당히 복잡한 기술을 받아들여야 한다는 인식이 남아 있음

[ ## 결론 ]

2016년 이후 상당한 진전에도 불구하고 데이터 수집은 여전히 스타트업에게 고충으로 남아 있음
커뮤니티나 시장이 이 문제를 해결할 것으로 보이지는 않음
대부분의 AI 스타트업은 여전히 설립 시점에서 데이터 수집의 어려움에 직면하겠지만, 이는 차별화의 기회가 될 수 있음
창의적으로 올바른 기반을 구축하는 것은 여전히 매우 실질적인 경쟁 우위의 원천임
데이터 자체는 결코 해자(Moat)가 될 수 없음
시간이 지나면 경쟁사들은 자체 데이터를 확보하거나 동일한 결과를 달성하기 위한 보다 효율적인 기술을 찾는 데 성공할 것임
지난 1년 동안 작은 모델과 큰 모델 간의 성능 격차가 점진적으로 줄어든 LLM 평가에서 이를 명확히 볼 수 있음
훌륭한 데이터 수집은 궁극적으로 필요하지만 충분하지는 않음
킬러 제품 및 진정한 고객 통찰력과 함께 성공을 위한 한 가지 요소임

▲

thfvkfk 17일전 [-]

감사합니다 엄청난 정보네요~

답변달기