생성형 AI에 300억 달러를 썼지만 95%의 기업이 ‘수익 제로’
(thedailyadda.com)- MIT 보고서에 따르면 전 세계 기업의 95%가 생성형 AI 도입에서 실질적인 수익을 얻지 못함
- 기업들은 ChatGPT, Copilot 등 대형 언어 모델을 대규모로 실험했지만, 대부분의 활용은 생산성 향상에 그침
- 성공 사례는 불과 5%의 통합 AI 파일럿에서만 확인되었으며, 대부분은 매출이나 이익에 영향이 없었음
- 생성형 AI가 실제 업무 절차와 잘 맞지 않거나, 피드백을 기억하지 못하고 문맥에 적응하지 못하는 점이 주요 원인임
- 보고서는 대규모 일자리 대체 우려를 일축하며, 외부 비용 절감은 가능하지만 내부 구조 개편이나 대량 해고는 당분간 현실성이 낮다고 분석함
- 결론적으로, AI는 전략이 아닌 특정 과업에 강점이 있으며, 기업은 전사적 혁신이 아닌 제한적이고 즉각적 성과가 가능한 영역에 집중해야 한다고 권고함
기업들의 생성형 AI 투자와 수익
- 최근 3년간 기업들은 생성형 AI 프로젝트에 300~400억 달러를 투자했음
- 하지만 실질적인 비즈니스 수익을 얻은 기업은 극소수임
- MIT의 새로운 연구 결과, 95%의 기업이 AI 도입에도 측정 가능한 이득이 없다고 응답함
- 오직 5%의 AI 파일럿 프로젝트만 수백만 달러 규모의 가치를 창출하고 있음
대형 언어 모델 도입 현황과 한계
- 80% 이상의 대기업이 ChatGPT, Copilot 등 주요 LLM을 테스트하거나 파일럿으로 운영함
- 약 40%의 기업이 해당 시스템을 어느 정도 도입했으나, 대부분은 직원 개인 생산성 강화에 국한되어 있음
- 기업의 전체 매출 혹은 이익 개선에는 거의 영향이 없음
생성형 AI의 기술적 한계
- 생성형 AI 도구들은 실제 업무 프로세스와 잘 맞지 않는 경우가 많음
- 대표적인 문제점으로 불안정한 워크플로우, 문맥 학습 부재, 비효율적 업무 연계가 지적됨
- 대다수 생성형 AI 모델은 과거 피드백을 보존하지 못하고 문맥·업무 간 교훈 이전이 어려움
- 보고서에 따르면, 대부분의 GenAI 시스템은 피드백 유지, 문맥 적응, 장기적 개선이 불가능함
- 이런 특성 때문에 기업 내 장기적 통합 비용만 높이고, 실질적 효율화는 미흡함
비즈니스 기대와 현실의 차이
- 생성형 AI에 대한 기대와 투자 규모가 컸으나, 비용 절감이나 실질적 수익 창출로 이어지지 못함
- 실제로는 고객 서비스, 마케팅, 문서 작성 등 제한된 임무에 활용되어 시간은 절약하나, 직접적 매출 증가 효과는 적음
고용 및 조직 구조에 미치는 영향
- 생성형 AI가 단기적으로 대규모 일자리 감소를 가져오리라는 우려는 근거가 약함
- AI 효과는 사내 인력 구조 변화보다는, 외주 비용 절감 등 외부 비용 최적화에 그칠 전망임
- 즉시 인력을 대규모로 대체하기보다는 아웃소싱 비용을 줄이는 수준에 머물 것으로 예상됨
기술적 오해와 발전 한계
- 기업들이 AI의 실제 가능성과 한계를 정확히 이해하지 못해 실패 사례가 다수 발생
- 생성형 AI가 텍스트나 코드를 빠르게 만들 수는 있지만, 인간과 같은 지속적 학습이나 융통성은 결여
- 예를 들어, 직원은 이전 실수나 새로운 요구에 맞춰 유동적으로 대응하지만, AI는 그러한 연속적 기억 전이가 불가능
투자와 향후 방향성
- 투자자와 경영진은 AI 기술의 지속적 발전을 기대하고 있으나, 단기적으로는 예상보다 더디게 진전
- 보고서는 모든 업종과 워크플로우에 즉각 AI를 도입하는 것은 시기상조임을 시사함
- 조직은 즉각적이고 측정 가능한 효과가 가능한 좁은 분야에 도입을 집중해야 할 필요성이 있음
- 예: 고객 지원 자동화, 개발 지원 도구, 문서 초안 작성 등
- 기업 전반에 걸친 AI 통합은 아직 위험성이 크고 실패 확률이 높음
결론 및 시사점
- 생성형 AI의 기업 가치 실현은 몇몇 성공 사례에 국한
- 대부분의 기업은 일상적 업무에서만 미미한 도움을 얻는 수준임
- 보고서는 기업이 생성형 AI를 전면적인 성장 엔진이 아닌 제한적 도구로 인식할 필요가 있음을 강조
- 기대는 높지만, 현 시스템이 인간처럼 적응하지 못하는 한 기업들이 AI에서 큰 수익을 얻기는 어려움
Hacker News 의견
- 금주 중복 토론이 있었음(162개의 댓글) https://news.ycombinator.com/item?id=44941118 해당 기사에서 연결하지 않은 실제 소스 리포트는 https://mlq.ai/media/quarterly_decks/… 임
- 해당 리포트는 기사 내용과 전혀 다름을 이야기함 정보 몇 가지 공유: 실패한 예산의 50%가 마케팅과 세일즈에 사용됨, AI는 2.3조 달러의 노동 가치를 자동화할 수 있을 것으로 보며, 3,900만 개의 포지션에 영향이 있다는 점, 그리고 실패의 탑 원인은 새로운 도구 도입의 거부와 경영진의 지원 부족임을 강조함 AI가 작동하지 않는다는 결론을 너무 섣불리 내리고 있다고 생각함 리포트가 말하는 것은 그것이 아님
- "AI가 2.3조 달러 노동 가치 자동화, 3,900만 포지션 영향"이라 했지만, 현재 미국 노동 가치 자동화 가능성은 2.27%임 미국 GDP가 현재 27조 달러인데, 미국 노동 가치 610억 달러를 최적화하면서 미국 노동 인구의 15% 정도를 대체하게 되고, 2.3조 달러의 가치를 만들어낸다고 하는 것인데 이게 실제로 계산이 맞는지 의문임 이 모든 것을 누가 구매하는지(노동자가 아니면 누가?)도 궁금함 2025년 AI 투자액이 이미 그 절반을 넘김 이 상황에서 "노동 가치"를 어떻게 측정해야 할지 모르겠음 GDP는 적합하지 않은 지표 같음
- 내가 받은 느낌도 리포트와 일치함 일부 뉴스는 단순히 클릭 유도만을 위해 자극적인 내러티브를 밀어붙임 실제 리포트의 내용을 심각하게 오해하고 있음 AI의 실패가 아니라, 현재 직원들이 도구를 잘 도입하지 않거나 적어도 회사가 제공하는 도구를 도입하지 않아서가 더 큰 원인임 그들이 언급한 "쉐도우 AI 경제"도 실제 문제임 사람들이 회사가 제공하는 툴 대신 개인 구독 LLM을 사용중임 우리 대학도 모든 학생과 교직원에게 ChatGPT 엔터프라이즈 버전을 제공했는데, 이게 클라우드 기반의 최신 버전(예: GPT-5)에 비해 많이 부족함 그래서 시스템 도입률과 사용자 유지율이 낮음 대다수 사용 사례에서는 클라우드 사용이 불법이 아닌 데이터를 사용하게 하므로 제약이 많지 않음
- 리포트에서 이 부분이 특히 인상 깊었음: 중견 로펌의 변호사가 회사에서 5만 달러로 계약분석 툴을 구매했지만, 여전히 실무에선 ChatGPT를 씀 회사가 산 AI 툴은 요약이 너무 뻣뻣하고 커스터마이징도 어렵지만, ChatGPT는 대화를 이끌어 원하는 결과를 반복적으로 뽑아낼 수 있음 즉, 20달러짜리 툴이 수천만 원짜리 엔터프라이즈 솔루션보다, 실질적 사용자 만족도에서 훨씬 낫다는 역설임 그래서 많은 기업이 GenAI 디바이드의 잘못된 쪽에 서게 된다고 설명함
- 3,900만 포지션에 영향을 준다는 건 정말 놀라운 수치임 미국의 워킹 인구가 1억6,300만인데 거의 1/4일 위험하다는 뜻임
- "많은 사람들이 AI는 안 돼, 라는 결론을 급하게 내리고 있다"는 댓글에 대해, "사람의 월급이 이해하지 않는 것에 걸려 있으면 이해하려 들지 않는다"는 유명한 말 공유함
- 나는 현재 AI 엔지니어링팀 리더임, 당연히 AI가 가치를 창출한다는 인식이 내 이해에 부합함 우리 회사에서 AI 도입으로 수백만 달러를 절감할 수 있게 되었음 우리는 대형 콜센터를 운영하는데 예전에는 직원들이 각 콜마다 3-5분씩 수작업 요약을 썼음 최근 AI로 콜 요약을 자동화함 요약의 퀄리티도 더 좋아지고, 사람이 더 가치 있는 일에 집중할 수 있게 되었음 혁신적이진 않지만, 실질적으로 측정 가능한 효율성 증가임
- 꿀팁 공유: 요약 자체를 안 쓰고 자료가 필요할 때만 만들 것을 제안함 콜 오디오는 24Kb/s Opus로 저장해서 1분당 180KB면 되고 일정기간 저장 후 삭제하는 프로세스로 연 수백만 달러를 추가로 줄일 수 있음
- 우리 회사는 Google Meet와 Gemini로 미팅 내용을 대화록으로 만듦 그런데 실제 내용이 매우 부정확함 누가 말한 건지 헷갈리고, 의미를 반대로 뒤집을 때도 많음 맥락이 없어 우리 사내 용어도 알아듣지 못해 실제론 사용할 수 없을 정도임
- 콜센터 직원들이 AI 요약이 정말 자기들보다 낫다고 느끼는지 궁금함 내 경우 회의 요약엔 쓰기 힘들 거라 생각함 이게 단방향 콜에서만 잘 되는 것 같음
- 우리도 미팅 요약에 AI를 써봤지만 결과가 너무 부족해 다시 사람이 직접 쓰고 있음 혹시 효과가 좋았던 구체적 사례나 교육/커스터마이징이 있었는지 궁금함
- 왜 콜센터 직원이 굳이 모든 콜마다 3-5분을 들여 요약을 작성해야 했는지 의문임 여러 AI 활용 사례 중 실제로는 불필요한 일을 자동화하는 경우를 자주 봄 보고서를 아무도 안 읽으면 요약 품질이 문제가 되지 않으니 AI가 잘못 써도 상관없음 운영 효율화에서 중요한 것은 불필요한 프로세스 자동화가 아니라 제거임 결국 AI는 조직의 낭비된 업무를 덮어주는 역할이 많은 듯함 만약 그런 최적화가 안 된다면 이 마저도 필요할 수 있음
- 지금은 “디스럽션의 골짜기(Trough of disillusionment)”에 진입하는 시점임 이런 과대광고 사이클은 예측 가능함 GPT-5가 엄청난 기대 끝에 실망을 줬다는 평이 나오면서 GenAI의 ‘이제는 끝’이 될 수 있음 ROI를 묻기 시작하면 현실이 드러남 지금 똑똑한 이들은 이미 다음 변혁을 준비하고 있고, 아직 골짜기 밑바닥까지 가볼 사람들이 있음 점점 절박한 PR이 "진짜 가치 있다"며 몰아칠 것임
- 대다수 회사가 돈 낭비라는 걸 알면서도 주가 때문에 어쩔 수 없이 투자했다고 해도 놀랍지 않음
- Gemini는 업데이트마다 상당히 괜찮은 인상을 주지만 최근 개선 속도나 내용의 질 측면에서 크게 둔화함 이건 벽이 다가온 신호로 보임 정체기가 찾아온 후 다시 점프하는 패턴에서 LLM이 컴퓨터비전보단 더 나은 미래를 가질 것 같음
- Sam Altman이 GPT-5의 성능을 지나치게 홍보했음 사용자 입장에서 GPT-4 대비 큰 도약이 느껴지지는 않음 하지만 트레이너블 다이나믹 라우터 방식이 추론 비용을 상당히 줄였다는 점은 큰 의미임 사용자보다는 오픈AI와 전력망에 더 이득이 많은 혁신임
- OpenAI가 GPT-3.5-Turbo에서 GPT-4로 넘어갈 땐 혁명적인 변화였고 다른 모델도 없었음 하지만 GPT-5가 나오기 전에 이미 o 계열, Llama, DeepSeek, Gemini 등 수많은 모델들이 등장함 앞으로는 GPT-3.5에서 4로 넘어갈 때 같은 점프는 없을 것임 GPT-5는 여러 모델을 하나로 통합하고 있지만 "최초" 타이틀을 갖진 못함
- Windsurf 팀이 조기 매도하고 떠난 이유가 이 때문일지 궁금함
- 실제로 매출을 올리거나 비용을 줄여주는 현실적인 AI 활용 사례에는 무엇이 있는지 질문함 1. 온라인 콘텐츠 생성(이미 과포화) 2. junior 개발자 대체(생산성 한정적) 3. 고객 서비스 직원 대체(비용절감 효과는 있지만 매출에는 영향 적음) 4. 보조 도구(글쓰기, 분석 등 한계 있음) 5. 비디오 게임/로봇 캐릭터 등 차세대 인터랙션 6. AI 가상연인 및 NSFW, 이 시장은 당분간 수익성 좋을 것 같음 혹시 더 현실적인 사례가 있는지 질문함
- 나는 LLM을 반정형 문서에서 특정 정보를 추출 후 자동 분류/파일링하는 프로젝트를 진행함, 정확도 95% 이상이고 아직 파인튜닝도 안 했음 최종적으로는 수작업 승인 거치겠지만 이미 연간 수백 시간 절감 효과가 있음 정보 추출, 분류에 AI가 매우 효과적임
- 헬스케어에서는 진료노트, 데이터, 이미징 해석 등 모든 기록이 곧 수익과 직결됨 매년 수십억 달러가 이 부분의 행정 비용으로 쓰임 GenAI로 노트 품질/정확성을 크게 올리면 직접적으로 매출 증가가 가능함 보험쪽도 마찬가지로 엄청난 문서 작업과 확인이 필요함 결국 AI들이 상호 문서만 서로 주고받으며 사람은 풀장에 앉게 될지도 모름
- AI 고객 서비스는 사용자 입장에선 짜증나는 경험임
- 월 200달러로 생산성 50% 향상은 엄청난 가치임 대부분 국가의 연간 생산성 상승률이 0~2%임
- 회사 내부 문서/위키/코드베이스를 RAG로 묶어 온보딩과 정보 검색을 쉽게 해주는 AI가 있었으면 함 인간을 대체하는 것보단 더 일하기 쉽게 해주는 방법을 찾는 게 바람직함
- 사람들이 범하는 가장 큰 실수는 AI를 서비스가 아니라 기능으로 봐야 한다는 점임 누구도 "오늘 AI와 대화하고 싶어!"라고 생각하진 않음 사용자들은 너무 지루하거나 벅차지 않게 일을 잘 마치고 싶어함 그럴 때 AI가 조용히 도와주는 게 맞음 하지만 우리가 파는 것은 기능이 아니라 서비스(=제품)이기 때문에, 마케팅에서는 AI를 전면 배치할 수밖에 없음 Notion/Slack/Airtable 등 모두 AI를 헤드라인에 내세우고 있지만, 본질은 AI가 아니라 그것이 도움을 주는 일의 본질임
- 나는 AI가 기능이란 말도 아님, AI는 결국 기술임 "내가 이 제품에 AI를 넣어줬으면"이라기보다는 "이 작업을 할 수 있었으면 좋겠다"는 욕구임 제품이 내 일을 해결하면 어떤 방법이든 상관없음 너무 많은 회사가 AI 그 자체만 쉽게 끼워넣으려 하지만, 사용자가 원하는 문제 해결에 집중하지 않음
- 말은 맞지만, 현실적으로 이러면 시장의 높은 가치평가와 과열된 분위기가 사라짐 이런 각성의 순간이 오면 남은 "핫"한 소프트웨어 분야까지 꺼지면서, 업계 전체가 5~10년 전만큼의 시장이 아니라는 현실을 받아들이게 될 것임
- AI가 단지 또다른 도구로 소개되면 좋겠음 "이런 유즈케이스가 있다"고 1회 알림창 정도만 있으면 충분함 현실은 온갖 UI가 AI 로고, 오토컴플릿 등으로 도배되어 집중력을 해침 도구가 아니라 주인공이 된 느낌임 실제로는 유저가 각자 필요에 따라 쓰도록 가이드만 하면 되는데, 너무 억지로 끼워넣으려는 느낌이 강함 이런 회사들은 좀 멈추고 사용자에게 맡길 줄 알아야 함
- 진심으로 공감함, 결국 중요한 것은 제품 그 자체의 가치임, 그 밑에 뭐가 쓰였는지는 중요하지 않음
- 요즘 AI를 적용한 애플리케이션들은 거의 "문제를 찾는 솔루션" 같음
- 리포트 PDF 링크가 랜딩페이지로 리디렉션되고, CTA가 "AI 제품 성공 빨리 해보세요"라면서 오히려 객관적 리포트가 아니라 평범한 콘텐츠 마케팅에 가까워 보임 저자의 이름을 클릭해봤는데 아무것도 안 나옴 사이트나 저자 모두 신뢰가 안 감 HN도 이제 Reddit처럼 제목만 보고 들어와 동의 여부만 댓글로 달고 감
- 진짜 보고서를 사람들이 직접 읽으면 어땠을지 궁금함 https://mlq.ai/media/quarterly_decks/… 40%의 회사만 공식 LLM 구독이 있지만, 90% 이상의 회사 직원이 개인 AI 툴을 업무에 일상적으로 쓰고 있음 실제로 거의 모든 직원이 LLM을 어떤 방식으로든 사용 중임 "섀도우 AI" 사용자는 회사 공식 프로젝트가 파일럿 상태에 머무는 동안에도 매일 여러 번씩 LLM을 활용함 기업의 공식 AI 사업은 실패하는데, 실제론 회사 안에서 LLM 활용이 확산되는 역설적 상황임 이 이야기는 기사처럼 새로운 폭탄 뉴스가 아니라 오히려 완전히 다를 수도 있음
- 이런 식으로 미국이 기술 혁신마다 항상 앞서나가는 모양임 돈을 많이 쓰고 잃기도 하지만 리스크도 감수해서 결국엔 따라올 수 없을 정도로 앞서감 AI/미국 기업을 상대로 너무 빨리 승리 선언하는 것은 위험함
- 미국이 모든 분야에서 앞선다고 일반화하기 어렵다고 생각함 금융 등 여러 분야는 타국보다 뒤처짐 중국은 전기차, 태양광 등에서 앞서감 소프트웨어 분야는 맞지만, 미국의 방어막은 독과점, 락인, 부유층 맞춤형 규제 등으로 형성됨
- 이런 사고방식은 너무 단순함 현실을 오히려 왜곡할 수 있음
- 태양광, 전기차, 드론 등 사례를 들며 미국이 반드시 앞선다고 할 수 없음을 말함
- GSM의 역사도 언급하면서, 항상 미국이 혁신을 주도한 것은 아니라는 의견을 제시함
- 자기 생산성에 대한 자기평가가 실제와 다를 수 있다는 점이 흥미로움 METR의 연구에서는 개발자들이 AI 때문에 20% 빨라졌다고 느꼈지만 실제론 19% 느려졌음 https://metr.org/blog/…
- 이런 연구로도 포착하기 어려운 뉘앙스가 많음 사용하는 AI의 종류, 사용 도구, 친숙도, 개발 프로세스, 팀 사이즈, 그리고 유저의 직급, 세밀함 등 다양한 요소가 결과에 영향 미침 지금은 투자자들이 시장 점유율 확보 위해 AI 가격을 대대적으로 보조하고 있지만 그게 끝나면 가격은 오히려 더 내려갈 수 있다고 봄 난 AI의 발전 덕에 이미 충분히 이득을 보고 있다고 생각함, 앞으로는 점진적 개선, 사용자 경험 향상이 중심이 될 것 같음 당장 AI 기업들에 투자할 생각은 없음
- 어떤 때는 AI가 오토컴플릿처럼 내 생각을 완벽히 읽는 것 같지만, 어떤 때는 전혀 말도 안 되는 제안을 해서 방해만 됨
- AI가 오히려 사람을 세부적인(“in the weeds”) 개선에만 집중하도록 만들고 큰 그림을 놓치게 하지 않을까 하는 의문도 듦 개발 속도는 오히려 전체 전략적 판단(내가 이 도구를 써도 될까, 이 기능이 정말 필요한가 등)에서 갈림
- 샘플 수가 적기는 하지만, 일화나 자기보고 데이터보단 훨씬 의미 있는 연구임