1P by GN⁺ 6일전 | ★ favorite | 댓글 1개
  • Deloitte생성형 인공지능을 활용해 오류가 포함된 44만 달러 보고서를 제출한 후, 호주 정부에 일부 환불을 진행함
  • 해당 보고서는 복지 시스템의 규정 준수 프레임워크 및 IT 시스템 검토 목적이었으며, 보고서 내 여러 오류와 가짜 인용문 및 허위 자료 인용 문제가 발견됨
  • Deloitte는 Azure OpenAI GPT–4o와 같은 대형 언어 모델을 사용했음을 보고서 부록에 명시했지만, 오류의 직접적 원인이 AI임을 인정하지 않음
  • 노동당 상원의원은 컨설팅 회사의 전문성이 부족하다며 AI가 주요 역할을 했다는 점을 비판함
  • 최종 보고서 수정에도 핵심 내용과 결론엔 변화가 없으며, 권고사항도 유지

Deloitte, 호주 정부에 AI 사용 관련 환불

사건 개요

  • Deloitte가 44만 달러 상당의 정부 보고서 작성에 생성형 인공지능을 활용한 사실을 인정한 후, 오류가 발견돼 계약금 일부를 환불하기로 결정함
  • 해당 보고서는 호주 고용 및 직장관계부(DEWR)의 의뢰로 복지 수급자 준수 자동화 시스템에 대한 검토를 위해 작성된 것임
  • 보고서에는 프레임워크 규칙과 실제 법률의 연결성 부족 및 IT 시스템의 근본적 결함 등 여러 문제가 지적됨

AI 활용과 문제점

  • 보고서는 7월 4일 최초 공개 후 여러 오류 및 존재하지 않는 인용문 문제가 언론을 통해 지적됨
  • University of Sydney의 Dr. Christopher Rudge에 따르면, 보고서에는 AI가 흔히 보이는 "hallucination"(환각) 현상, 즉 존재하지 않는 자료를 만들어내는 문제가 여러 곳에 나타남
    • 예를 들어, 새로운 보고서 버전에서도 허위 인용문이 오히려 더 늘어나는 등, 일부 결론이 실제 근거 자료보다는 AI에 의해 생성됨을 암시함
  • Deloitte는 업데이트된 보고서 부록에 Azure OpenAI GPT–4o와 같은 대형 언어 모델 사용 사실을 추가함
    • DEWR의 Azure 환경에서 라이선스 기반으로 구동된 툴 체인을 이용했다고 명시
    • 그러나, 최초 보고서의 문제 원인이 직접적으로 AI에 있다고 인정하지는 않음

반응 및 후속 조치

  • 노동당 Deborah O’Neill 상원의원은 "Deloitte는 인간의 전문성 부족을 겪고 있다고 할 수 있으며, 부분 환불은 부실 작업에 대한 불충분한 사과임"이라고 비판함
    • 정부 및 발주처에선 실제 전문가와 AI 무관성 증명이 필요하다고 주장
    • "컨설팅사 대신 ChatGPT 구독을 하는 게 낫겠다"고 비판적인 의견 표출
  • 언론 조사에 따르면, 존재하지 않는 대학 연구 보고서 인용, 실제와 다른 법원 판결 요약 제공 등 구체적인 허위 내용이 보고서에 포함됨
    • 예시: University of Sydney, Lund University 교수 논문, Robodebt 사건(Deanna Amato v Commonwealth) 판결 등 관련 자료 허위 요약

공식 입장 및 영향

  • Deloitte 측은 DEWR와 직접적으로 문제를 해결하였다며, 업데이트된 보고서의 결론 및 권고사항에는 변경이 없음을 강조
  • DEWR도 일부 미비한 각주 및 인용문을 수정했을 뿐, 전체 추천사항과 핵심 내용 유지 입장 표명
  • 일부 전문가들은 전체 보고서의 결론이 현존 증거와 일치하긴 하지만, 보고서의 신뢰성에 의문이 제기됨

시사점

  • 본 사안은 컨설팅 업계의 생성형 인공지능 사용에 대한 투명성과 전문성 보장 요구를 사회적으로 부각시키는 계기임
  • 발주자는 AI 활용 여부, 전문성 실명 검증 과정을 강화할 필요성을 인식하게 됨
Hacker News 의견
  • 여러 정보를 보태자면, 이 보고서는 정부 지원을 받는 사람들이 구직 요건을 충족하지 못했다며 인생을 망가뜨릴 정도의 잘못된 벌금을 부과한 문제적 IT 시스템에 관한 내용임. 벌금이 바로 채무 판결 형태로 부여되어 빚 독촉원이 실제로 집에 찾아와 물건을 가져가는 상황이 벌어졌음. 심지어 해당 시스템의 심각한 결함 탓에 정부 지원을 전혀 받지 않은 이들에게까지 벌금이 잘못 부과됨. 이런 상황에서 Deloitte와 같은 컨설팅 회사에 44만 달러를 주고 보고서를 의뢰했는데, 이들은 AI를 써서 보고서를 만들었고 오히려 오류를 더 남김. 만약 Deloitte에 시스템 구축까지 맡겼다면 Royal Mail과 Fujitsu 사건이 또 재현될 것이라는 걱정이 있음

    • 이런 AI 남용이 진정한 생명/죽음의 문제로 커질 거라 우려함. Deloitte의 사람들이 무지하거나 의욕이 없는 게 아니라, 돈만 쫓는 집단이라 AI를 써서 대충 요건만 맞추고 다음 계약으로 넘어가는 태도를 보임. 그 결과로 많은 사람의 인생이 망가지거나 극단적 선택까지도 이어질 수 있음. 단순히 문서 조작이 아닌, 실제로 집에 무장한 사람까지 찾아오게 하는 문제임

    • 상상할 필요도 없이, 이미 이런 문제는 있었음. Deloitte Rhode Island 데이터 유출 사건 참고

    • Deloitte를 통하는 것조차 번거로우면 그냥 OpenAI에 직접 맡기라는 의견임

    • 처음부터 문제였던 이유가, 이미 원래 시스템 구축 때도 Deloitte를 썼을 가능성이 높다는 것임

  • 컨설턴트/아웃소싱의 문제점을 얘기하는 김에 A팀/B팀 전환 문제도 언급하고 싶음. 처음에는 실력 있어 보이는 사람이 상담에 나와서 계약을 따내지만, 막상 계약이 성사되면 그 사람은 다른 영업 현장으로 가버리고, 이제는 B팀 아니면 C팀 멤버들이 등장함

    • 내 경험상, 대형 서비스 계약에서 A팀이 처음에 우리를 구슬려 계약을 성사시키면, 실제로 일하는 건 B팀임. 우리가 관심이 떨어질 때쯤이면 이번엔 Z팀으로 바꿔치기함. 품질에 돈 아끼지 않고 평생 더 주겠다고 했는데도, 결국 욕심내다가 계약 자체를 잃게 되는 경우였음

    • 팀 규모가 더 커질수록, A급 실력자가 100개 팀을 돌며 클라이언트가 화내면 잠깐 등장해 안심시키고 다시 사라지는 케이스임. 나머지는 전부 신입급이거나 (이제는 AI와 함께해서 더 전문가가 적어짐). 내 고객이 50만 달러를 들여 프로젝트를 맡겼고 몇 달간 15명에게 돈을 줬다고 믿었지만, 줌 미팅에서 인터뷰해보니 15명 중 오직 1명만이 프로젝트에 대해 알았음. 그 1명이 처음에 고용한 테크 리드이고 파트타임으로 겨우 참여 중임. 코드 품질을 보면 나머지 5명 정도가 codex나 claude로 코드 붙여넣고 '가짜 QA' 거치고 바로 배포하는 식임. 이런 일은 AI 전에도 있었지만, 예전엔 실제로 15명 신입급이 마구잡이로 코딩했던 차이뿐임

    • 이 얘기는 정말 시대를 잘 반영하는 농담으로, 딜버트 만화 참고

    • 이게 바로 게임의 전부임. 파트너 만나고 결국엔 신입들 데려오며, 파트너 급 인건비를 줌. 심지어 운 없으면 직접 신입 교육까지 하게 됨

    • 긍정적으로 이야기하자면, 컨설팅/아웃소싱을 쓰는 이유 중 하나는 내부 직원만으로는 소화가 안 되는 단발성 대규모 프로젝트 때문임. 여러 프리랜서를 따로 뽑아 팀을 만들기보다는 이미 구축된 외부 팀을 단기간에 쓰는 편이 효율적임. 실제로는 컨설팅사도 그때그때 외부에서 사람을 모아와서 팀처럼 보여주기도 함

  • 컨설팅이 어떻게 왜 작동하는지 설명해줄 사람 있는지 궁금함. 실질적 '조언'밖에 못 하는 개인이었다면 낙오자로 볼 텐데 회사 형태로 만들면 오히려 기업이나 정부에서 줄 서서 조언을 구함. 정작 사내 직원이 외부 컨설턴트보다 회사 상황을 더 잘 아는데, 프레젠테이션과 구글링만 하는 외부인이 왜 더 신뢰받고 돈을 버는지 이해가 안 됨

    • 실은, 책임지기 싫은 나쁜 아이디어를 강행할 때 컨설팅을 고용해서 원하는 말이 나올 때까지 반복함. 컨설팅 품질은 중요하지 않고, 인턴이나 AI로 대체해도 충분함. 결과가 망하면 컨설팅 탓으로 돌릴 수 있음. 내부 직원은 회사의 이익을 위한 조언을 하니, 자기 이익을 위해 목소릴 누르거나 무시함. 문제 드러나면 이미 이직해서 레주메 한 줄 추가로 끝남

    • 실제로 내부에 전문성이 전혀 없는 대기업이 많이 있음. 게다가 한 명이 전문가인 척하며 더 나은 사람 채용을 막는 경우도 잦음. 좋은 컨설턴트는 어떻게 해야 하는지 증거까지 곁들여 조언을 해주고, 필요하면 프로젝트 단위로 실행해줌. 진짜 좋은 IT 컨설턴트는 국내에 손꼽힐 여러 스킬셋을 갖고 있어서, 기업이 풀타임 고용하긴 부담스럽지만 월 몇 시간씩 외주로 쓰는 값어치는 확실함. 반면 대형 컨설팅사는 그냥 영업에 목숨 걸고, 결정권자를 VIP 대접함. 출장, 술, 유흥 등 뒷배경도 작동함. 내가 예전에 어떤 프로젝트 자문하다가, 클라이언트 앞에서 엉뚱한 컨설턴트의 Dynamics CRM·Sharepoint 영업 논리를 공개적으로 반박했던 경험도 있음

    • 컨설팅은 단순히 '조언'만이 아님. 실제로 소프트웨어 구현 등 여러 실무를 포함함. 큰 회사일수록 원하는 건 '법적 보장'임. 프로젝트가 망하면 소송대상이 명확해야 함. 결과물의 '퀄리티'는 법적 보장에 비하면 부차적임. 그 역할을 컨설팅사가 맡음. 인력은 많고, 신입사원도 많음. 품질이 부족하면 그냥 더 많은 인원을 추가 투입하거나 연장근무 강요로 대응함. 이런 구조 때문에 '미트팜(meatfarm)'이라고도 불림. 쉽게 망하지도 않음. 소프트웨어 개발도 다단계 하청이나 해외 아웃소싱을 통해 여러 번 수수료를 떼면서 진행함. 일 자체는 어렵고 지루하고 잡일이 많음. 계약서 작성도 한 권짜리 소설 수준으로 상세함. Accenture에서 신입 때, 단순한 웹사이트 스크롤바 색상 변경 견적을 인도 직원이 10라인 코드로 처리해도 3000유로 견적이었던 경험이 있음. 이후 이직하게 됨

    • 이론적으로는, 독특한 문제 해결력이나 특화 도메인 경험이 있는 사람들도 있음. 이런 인재를 모아 회사로 만들고, 프리미엄을 붙여 파는 모델이 가능함. 모든 컨설팅사에 진짜 실력이 없다고 단정하는 건 실수임. 단순한 '경영 컨설팅'만 있는 게 아니라, 테크 컨설팅·보안 등 실제 전문성을 가진 분야도 많음. 실제로 내부 인력으로 해결 못 하거나 내부에서 문제를 일으킨 경험도 종종 봄. 좋은 컨설턴트는 내부 직원의 숨은 인사이트까지 최대한 캐내서 문제 해결에 활용함. 요구사항 수집 및 매니저와의 소통 등 소프트웨어 엔지니어와 겹치는 역량이 있음

    • 현장에서 경험한 컨설팅의 활용 예시는 이럼

      • 정부 R&D 세액공제 관련 규정이 복잡해, 컨설팅사가 개발자를 전부 인터뷰해 R&D 비율을 정확히 산출해줌. 이런 케이스처럼 전문지식이 필요한 영역에서는 외부 전문가를 쓰는 게 실용적임. 이런 인력은 중소기업에선 풀타임으로 둘 수 없으므로 외부 이용이 합리적임
      • 사내 소프트웨어 개발 프로세스를 분석·비교해주는 컨설팅도 있었는데, 무능한 관리자의 경우에는 개선 포인트를 찾는 좋은 도구지만, 우리 같이 이미 성과가 잘 나는 조직엔 낭비였음
  • 정부 등 조직은 대부분 사내 엔지니어의 의견을 무시하고, 오히려 수백만 원을 들여 외부 컨설팅을 고용해서 똑같은 결론을 듣거나 단순히 '우리는 해결책을 위해 무엇인가 하고 있다'는 보여주기 용도로 씀. 때론 경영진이 사내 인력을 불신하거나, 팀을 본업에서 분산시키지 않는 선에서 빠른 결과를 내고 싶어서 쓰기도 함. 일부는 쓸데없는 실적 쌓기나 심지어 소개 수수료나 뒷거래가 동기도 됨

    • 회사 내부자는 문제의 당사자와 판단자가 겹칠 수 있으니, 때로는 외부 컨설팅을 쓰는 게 반드시 나쁜 선택만은 아님. 독립적이고 다소 오해가 있을지언정, 이해관계 없는 시선이 도움이 될 수도 있음

    • 컨설팅이 법적·성과 책임 분산에 쓰이는 중요한 역할을 놓치고 있음

    • 이건 일종의 '실사 시늉(due diligence theater)'임. 특히 경영진은 경쟁사 엔지니어가 뭘 추천할지 알고 싶어하는데, 컨설턴트는 그런 최고의 조언을 대리해주는 역할을 추구함

    • 그걸 간단히 표현하면 '의사결정 세탁(decision laundering)'임. 이미 내부적으로 결정된 방침에 신뢰성을 더하고 싶을 때 외부 컨설팅을 씀. CEO들조차 사석에서 인정함

    • 만약 일이 망가지면, 디렉터는 "우리는 Deloitte의 권고를 따랐다"고 책임 회피할 수 있음. "Bob from IT가 그랬다"고 하는 것과는 확실히 다른 방탄 역할임

  • MBA 출신으로 컨설팅업계에 들어갈 뻔했다가 회심하고 소프트웨어 엔지니어로 전향한 사람임. 컨설팅 프로젝트의 고객은 현실적으로 '임원'임

    1. 임원은 신제품 시장, 인수합병, 수직계열화 등 신규 기획 임무를 받음
    2. 임원은 '기회 규모'를 가늠하고 싶어 함—과연 할 만한 일인가, 대략 어떻게 언제 할 수 있나 등을 알고 싶어 함
    3. 이미 임원은 한두 가지 대략적인 감이나 선호안을 갖고 있음
    4. 컨설턴트는 대부분 그 직감에 힘을 실어주는 것, 혹은 대안을 근사한 숫자와 근거로 가져다줌
    • 예전에 "Elon이라면 어떻게 할까?" 같은 비서를 소개받은 적 있음. 임원들은 경쟁사(혹은 가상의 경쟁자)가 같은 정보 하에서 어떻게 결정할지 궁금해 함. 동시에 중개역할을 하는 컨설팅 조수의 판단도 참고하고 싶어함

    • 업종과 지역에 따라 매우 다름. 내가 일했던 대기업 중에는 컨설팅의 고객이 임원이 아닌, 중간관리자 레벨(임원과 여러 단계 떨어짐)이었던 곳도 있었음

    • 가벼운 리서치 + 듣고 싶어 하는 말을 전달해주는 것이 핵심임. 이런 점에선 AI가 컨설팅 시장을 뒤집을 기회임

    • 이 과정엔 '클라이언트'와 '고객(customer)' 개념의 차이도 중요함

  • 호주 정부를 속이고 세금으로 잘못 쓴다 해도 결과는 부분 환급임

    • Craig Wright 사례를 보면, 유명한 Satoshi 사칭자임. 비트코인 사기 이전에도 수백만 달러의 부가세 및 R&D 세금 환급 사기를 쳤고, 수천만 달러 사기 시도하다 걸려서 호주를 도망가 부분 환급하고 나머지 처벌 없이 해외에서 잘 살고 있음

    • 사실상 이럴 수밖에 없는 구조임. 만약 10명 중 1명이 사기를 치면, 전액 환수는 불가능함. '비용+손해'만 청구하고 끝. 만약 전액 환수가 원칙이라면 계약서가 실체 업무보다 더 길어질 것임

  • 이 사례는 본질적으로 AI 문제가 아니라, 보고서 작성 감독 실패가 더 큰 문제임. 외부 컨설팅의 역할은 조사 결과가 대중의 검증을 견딜 수 있도록 하는 것인데, 여기에 철저히 실패함. 충격적인 건 이런 실적 부진에도 부분 환급만 받고 현재·미래 계약 전반에 대한 재평가가 없다는 점임. 보고서 오류가 AI 때문이든 밤새 잠 안 자고 일한 컨설턴트 때문이든, 결과에 따라 달라져선 안 됨

  • CEO들이 GenAI가 인력을 대체할 거라 오해하는 중인데, 현실은 고객들도 GenAI가 만든 결과물에 대해 훨씬 적은 비용만 지불하려 한다는 점임. 결국 절감 효과는 사라짐. 이제 더 낮은 이윤, 품질 저하, 가격 인하의 악순환임

    • 여기에 덧붙이자면, 고객은 '책임지고 임무를 완수하는 인간'에게 비용을 지불하는 것임. AI는 책임 능력이 없으니, 이런 보고 등에 돈 쓸 가치가 없음

    • 관련해서, Post-AI 시대엔 같은 인원(혹은 더 많은 인원)으로 더 많은 결과를 내는 게 성공의 길임. AI 덕분에 자동화가 흔해지고 일의 값어치가 떨어지는데, 인원만 줄여 운영하겠다는 건 생존 전략이 아님. 오히려 기존엔 불가능하던 '규모와 품질'을 기준치로 맞춰야 함

    • "서비스 가치를 0에 수렴시키는 동시에 새 가치를 창출할 수 있다"가 이런 사고방식임

    • 이번 보고서는 실업자가 구직 활동에 실패하면 지원금을 못 받게끔 만드는 정책—즉 AI에 의해 일자리를 잃을 것이라 우려되는 바로 그 그룹에 대한 문제임

    • 고객 입장에서 GenAI가 만든 결과물을 싸게 이용할 수 있다면, 오히려 매출 확대 요인 아닌지? Deloitte 논란은 별개로, GenAI를 잘 활용하면 진짜로 더 나은 성과도 있음

  • 오랫동안 컨설팅 회사에서 근무한 경험이 있는데, 많은 사람들이 컨설팅에 대해 제대로 알지 못하는 듯함. 물론 비양심적인 부정 사례도 있지만, 컨설팅이 주는 장점과 가치는 실제로 큼. 아직까지도 시장에 남고, 매년 수십억 달러를 버는 것만 봐도 알 수 있음

    • 궁금한 점이 있음. 실제 일상 업무와, 고객사의 어떤 '욕구(itch)'를 긁어주는지, 그리고 HN 이용자들 사이에서 컨설팅 회사를 반대하는 시각과 실제 격차가 뭔지 경험을 더 듣고 싶음
  • 경제적 규모 대비 사회에 가치 창출이 이토록 적은 조직이 빅4 말고 또 있는지 궁금하다는 의견임