9P by neo 2일전 | ★ favorite | 댓글 2개
  • /r/DataScience 서브레딧에 올라온 토론과 답변들 정리
  • 글쓴이는 데이터 사이언스가 검증과 평가 없이 “제너레이티브 AI”라는 이름만으로 실행되는 현실에 회의감을 느낌
  • 실상은 ChatGPT가 생성한 코드로 단순한 z-score 계산만 수행했으며, 모델 성능 평가도 없이 배포 직전까지 진행
  • 커뮤니티에서는 "작동만 하면 배포하자"는 기업 문화, 검증 부족, 책임 회피, 과학적 윤리 희생을 공통적으로 지적함
  • 다양한 실무자들이 비슷한 문제를 겪고 있으며, "유사 과학"으로 전락하는 흐름에 대해 강한 우려를 표현함
  • 하지만 일부는 빠른 실험과 단순한 해법의 실용성도 이해해야 한다는 의견을 제시하며, 균형 있는 관점을 강조함

Data Science Has Become a Pseudo-Science

  • 유럽에서 석·박사를 마치고 10년 간 산업과 학계를 오가며 데이터 사이언스를 수행함
  • 최근 2년 간 "제너레이티브 AI"라는 이름으로 아무 검증 없이 결과를 내세우는 현상이 늘어나고 있음
  • 예시로, 시계열 이상탐지를 목표로 한 프로젝트에서, ChatGPT가 생성한 코드로 평균 차이의 z-score만 계산하고, 어떤 성능 지표도 없이 배포를 논의함
  • 이런 방식은 과학적 사고 없이 블랙박스에 질문하고 그대로 따르는 유사 과학의 모습이며, 질문조차 금기시됨
  • 이에 따라 학계로 돌아가려는 고민도 있으며, 이런 현상이 동료들 사이에서도 공유되는 경험인지 묻고자 게시글을 작성함

댓글 요약

주요 공감 의견

  • “그냥 작동만 하면 배포” 라는 철학이 만연해 있음 (u/Illustrious-Pound266)
  • 검증·로드맵 없이 AI만 강조하다 망한 스타트업 사례도 있음 (u/gothicserp3nt)
  • 고의적이지 않은 편향이나 차별이 제대로 검토되지 않음 (u/tehMarzipanEmperor)
  • 대부분 기업에서 RAG나 AI를 과장 포장하여 정확성보다 쇼잉(보여주기) 중심으로 운용됨 (u/castleking, u/flowanvindir)
  • 현업의 분위기는 "퍼포먼스 극대화 연극(performance theater)" (u/Ty4Readin, u/faulerauslaender)
  • 성과를 내기 위해 성급한 배포, 외형만 화려한 보고서, 측정 없는 AI 도입이 일반화됨 (u/glittering_tiger8996, u/Emergency-Job4136)
  • 이런 상황은 예전부터 존재했고, GenAI는 그것을 더 노골적으로 만든 도구일 뿐이라는 시각도 다수 (u/RoomyRoots, u/303uru, u/TARehman)
  • 설명 가능성은 낮고, 신뢰도도 떨어지지만 빠르기 때문에 채택
  • 기업 의사결정에 대한 설명책임이 사라지고 있음 (u/empathic_psychopath8, u/Jollyhrothgar)

다른 시각

  • 단순한 접근법도 문제를 해결할 수 있다면, 실용적으로 인정할 필요 있음 (u/AnarkittenSurprise)
  • 많은 댓글에서 “DS는 본래부터 비과학적 요소도 섞여 있었으며”, 또는 “이름만 과학” 이라는 의견도 있음 (u/TaiChuanDoAddct, u/Time-Combination4710, u/LighterningZ)
  • AI 도구 사용 그 자체보다 그것을 책임 있게 활용하는 역량이 중요 (u/Dror_sim, u/ResearchMindless6419)
  • 데이터는 있지만 논리가 없음”, “통계 지식 없이 패키지만 돌리는 수준” 에 대한 비판 (u/gyp_casino, u/tmotytmoty)
  • 실제로 중요한 건 도메인 지식과 수학적 사고이며, AI/코딩은 도구에 불과하다는 의견 다수 (u/MightBeRong, u/Dror_sim)

제도 및 교육 문제

  • MSDS 과정이 학문적으로는 유용하지만, 취업과는 무관한 경우가 많음 (u/throwaway_ghost_122)
  • 교육 수준이 낮아지고, 학위만 얻으려는 수요가 늘면서 현업 전반의 품질이 하락 중 (u/Yam_Cheap)
  • 학계 또한 검증되지 않은 논문과 얕은 분석이 많아지는 경향이 있으며, 학계라고 해서 예외는 아님 (u/joule_3am, u/Mishtle)

산업별 경험 공유

  • 보험·헬스케어 분야는 엄격한 규제로 인해 여전히 타당성 검토와 법률 심사를 요구 (u/Mishtle, u/mikka1)
  • 반대로 스타트업, 세일즈, 게임, 일부 제조 분야는 빠른 속도와 쇼잉 위주 (u/Vercingetorex89, u/Brackens_World)
  • 공공 분야에서도 ChatGPT 도입으로 과거의 검증 체계가 무너지고 있음 (u/TheFluffyEngineer, u/joule_3am)

회의와 탈출 고민

  • 현업을 떠나거나 학계로의 전환을 고민 중이라는 실무자가 많음 (u/thro0away12, u/Emotional_Plane_3500, u/candidFIRE)
  • 진짜 실력 있는 사람은 오히려 돋보일 수 있는 기회라는 긍정적 시각도 일부 존재 (u/OddEditor2467, u/sideshowbob01)

풍자와 체념

  • “요즘은 pandas import만 해도 데이터 사이언티스트가 되는 시대” (u/vesnikos)
  • 확률적 사고와 과학적 검증보다는 상사의 기분 맞추기가 중심이 된 현실 (u/tmotytmoty, u/WignerVille)
  • “과거에도 그랬고 지금도 그렇고, DS는 기업에서 과학이라 부르기엔 무리가 있었다”는 현실론 다수 존재 (u/TaiChuanDoAddct, u/LighterningZ)

결론

  • 이 글과 댓글들은 최근 데이터 사이언스 실무가 과학적 정합성과 검증보다는, 빠른 납품과 AI 마케팅에 휘둘리는 현실을 잘 보여줌
  • “제너레이티브 AI”라는 라벨이 합리적 비판을 봉쇄하고 있다는 점, 그리고 검증 없는 코드가 곧바로 배포로 이어지는 구조에 대한 우려가 깊음
  • 학계와 산업 모두 완벽하지 않지만, 데이터 사이언스가 진정한 의미의 ‘과학’이 되기 위해선 커뮤니티 내부의 비판적 사고와 교육, 실무 문화의 성찰이 필요하다는 점에서 논의는 계속될 것으로 보임

고맙습니다. 수정해두었습니다.