사회적 이익을 위한 데이터 사이언스 10년간의 교훈
(drivendata.co)- 2014년 DrivenData를 시작했을 때, 데이터 과학을 사회적 선을 위해 활용하는 것은 초기 단계였음
- 당시 데이터 과학 기술은 Netflix, Amazon과 같은 기업에서 주로 마케팅 및 콘텐츠 추천에 사용되었으며, 비영리 단체, NGO, 사회적 기업, 정부 서비스를 위한 활용 사례는 거의 없었음
-
초기 목표와 배경
- 데이터 과학 인재는 매우 부족하고 고용 비용이 높았으며, 이러한 격차는 사회 문제를 다루는 조직에서 더욱 심각했음
- Harvard Innovation Lab에서 출발해, 사회적 문제를 위한 데이터 과학 기술 격차를 해소하고자 함
- 데이터 과학 및 크라우드소싱의 첨단 기술을 활용해 세계 주요 사회적 과제를 해결하는 것이 목표였음
-
당시의 견해를 반영한 두 가지 인용구
- "빅데이터를 인도주의적 의사결정에 유용하게 만드는 것이 네트워크 시대의 주요 도전이자 기회임" – UN OCHA
- "내 세대의 최고의 인재들이 사람들에게 광고를 클릭하도록 만드는 데 생각을 쏟고 있다… 정말 답답하다." – Jeff Hammerbacher, Facebook 전 데이터 관리자
-
지난 10년간의 변화
- 데이터 과학과 AI를 사회적 영향에 적용하려는 다양한 시도가 이루어짐
- 150개 이상의 프로젝트, 80여 파트너와 협업(세계은행, 빌 & 멜린다 게이츠 재단, NASA 등)
- 75개 이상의 데이터 과학 경진대회를 개최하여 $470만 이상의 상금을 제공
- DrivenData는 지난 10년간 데이터 과학을 통한 사회적 선을 추구하며 모범 사례와 교훈을 축적함
- 이 시점에서 무엇이 효과적이었고, 여전히 도전적인지, 더 나은 미래를 위한 방향성을 함께 고민할 기회를 갖고자 함
10가지 주요 교훈 미리보기
데이터 과학이 잘 작동한 사례
- 데이터 과학은 사회적 문제에 의미 있는 영향을 미침
- 좋은 데이터가 좋은 솔루션을 이끔
- 노력이 구체적 문제와 인간의 필요에 초점이 맞춰질 때 가장 성공적
- 기계와 인간의 강점을 결합할 때 가장 효과적
- 다분야적 관점과 유연성이 조직에 이점 제공
여전히 도전적인 점
- 데이터 과학은 반복적인 R&D 활동이며, 사회적 섹터는 이에 대한 투자가 부족함
- 데이터 과학자를 고용하고 잘 지원하는 것이 어려움
- 오픈소스는 비개발자를 위한 솔루션 개발이 부족함
- 기술 과장(hype wave)이 지나치게 주목받음
- 데이터 과학과 AI는 윤리적 함의가 크지만, 윤리적 사용을 지원하는 도구와 관행이 뒤처짐
시대가 변하고 있음
지난 10년 동안 데이터 및 AI 기술의 발전 속도는 놀라울 정도로 빨랐음. 이를 가능하게 한 주요 혁신 요소는 다음과 같음:
-
컴퓨팅 및 저장소
- 클라우드 컴퓨팅과 저장소의 확대로 필요한 자원을 더 저렴하고 쉽게 이용 가능해짐
- GPU 기반 실험부터 실시간 모델 실행을 위한 확장 가능한 클러스터 배치까지 초기 비용 감소
-
딥러닝
- 딥러닝은 데이터 과학에 혁신적 변화를 가져옴
- 생성적 적대 신경망(GAN), 트랜스포머, 변분 오토인코더, 그래프 신경망 등 효과적인 아키텍처가 폭발적으로 증가
- PyTorch와 TensorFlow를 중심으로 한 생태계가 발전, 도구, 라이브러리, 사전 학습 모델 등이 발전 속도 가속화
-
기술 접근성의 대중화
- 데이터 과학이 "21세기의 가장 섹시한 직업"으로 불리며, 학습 기회가 폭발적으로 증가
- MOOCs, 부트캠프, 데이터 경진대회 등으로 더 많은 사람이 데이터 과학 기본 기술을 습득
-
생성형 AI
- 대규모 언어 모델(LLM)의 등장으로 업무 방식이 변화
- 복잡한 작업 소요 시간을 단축하고 새로운 가능성을 열어줌
- 생성형 AI가 일시적 유행인지 실질적 혁신인지는 검토 중이나, AI가 지속적으로 활용될 것은 분명함
이러한 기술적 변화에도 불구하고, 특정 기술을 초월해 여러 공통 패턴이 관찰되고 있음. 이 글에서는 지난 10년간 잘 작동했던 점과 여전히 도전 과제가 되는 점을 중심으로 논의함.
데이터 과학이 잘 작동한 사례
데이터 과학이 사회적 문제에 의미 있는 영향을 미침
-
10년 전 상황
- 데이터 과학 도구의 잠재력은 명확했지만, 사회적 영향을 위한 적용은 제한적이었음
- 당시 논의는 몇 가지 사례에 국한되었고, 미래 가능성에 대한 아이디어 중심으로 진행됨
-
현재의 발전
- 머신러닝 모델이 의료, 자연자원 관리 등 다양한 분야에서 의사결정에 영향을 미침
- 데이터 과학은 해로운 녹조, 지속 불가능한 어업, 기후 변화로 인한 자연재해 등의 문제를 관리하고, 금융 포용성과 야생동물 보존에 기여
- 공공 영역에서는 데이터 시각화가 언론 보도와 메시지 전달의 주요 매체로 자리 잡음
- 예: COVID-19 확산 방지 캠페인, WHO 대시보드
-
위성 이미지를 활용한 구체적 사례
- 예멘에서 위성 이미지를 사용해 농작물 유형과 기후 위험을 분석, 세계은행의 식량 안보 프로그램에 정보 제공
-
AI의 과학적 진보 기여
- 알파폴드(AlphaFold): 단백질 구조 예측 모델, 수년이 걸리던 작업을 몇 시간 만에 수행하며 과학자들에게 모든 단백질 구조를 무료로 제공
- 트랜스포머 모델: 멀티모달 밈에서 혐오 발언 탐지에 적용
- 개체 식별 기술: 멸종위기종 추적 개선(고래 등) 및 다양한 종으로 확장
-
사회 섹터에서의 변화
- 2010년대 중반에는 데이터 활용 논의가 주로 "영향 측정"에 집중
- 이제는 데이터 과학 도구가 조직의 운영 방식을 변화시키고, 새로운 역량을 부여하는 데 중점
- 현재 논의는 데이터 과학과 AI가 측정 가능한 것을 넘어 무엇을 "할 수 있는지"에 초점
좋은 데이터가 좋은 솔루션을 이끌며, 데이터 접근성이 크게 개선됨
-
데이터의 일상적 역할 증가
- 구매, 응급 서비스 이용, 병원 방문 등 모든 활동에서 데이터가 생성됨
- 가전제품, 웨어러블 기기, 차량, 휴대폰, 애플리케이션 등이 사용 데이터를 수집
- 센서와 카메라 기술의 발전으로 이미지 및 비디오 데이터의 활용이 증가
-
데이터 활용의 두 가지 단계
- 데이터를 디지털 방식으로 기록하고 관찰 가능하게 만듦
- 데이터를 활용해 학습하며 패턴을 발견하는 단계로 진화
-
데이터가 기반이 되는 AI 및 머신러닝
- 더 많은 양과 품질의 데이터는 새로운 패턴 탐색과 알고리즘 개발을 지원
- 예: 암 탐지, Spotify 추천 알고리즘, ChatGPT 훈련 데이터
-
Monica Rogati의 데이터 과학 계층 구조
- 데이터 과학의 고급 기능은 강력한 데이터 기반이 필요
- 데이터 인프라에 대한 현명한 투자가 상위 기능 구현의 토대가 됨
-
사회적 가치를 위한 데이터 활용
- 정부 및 대형 기관들이 공공 데이터 공개를 확대
- DrivenData가 활용한 데이터 유형:
- 기상 데이터, 교통 데이터, OpenStreetMap 데이터: 항공 교통 계획, 재난 복원력 지원
- 위성 이미지: 홍수 범위 매핑, 산림 바이오매스 추정
- 모바일 거래 데이터: 금융 행동과 태도 분석
- 설문 조사 데이터: 대규모 의견 및 행동 통찰
- 오디오 녹음: 아동 문해 수준 분류
- 고해상도 이미지: 흑색종 재발 가능성 예측
- 텍스트 데이터: 의사 소견서의 임상 개념 자동 분석
-
데이터 접근성과 활용성의 중요성
- 데이터는 단순히 공개되는 것만으로 충분하지 않음
- 기계 판독 가능한 형식, 명확한 문서화, 사용 사례가 제공되면 참여와 활용도 증가
- 많은 조직이 데이터 수집에 투자하지만, 이를 활용하는 추가 투자에는 소홀함
- 데이터 문서화와 응용 사례가 챌린지 상금 못지않게 중요한 역할을 함
노력이 구체적 문제와 인간의 필요에 초점이 맞춰질 때 가장 성공적임
-
기술 중심 접근의 함정
- 사회적 임팩트 조직은 종종 최신 기술 트렌드를 따라잡으려 노력
- "빅 데이터"와 AI 도구가 마치 만능 해결책처럼 보이지만, 실제로는 구체적인 문제 해결에 초점이 맞춰질 때 효과적임
-
성공적인 프로젝트 설계의 핵심
- 특정 사용자와 문제를 정의하고, 이를 해결할 수 있는 측정 가능한 목표를 설정
- 인간 중심 설계 도구를 활용해 사람들에게 "원하는 것"을 파악하고, 기술적으로 "가능한 것"을 넘어선 솔루션 개발
-
구체적 사례
-
녹조 감지(CyFi)
- NASA와 협업하여 위성 이미지를 통해 유해한 시아노박테리아 녹조를 탐지
- 물 관리자가 녹조 상태를 정확히 평가하고 자원 할당을 효율적으로 수행할 수 있도록 지원
-
야생동물 식별(Zamba)
- Max Planck 연구소와 협업해 카메라 트랩 데이터를 활용한 동물 자동 식별 도구 개발
- 연구자 피드백을 반영해 UI를 개선한 Zamba Cloud로 사용 편의성 증대
-
녹조 감지(CyFi)
-
사용자 관점의 중요성
-
문제 정의
- 사용자 인터뷰와 의견 수렴을 통해 문제와 요구 사항을 명확히 이해
- 데이터 포인트의 배경에 있는 인간적 관점을 반영
-
솔루션 전달
- 사용자가 솔루션을 효과적으로 활용하고 이점을 이해할 수 있도록 UI/UX 테스트와 명확한 커뮤니케이션 필요
- 모델의 강점과 한계를 직관적으로 파악하도록 지원하며, 실제 사례를 통해 활용 방법을 설명
-
문제 정의
-
결론
- 데이터 과학자의 역할은 기술적 능력과 사회적 필요를 연결하는 것
- 최신 기술에 매몰되지 않고, 문제 해결과 실질적인 결과에 초점을 맞춘 프로젝트가 가장 효과적임
기계와 인간의 강점을 결합할 때 솔루션이 가장 효과적임
-
AI 과장된 기대의 위험성
- 데이터 과학 모델과 AI는 전능하지 않으며 모든 모델은 어느 정도 한계가 있음
- 단순히 AI를 도입한다고 성공이 보장되지 않음
- 최적의 솔루션은 기계와 인간의 강점을 결합한 시스템에서 나옴
-
Zamba 도구 사례
- Zamba는 야생동물 카메라 트랩 영상에서 동물이 있는지 여부를 확률적으로 예측
- 모델은 때때로 틀릴 수 있으나, 제공하는 확률을 통해 효율적인 검토 전략 수립 가능
- 예: 침팬지가 나올 가능성이 높은 영상부터 검토하거나, 빈 영상으로 간주할 확률 임계값 설정
- 결과적으로 전체 영상의 5% 미만을 검토하면서 85%의 침팬지 영상을 식별 가능
-
기계-인간 협업의 성과
- 유방암 AI 스크리닝 사례: 방사선 전문의와 AI가 협업 시 각각 단독보다 높은 정확도 달성
- AI 해석 가능성과 설명 가능성 강조: 사람이 AI 결과를 평가하고 맥락에 통합할 수 있는 정보 제공
- 예: 고래 식별 경쟁에서 모델이 개별 고래를 매칭하는 특징 시각화 제공
-
생성형 AI에서의 유사 패턴
- 인간 피드백이 ChatGPT와 같은 유용한 도구의 발전에 필수적
- 피드백 데이터를 통해 모델이 점점 더 어려운 사례를 학습하도록 개선 가능
-
에러 비용 및 개선점 평가
- 두 가지 질문으로 시스템 설계를 개선:
- "완벽한 모델이 있다면 어떻게 사용할 것인가?"
- "그 모델이 가끔 틀린다면 어떻게 대처할 것인가?"
- 시스템의 오류 허용 한계와 인간 검토가 필요한 부분을 파악
- 두 가지 질문으로 시스템 설계를 개선:
-
조직의 교훈
- 2021년 네덜란드 정부 사례: 부적절한 알고리즘으로 26,000가구가 잘못된 사회복지 사기로 고발됨
- 적절한 인간 검토 없이 알고리즘에 의존하는 것은 높은 사회적 비용을 초래
- 반대로, 알고리즘과 인간의 강점을 결합하면 효율성과 효과를 극대화 가능
다분야적 관점과 유연성이 조직에 도움을 줌
-
다양한 분야에 걸친 프로젝트 경험
- 금융 포용성, 기후 행동, 헬스케어 등 다양한 분야를 다루며 다분야적 관점의 이점을 확인
- 특정 맥락에서의 기계 학습 패턴을 다른 분야로 확장 적용 가능
- 예: 켈프 숲 보존을 위한 컴퓨터 비전 모델과 자궁경부 생검 병변 탐지를 위한 모델 간 응용
-
접근법의 융통성
- 농작물 해충의 조기 발견과 이력서에서 기술 추출 같은 서로 다른 문제도 자연어 인식(NER)에 기반
- 기존 접근법의 교훈과 경험을 활용해 다른 문제에 적은 비용으로 적용 가능
-
구체적 사례
- WhatsApp 메시지에서 농작물, 해충, 질병 및 화학물질을 인식하는 자연어 처리 접근법
- 소농들이 새로운 경향을 파악하고 과학 기반 조언을 개선하도록 지원
-
전문성과 사용자 관점의 균형
- 도메인 전문가와의 협업을 통해 문제에 적합한 맥락을 보장
- 데이터 과학 과정에서 사용자 관점을 포함해 적합한 솔루션을 설계
-
"할 만한 가치가 있는 작업"을 파악
- 기술적 전문성만으로는 충분하지 않으며, 공감, 의사소통, 호기심, 유연성이 필요
- 기계 학습이 가치를 추가할 수 있는 영역을 브레인스토밍하며, 해당 접근법이 누구를 위한 것이고 어떻게 사용될지 깊이 이해
-
조직의 다양한 니즈 충족
- 탐색적 연구부터 프로토타이핑 및 생산 단계까지 조직별 요구가 다름
- 대형 데이터 제공 조직(Candid, NASA 등)부터 데이터 시스템을 처음 구축하는 조직까지 다양한 파트너와 협력
- 기술의 적합성을 유지하면서도 풍부한 경험에서 유연성을 이끌어 내는 것이 중요
여전히 도전적인 부분
데이터 과학은 반복적이며, 사회적 섹터는 R&D에 대한 투자가 부족함
-
R&D의 본질과 가치
- 연구 개발은 학습 과정으로, 자본 투자, 실험, 성찰, 실패를 감수할 의지가 필요
- 확실한 방법과 단기적 접근으로는 사회적 섹터에서 필요한 문제 범위를 해결하기 어렵다는 한계
- 장기적 투자와 비선형적인 혁신이 주요한 성과를 창출
-
사회적 섹터의 R&D 투자 부족
- 2022년 NSF 조사에 따르면, 대형 비영리 단체 중 94%가 R&D 활동을 전혀 수행하지 않음
- 데이터 과학이 주로 R&D 활동임에도 불구하고, 이 분야에 대한 투자 미비
-
데이터 과학의 반복적 특성
- 데이터 과학은 최적의 결과를 창출하고 서비스 효율성을 개선하기 위해 반복적인 학습과 피드백 루프를 활용
- 하버드 데이터 과학 과정 및 CRISP-DM(데이터 마이닝 표준 프로세스)처럼 반복성을 강조한 프레임워크 활용
-
인간 중심 데이터 과학의 중요성
- 학습 과정이 효과적인 솔루션 설계를 중심으로 이루어지며, 반복 가능한 혁신 프레임워크와 결합
- 인간 중심 설계를 통해 실제 요구와 솔루션 간의 연계성을 강화
-
민간 기업의 R&D 성공 사례
- 민간 기업들은 R&D 프로세스를 통해 데이터 활용 가치를 명확히 인지
- 최근 AI 혁신의 사례는 지속적인 R&D 투자가 없었다면 불가능했을 성과
-
결론
- 데이터 R&D 프로젝트의 초기 결과는 불확실하지만, 데이터에서 가치를 창출하는 프로세스 자체는 입증된 방법론
- R&D에 대한 지속적이고 장기적인 투자는 혁신을 가속화하고 사회적 섹터의 도전 과제를 해결하는 데 필수적
데이터 과학자를 고용하고 지원하는 것이 어렵고, 혼자 일하는 데이터 과학자는 만족도가 낮음
-
조직의 관점에서의 어려움
-
채용
- 기존 데이터 과학자가 없는 상태에서 적합한 후보자를 식별하고 평가하기 어려움
- "데이터 과학자"라는 용어가 다양한 기술과 경험을 포함해 정의가 불명확
-
인재 유치 및 유지
- 데이터 과학자에 대한 높은 수요로 경쟁적인 채용 시장 형성
- 사회적 문제 해결이라는 동기 부여 요소 외에도, 흥미로운 기술 작업, 경쟁력 있는 급여, 전문성 개발 기회를 제공해야 함
- 초기 단계의 채용에서는 이러한 요소를 갖추기 더욱 어려움
-
관리 및 지원
- 문제 범위를 명확히 정의하고 방향성, 인프라, 데이터를 제공해야 데이터 과학자가 생산성을 유지할 수 있음
- 기술적 배경이 부족하면 작업 난이도를 과소평가하거나 과대평가하기 쉬움
-
채용
-
개발자의 관점에서의 어려움
-
학습 및 성장
- 데이터 과학은 빠르게 발전하는 분야로, 팀 내에서 배우고 성장할 기회가 중요
- 코드 리뷰, 모델 피드백, 작업 부담 분담이 어려운 환경에서는 성장 기회가 제한
-
방향성 및 지원 부족
- 업무를 제대로 지원받지 못하면 데이터 과학자의 만족도와 생산성이 저하
-
업무의 즐거움
- 동료와 문제를 논의하고 해결하는 과정이 업무 만족도를 높임
- 외부 네트워크에서 이를 해결할 수도 있지만, 조직 내에서의 협력이 더 효율적
-
학습 및 성장
-
변화의 조짐
- 최근 사회적 섹터 조직에서 자체 데이터 팀을 구성하는 사례 증가
- DrivenData는 초기 데이터 과학자와 엔지니어 채용, 온보딩, 작업 전환을 지원하는 파트너로 참여
- 외부 데이터 과학 전문팀과 협력해 유연한 역량을 제공하는 방식이 조직과 데이터 과학자 모두에게 유리
-
미래 전망
- 일부 조직이 데이터 팀 구축에 성공하기 시작했지만, 데이터 과학 기술에 대한 수요는 여전히 높음
- 데이터 팀을 처음부터 구축하는 과제는 지속될 것으로 예상
오픈소스는 비개발자를 위한 솔루션을 충분히 개발하지 않음
-
오픈소스의 한계
- 오픈소스 소프트웨어는 종종 개발자 커뮤니티가 사용자와 동일하기 때문에 효과적으로 발전
- 기여자들은 자신이 사용할 도구를 개선하기 위해 동기 부여를 받음
- 그러나 비개발자나 비전문가를 대상으로 한 도구는 이러한 동기가 작용하지 않음
-
비전문가 대상 도구의 과제
- 데이터 과학 프로젝트에서 비개발자를 위한 방법론과 도구를 개발하는 경우 많음
- 오픈소스로 공개하더라도 지속적 투자와 개발이 이루어지지 않으면 프로젝트가 정체되거나 중단
- 실질적으로 성공적인 솔루션으로 발전하려면 프로토타입 단계 이후 추가 개발과 현실적인 파일럿 테스트가 필요
-
구체적 사례: Concept to Clinic
- 2017-18년, AI를 활용해 방사선사가 CT 스캔을 처리하도록 돕는 오픈 애플리케이션 개발
- 기여를 유도하기 위해 기여자들에게 포인트와 금전적 보상을 제공하는 구조적 인센티브 시스템 도입
- 이러한 접근이 없었다면 프로젝트 개발이 불가능했을 가능성이 높음
-
지속 가능한 오픈소스 성공을 위한 요건
- 단순히 오픈소스로 공개하는 것만으로는 장기적 영향력 보장 불가능
- 프로토타입에서 최종 사용자 대상 솔루션으로 발전하기 위해 명확한 로드맵과 지속적 자금 지원 필요
- 중요한 애플리케이션을 개발할 때 오픈소스는 여정의 일부일 뿐, 최종 목표가 되어서는 안 됨
기술 과장이(hype wave) 지나치게 주목받음
-
사회적 섹터와 기술 혁신
- 사회적 섹터는 지난 10년 동안 새로운 기술 혁신의 물결과 밀접하게 연관됨
- 조직은 제한된 자원 내에서 효율성을 높이고자 새로운 기술을 도입하려는 유혹을 받음
- 최신 기술 동향을 따라가지 않으면 뒤처질 것이라는 압박으로 전략을 자주 변경
-
과장된 기술 도입의 문제점
- 기술 과장에서 핵심적인 혁신 요소를 선별해내기 어려움
- 기술 도입이 과도한 기대와 미흡한 실행으로 이어지는 경우 많음
- 예:
- 블록체인: 높은 기대치에 비해 사회적 섹터에 실질적인 혜택은 미미
- 모바일 앱: 반드시 필요하지 않은 경우에도 "필수"라는 압박으로 비효율적 비용 지출
-
전문 기술 조직의 중요성
- 기술 과장을 효율적으로 다룰 수 있는 기술 전문가 조직이 가장 높은 성과를 냄
- DrivenData는 DataKind, DSSG Fellowship, Delta Analytics 등과 협력하며 기술 전문성을 활용
- 그러나 이러한 전문가 그룹도 과거 기술 과장에서 얻은 교훈을 체계적으로 축적하기 어려움
-
필요한 변화: 기술 과장을 다루는 ‘방파제’
- 과도한 기대에서 실질적인 혁신을 분리하고 핵심 발전 사항을 식별할 역량 필요
- 최첨단 기술에 대한 이해와 사회적 섹터에 대한 깊은 통찰을 겸비한 기술 리더십이 필수
- 이러한 리더십과 생태계가 현재 부족하며, 이를 통해 지속적이고 성숙한 접근 방식 구축 필요
-
AI와 같은 최신 기술에 대한 전략적 접근
- AI의 잠재력은 방대하지만 단순한 열광이 아닌 신중한 전략과 깊은 전문성 요구
- 데이터 기반의 탄탄한 기초를 구축하지 않으면 기술 과장이 반복되는 비효율적인 사이클로 이어질 위험
- 근본적인 투자와 계획 없이는 사회적 섹터의 기술 혁신이 진정한 성과를 내기 어려움
데이터 과학과 AI는 윤리적 함의가 크지만, 급격한 도입이 이를 지원하는 도구와 관행을 앞지름
-
데이터 과학과 AI의 확대와 윤리적 중요성
- 데이터 과학과 머신러닝은 의료, 재난 대응, 형사 판결 등 다양한 분야에 통합됨
- 잘못된 활용 시 초래되는 위험이 이전보다 훨씬 커짐
-
윤리적 고려가 부족한 현실
- 데이터 과학자들은 모델과 파이프라인의 윤리적 함의를 이해하는 독특한 관점을 지님
- 그러나 이러한 관점은 데이터 과학 프로젝트의 생애 주기에 통합되지 않는 경우가 많음
-
윤리적 트레이드오프를 다루기 위한 오픈소스 체크리스트 개발
- 윤리적 트레이드오프를 논의할 수 있도록 데이터 과학 워크플로에 통합
- 주요 원칙:
- 윤리적 결정은 특정 맥락에서 가장 중요한 트레이드오프를 인식하고 책임감 있는 진행과 피해 최소화를 목표로 해야 함
- 데이터 수집, 저장, 분석, 모델링, 배포 등 프로젝트 전 단계에서 윤리적 문제가 발생
- 윤리적 논의는 급박한 일정과 요구로 인해 종종 우선순위에서 밀려남
- 이를 방지하려면 윤리적 질문을 워크플로의 다른 측면에 통합하고 시간을 의도적으로 할당해야 함
-
알고리즘 공정성과 편향 완화
- 편향된 데이터를 학습한 모델은 불평등을 재생산하므로 이를 식별하고 완화하려는 기술 개발 중
- 예: Wellcome Trust와 협력해 심리적 스트레스 예측 모델에서 공정성을 고려한 편향 완화 사례 제작
- 정량화된 공정성 지표를 통해 편향을 분석하고 완화 방법 제공
-
AI 시대 윤리적 고려의 중요성
- AI의 빠른 확산과 동시에 기업들이 비용 절감을 위해 책임 있는 AI 팀을 해체
- 사회적 섹터에서는 수혜자에 대한 책임감이 높아 윤리적 실패의 대가가 더 큼
- 윤리적 관행을 강화하지 않으면 AI 도입이 더 큰 문제를 초래할 위험이 있음
-
결론
- AI 도입을 지원하는 윤리적 도구와 관행의 구축이 그 어느 때보다 중요
- 기술의 책임감 있는 활용을 통해 사회적 섹터에서 신뢰와 지속 가능성을 보장해야 함
앞으로의 전망
-
데이터 과학의 변화와 기회
- 지난 10년간 데이터 과학은 사회적 섹터에서 중요한 변화를 이끌며 성공과 과제를 동시에 경험
- 데이터와 AI의 잠재력에 대한 인식이 높아졌지만, 여전히 해결해야 할 큰 질문이 존재:
- 지속적인 기술 발전을 어떻게 가장 큰 사회적 문제에 실질적으로 적용할 것인가?
- 혜택이 소수 대기업에만 집중되지 않도록 어떻게 보장할 것인가?
- 자연과 인류를 위한 책임감 있는 기술 배치를 어떻게 실현할 것인가?
-
경험에서 얻은 교훈의 중요성
- 과거 경험에서 얻은 교훈을 기반으로 한 노력이 가장 큰 성과를 냄
- DrivenData는 데이터와 AI를 사회적 선을 위해 사용하는 파트너, 클라이언트, 개발자 커뮤니티의 일원이 된 것을 자랑스럽게 여김
- 유사한 주제에 관심이 있거나 추가적인 아이디어가 있다면 공유를 환영
-
미래를 향한 기대
- 지난 10년이 눈부셨던 만큼, 앞으로의 10년은 더욱 큰 변화를 가져올 것으로 예상
- 해야 할 일이 많으며, 배워야 할 것도 많음
- 이러한 도전에 맞서 새로운 가능성을 모색하고, 더 나은 사회적 영향을 창출할 미래를 기대