12P by xguru 6일전 | ★ favorite | 댓글 1개
  • 2014년 DrivenData를 시작했을 때, 데이터 과학을 사회적 선을 위해 활용하는 것은 초기 단계였음
  • 당시 데이터 과학 기술은 Netflix, Amazon과 같은 기업에서 주로 마케팅 및 콘텐츠 추천에 사용되었으며, 비영리 단체, NGO, 사회적 기업, 정부 서비스를 위한 활용 사례는 거의 없었음
  • 초기 목표와 배경
    • 데이터 과학 인재는 매우 부족하고 고용 비용이 높았으며, 이러한 격차는 사회 문제를 다루는 조직에서 더욱 심각했음
    • Harvard Innovation Lab에서 출발해, 사회적 문제를 위한 데이터 과학 기술 격차를 해소하고자 함
    • 데이터 과학 및 크라우드소싱의 첨단 기술을 활용해 세계 주요 사회적 과제를 해결하는 것이 목표였음
  • 당시의 견해를 반영한 두 가지 인용구
    • "빅데이터를 인도주의적 의사결정에 유용하게 만드는 것이 네트워크 시대의 주요 도전이자 기회임" – UN OCHA
    • "내 세대의 최고의 인재들이 사람들에게 광고를 클릭하도록 만드는 데 생각을 쏟고 있다… 정말 답답하다." – Jeff Hammerbacher, Facebook 전 데이터 관리자
  • 지난 10년간의 변화
    • 데이터 과학과 AI를 사회적 영향에 적용하려는 다양한 시도가 이루어짐
    • 150개 이상의 프로젝트, 80여 파트너와 협업(세계은행, 빌 & 멜린다 게이츠 재단, NASA 등)
    • 75개 이상의 데이터 과학 경진대회를 개최하여 $470만 이상의 상금을 제공
  • DrivenData는 지난 10년간 데이터 과학을 통한 사회적 선을 추구하며 모범 사례와 교훈을 축적함
  • 이 시점에서 무엇이 효과적이었고, 여전히 도전적인지, 더 나은 미래를 위한 방향성을 함께 고민할 기회를 갖고자 함

10가지 주요 교훈 미리보기

데이터 과학이 잘 작동한 사례

  1. 데이터 과학은 사회적 문제에 의미 있는 영향을 미침
  2. 좋은 데이터가 좋은 솔루션을 이끔
  3. 노력이 구체적 문제와 인간의 필요에 초점이 맞춰질 때 가장 성공적
  4. 기계와 인간의 강점을 결합할 때 가장 효과적
  5. 다분야적 관점과 유연성이 조직에 이점 제공

여전히 도전적인 점

  1. 데이터 과학은 반복적인 R&D 활동이며, 사회적 섹터는 이에 대한 투자가 부족함
  2. 데이터 과학자를 고용하고 잘 지원하는 것이 어려움
  3. 오픈소스는 비개발자를 위한 솔루션 개발이 부족함
  4. 기술 과장(hype wave)이 지나치게 주목받음
  5. 데이터 과학과 AI는 윤리적 함의가 크지만, 윤리적 사용을 지원하는 도구와 관행이 뒤처짐

시대가 변하고 있음

지난 10년 동안 데이터 및 AI 기술의 발전 속도는 놀라울 정도로 빨랐음. 이를 가능하게 한 주요 혁신 요소는 다음과 같음:

  • 컴퓨팅 및 저장소
    • 클라우드 컴퓨팅과 저장소의 확대로 필요한 자원을 더 저렴하고 쉽게 이용 가능해짐
    • GPU 기반 실험부터 실시간 모델 실행을 위한 확장 가능한 클러스터 배치까지 초기 비용 감소
  • 딥러닝
    • 딥러닝은 데이터 과학에 혁신적 변화를 가져옴
    • 생성적 적대 신경망(GAN), 트랜스포머, 변분 오토인코더, 그래프 신경망 등 효과적인 아키텍처가 폭발적으로 증가
    • PyTorch와 TensorFlow를 중심으로 한 생태계가 발전, 도구, 라이브러리, 사전 학습 모델 등이 발전 속도 가속화
  • 기술 접근성의 대중화
    • 데이터 과학이 "21세기의 가장 섹시한 직업"으로 불리며, 학습 기회가 폭발적으로 증가
    • MOOCs, 부트캠프, 데이터 경진대회 등으로 더 많은 사람이 데이터 과학 기본 기술을 습득
  • 생성형 AI
    • 대규모 언어 모델(LLM)의 등장으로 업무 방식이 변화
    • 복잡한 작업 소요 시간을 단축하고 새로운 가능성을 열어줌
    • 생성형 AI가 일시적 유행인지 실질적 혁신인지는 검토 중이나, AI가 지속적으로 활용될 것은 분명함

이러한 기술적 변화에도 불구하고, 특정 기술을 초월해 여러 공통 패턴이 관찰되고 있음. 이 글에서는 지난 10년간 잘 작동했던 점과 여전히 도전 과제가 되는 점을 중심으로 논의함.

데이터 과학이 잘 작동한 사례

데이터 과학이 사회적 문제에 의미 있는 영향을 미침

  • 10년 전 상황
    • 데이터 과학 도구의 잠재력은 명확했지만, 사회적 영향을 위한 적용은 제한적이었음
    • 당시 논의는 몇 가지 사례에 국한되었고, 미래 가능성에 대한 아이디어 중심으로 진행됨
  • 현재의 발전
    • 머신러닝 모델이 의료, 자연자원 관리 등 다양한 분야에서 의사결정에 영향을 미침
    • 데이터 과학은 해로운 녹조, 지속 불가능한 어업, 기후 변화로 인한 자연재해 등의 문제를 관리하고, 금융 포용성과 야생동물 보존에 기여
    • 공공 영역에서는 데이터 시각화가 언론 보도와 메시지 전달의 주요 매체로 자리 잡음
      • 예: COVID-19 확산 방지 캠페인, WHO 대시보드
  • 위성 이미지를 활용한 구체적 사례
    • 예멘에서 위성 이미지를 사용해 농작물 유형과 기후 위험을 분석, 세계은행의 식량 안보 프로그램에 정보 제공
  • AI의 과학적 진보 기여
    • 알파폴드(AlphaFold): 단백질 구조 예측 모델, 수년이 걸리던 작업을 몇 시간 만에 수행하며 과학자들에게 모든 단백질 구조를 무료로 제공
    • 트랜스포머 모델: 멀티모달 밈에서 혐오 발언 탐지에 적용
    • 개체 식별 기술: 멸종위기종 추적 개선(고래 등) 및 다양한 종으로 확장
  • 사회 섹터에서의 변화
    • 2010년대 중반에는 데이터 활용 논의가 주로 "영향 측정"에 집중
    • 이제는 데이터 과학 도구가 조직의 운영 방식을 변화시키고, 새로운 역량을 부여하는 데 중점
    • 현재 논의는 데이터 과학과 AI가 측정 가능한 것을 넘어 무엇을 "할 수 있는지"에 초점

좋은 데이터가 좋은 솔루션을 이끌며, 데이터 접근성이 크게 개선됨

  • 데이터의 일상적 역할 증가
    • 구매, 응급 서비스 이용, 병원 방문 등 모든 활동에서 데이터가 생성됨
    • 가전제품, 웨어러블 기기, 차량, 휴대폰, 애플리케이션 등이 사용 데이터를 수집
    • 센서와 카메라 기술의 발전으로 이미지 및 비디오 데이터의 활용이 증가
  • 데이터 활용의 두 가지 단계
    1. 데이터를 디지털 방식으로 기록하고 관찰 가능하게 만듦
    2. 데이터를 활용해 학습하며 패턴을 발견하는 단계로 진화
  • 데이터가 기반이 되는 AI 및 머신러닝
    • 더 많은 양과 품질의 데이터는 새로운 패턴 탐색과 알고리즘 개발을 지원
    • 예: 암 탐지, Spotify 추천 알고리즘, ChatGPT 훈련 데이터
  • Monica Rogati의 데이터 과학 계층 구조
    • 데이터 과학의 고급 기능은 강력한 데이터 기반이 필요
    • 데이터 인프라에 대한 현명한 투자가 상위 기능 구현의 토대가 됨
  • 사회적 가치를 위한 데이터 활용
    • 정부 및 대형 기관들이 공공 데이터 공개를 확대
    • DrivenData가 활용한 데이터 유형:
      • 기상 데이터, 교통 데이터, OpenStreetMap 데이터: 항공 교통 계획, 재난 복원력 지원
      • 위성 이미지: 홍수 범위 매핑, 산림 바이오매스 추정
      • 모바일 거래 데이터: 금융 행동과 태도 분석
      • 설문 조사 데이터: 대규모 의견 및 행동 통찰
      • 오디오 녹음: 아동 문해 수준 분류
      • 고해상도 이미지: 흑색종 재발 가능성 예측
      • 텍스트 데이터: 의사 소견서의 임상 개념 자동 분석
  • 데이터 접근성과 활용성의 중요성
    • 데이터는 단순히 공개되는 것만으로 충분하지 않음
    • 기계 판독 가능한 형식, 명확한 문서화, 사용 사례가 제공되면 참여와 활용도 증가
    • 많은 조직이 데이터 수집에 투자하지만, 이를 활용하는 추가 투자에는 소홀함
    • 데이터 문서화와 응용 사례가 챌린지 상금 못지않게 중요한 역할을 함

노력이 구체적 문제와 인간의 필요에 초점이 맞춰질 때 가장 성공적임

  • 기술 중심 접근의 함정
    • 사회적 임팩트 조직은 종종 최신 기술 트렌드를 따라잡으려 노력
    • "빅 데이터"와 AI 도구가 마치 만능 해결책처럼 보이지만, 실제로는 구체적인 문제 해결에 초점이 맞춰질 때 효과적임
  • 성공적인 프로젝트 설계의 핵심
    • 특정 사용자와 문제를 정의하고, 이를 해결할 수 있는 측정 가능한 목표를 설정
    • 인간 중심 설계 도구를 활용해 사람들에게 "원하는 것"을 파악하고, 기술적으로 "가능한 것"을 넘어선 솔루션 개발
  • 구체적 사례
    • 녹조 감지(CyFi)
      • NASA와 협업하여 위성 이미지를 통해 유해한 시아노박테리아 녹조를 탐지
      • 물 관리자가 녹조 상태를 정확히 평가하고 자원 할당을 효율적으로 수행할 수 있도록 지원
    • 야생동물 식별(Zamba)
      • Max Planck 연구소와 협업해 카메라 트랩 데이터를 활용한 동물 자동 식별 도구 개발
      • 연구자 피드백을 반영해 UI를 개선한 Zamba Cloud로 사용 편의성 증대
  • 사용자 관점의 중요성
    • 문제 정의
      • 사용자 인터뷰와 의견 수렴을 통해 문제와 요구 사항을 명확히 이해
      • 데이터 포인트의 배경에 있는 인간적 관점을 반영
    • 솔루션 전달
      • 사용자가 솔루션을 효과적으로 활용하고 이점을 이해할 수 있도록 UI/UX 테스트와 명확한 커뮤니케이션 필요
      • 모델의 강점과 한계를 직관적으로 파악하도록 지원하며, 실제 사례를 통해 활용 방법을 설명
  • 결론
    • 데이터 과학자의 역할은 기술적 능력과 사회적 필요를 연결하는 것
    • 최신 기술에 매몰되지 않고, 문제 해결과 실질적인 결과에 초점을 맞춘 프로젝트가 가장 효과적임

기계와 인간의 강점을 결합할 때 솔루션이 가장 효과적임

  • AI 과장된 기대의 위험성
    • 데이터 과학 모델과 AI는 전능하지 않으며 모든 모델은 어느 정도 한계가 있음
    • 단순히 AI를 도입한다고 성공이 보장되지 않음
    • 최적의 솔루션은 기계와 인간의 강점을 결합한 시스템에서 나옴
  • Zamba 도구 사례
    • Zamba는 야생동물 카메라 트랩 영상에서 동물이 있는지 여부를 확률적으로 예측
    • 모델은 때때로 틀릴 수 있으나, 제공하는 확률을 통해 효율적인 검토 전략 수립 가능
      • 예: 침팬지가 나올 가능성이 높은 영상부터 검토하거나, 빈 영상으로 간주할 확률 임계값 설정
      • 결과적으로 전체 영상의 5% 미만을 검토하면서 85%의 침팬지 영상을 식별 가능
  • 기계-인간 협업의 성과
    • 유방암 AI 스크리닝 사례: 방사선 전문의와 AI가 협업 시 각각 단독보다 높은 정확도 달성
    • AI 해석 가능성과 설명 가능성 강조: 사람이 AI 결과를 평가하고 맥락에 통합할 수 있는 정보 제공
      • 예: 고래 식별 경쟁에서 모델이 개별 고래를 매칭하는 특징 시각화 제공
  • 생성형 AI에서의 유사 패턴
    • 인간 피드백이 ChatGPT와 같은 유용한 도구의 발전에 필수적
    • 피드백 데이터를 통해 모델이 점점 더 어려운 사례를 학습하도록 개선 가능
  • 에러 비용 및 개선점 평가
    • 두 가지 질문으로 시스템 설계를 개선:
      1. "완벽한 모델이 있다면 어떻게 사용할 것인가?"
      2. "그 모델이 가끔 틀린다면 어떻게 대처할 것인가?"
    • 시스템의 오류 허용 한계와 인간 검토가 필요한 부분을 파악
  • 조직의 교훈
    • 2021년 네덜란드 정부 사례: 부적절한 알고리즘으로 26,000가구가 잘못된 사회복지 사기로 고발됨
    • 적절한 인간 검토 없이 알고리즘에 의존하는 것은 높은 사회적 비용을 초래
    • 반대로, 알고리즘과 인간의 강점을 결합하면 효율성과 효과를 극대화 가능

다분야적 관점과 유연성이 조직에 도움을 줌

  • 다양한 분야에 걸친 프로젝트 경험
    • 금융 포용성, 기후 행동, 헬스케어 등 다양한 분야를 다루며 다분야적 관점의 이점을 확인
    • 특정 맥락에서의 기계 학습 패턴을 다른 분야로 확장 적용 가능
      • 예: 켈프 숲 보존을 위한 컴퓨터 비전 모델과 자궁경부 생검 병변 탐지를 위한 모델 간 응용
  • 접근법의 융통성
    • 농작물 해충의 조기 발견과 이력서에서 기술 추출 같은 서로 다른 문제도 자연어 인식(NER)에 기반
    • 기존 접근법의 교훈과 경험을 활용해 다른 문제에 적은 비용으로 적용 가능
  • 구체적 사례
    • WhatsApp 메시지에서 농작물, 해충, 질병 및 화학물질을 인식하는 자연어 처리 접근법
    • 소농들이 새로운 경향을 파악하고 과학 기반 조언을 개선하도록 지원
  • 전문성과 사용자 관점의 균형
    • 도메인 전문가와의 협업을 통해 문제에 적합한 맥락을 보장
    • 데이터 과학 과정에서 사용자 관점을 포함해 적합한 솔루션을 설계
  • "할 만한 가치가 있는 작업"을 파악
    • 기술적 전문성만으로는 충분하지 않으며, 공감, 의사소통, 호기심, 유연성이 필요
    • 기계 학습이 가치를 추가할 수 있는 영역을 브레인스토밍하며, 해당 접근법이 누구를 위한 것이고 어떻게 사용될지 깊이 이해
  • 조직의 다양한 니즈 충족
    • 탐색적 연구부터 프로토타이핑 및 생산 단계까지 조직별 요구가 다름
    • 대형 데이터 제공 조직(Candid, NASA 등)부터 데이터 시스템을 처음 구축하는 조직까지 다양한 파트너와 협력
    • 기술의 적합성을 유지하면서도 풍부한 경험에서 유연성을 이끌어 내는 것이 중요

여전히 도전적인 부분

데이터 과학은 반복적이며, 사회적 섹터는 R&D에 대한 투자가 부족함

  • R&D의 본질과 가치
    • 연구 개발은 학습 과정으로, 자본 투자, 실험, 성찰, 실패를 감수할 의지가 필요
    • 확실한 방법과 단기적 접근으로는 사회적 섹터에서 필요한 문제 범위를 해결하기 어렵다는 한계
    • 장기적 투자와 비선형적인 혁신이 주요한 성과를 창출
  • 사회적 섹터의 R&D 투자 부족
    • 2022년 NSF 조사에 따르면, 대형 비영리 단체 중 94%가 R&D 활동을 전혀 수행하지 않음
    • 데이터 과학이 주로 R&D 활동임에도 불구하고, 이 분야에 대한 투자 미비
  • 데이터 과학의 반복적 특성
    • 데이터 과학은 최적의 결과를 창출하고 서비스 효율성을 개선하기 위해 반복적인 학습과 피드백 루프를 활용
    • 하버드 데이터 과학 과정 및 CRISP-DM(데이터 마이닝 표준 프로세스)처럼 반복성을 강조한 프레임워크 활용
  • 인간 중심 데이터 과학의 중요성
    • 학습 과정이 효과적인 솔루션 설계를 중심으로 이루어지며, 반복 가능한 혁신 프레임워크와 결합
    • 인간 중심 설계를 통해 실제 요구와 솔루션 간의 연계성을 강화
  • 민간 기업의 R&D 성공 사례
    • 민간 기업들은 R&D 프로세스를 통해 데이터 활용 가치를 명확히 인지
    • 최근 AI 혁신의 사례는 지속적인 R&D 투자가 없었다면 불가능했을 성과
  • 결론
    • 데이터 R&D 프로젝트의 초기 결과는 불확실하지만, 데이터에서 가치를 창출하는 프로세스 자체는 입증된 방법론
    • R&D에 대한 지속적이고 장기적인 투자는 혁신을 가속화하고 사회적 섹터의 도전 과제를 해결하는 데 필수적

데이터 과학자를 고용하고 지원하는 것이 어렵고, 혼자 일하는 데이터 과학자는 만족도가 낮음

  • 조직의 관점에서의 어려움
    • 채용
      • 기존 데이터 과학자가 없는 상태에서 적합한 후보자를 식별하고 평가하기 어려움
      • "데이터 과학자"라는 용어가 다양한 기술과 경험을 포함해 정의가 불명확
    • 인재 유치 및 유지
      • 데이터 과학자에 대한 높은 수요로 경쟁적인 채용 시장 형성
      • 사회적 문제 해결이라는 동기 부여 요소 외에도, 흥미로운 기술 작업, 경쟁력 있는 급여, 전문성 개발 기회를 제공해야 함
      • 초기 단계의 채용에서는 이러한 요소를 갖추기 더욱 어려움
    • 관리 및 지원
      • 문제 범위를 명확히 정의하고 방향성, 인프라, 데이터를 제공해야 데이터 과학자가 생산성을 유지할 수 있음
      • 기술적 배경이 부족하면 작업 난이도를 과소평가하거나 과대평가하기 쉬움
  • 개발자의 관점에서의 어려움
    • 학습 및 성장
      • 데이터 과학은 빠르게 발전하는 분야로, 팀 내에서 배우고 성장할 기회가 중요
      • 코드 리뷰, 모델 피드백, 작업 부담 분담이 어려운 환경에서는 성장 기회가 제한
    • 방향성 및 지원 부족
      • 업무를 제대로 지원받지 못하면 데이터 과학자의 만족도와 생산성이 저하
    • 업무의 즐거움
      • 동료와 문제를 논의하고 해결하는 과정이 업무 만족도를 높임
      • 외부 네트워크에서 이를 해결할 수도 있지만, 조직 내에서의 협력이 더 효율적
  • 변화의 조짐
    • 최근 사회적 섹터 조직에서 자체 데이터 팀을 구성하는 사례 증가
    • DrivenData는 초기 데이터 과학자와 엔지니어 채용, 온보딩, 작업 전환을 지원하는 파트너로 참여
    • 외부 데이터 과학 전문팀과 협력해 유연한 역량을 제공하는 방식이 조직과 데이터 과학자 모두에게 유리
  • 미래 전망
    • 일부 조직이 데이터 팀 구축에 성공하기 시작했지만, 데이터 과학 기술에 대한 수요는 여전히 높음
    • 데이터 팀을 처음부터 구축하는 과제는 지속될 것으로 예상

오픈소스는 비개발자를 위한 솔루션을 충분히 개발하지 않음

  • 오픈소스의 한계
    • 오픈소스 소프트웨어는 종종 개발자 커뮤니티가 사용자와 동일하기 때문에 효과적으로 발전
    • 기여자들은 자신이 사용할 도구를 개선하기 위해 동기 부여를 받음
    • 그러나 비개발자나 비전문가를 대상으로 한 도구는 이러한 동기가 작용하지 않음
  • 비전문가 대상 도구의 과제
    • 데이터 과학 프로젝트에서 비개발자를 위한 방법론과 도구를 개발하는 경우 많음
    • 오픈소스로 공개하더라도 지속적 투자와 개발이 이루어지지 않으면 프로젝트가 정체되거나 중단
    • 실질적으로 성공적인 솔루션으로 발전하려면 프로토타입 단계 이후 추가 개발과 현실적인 파일럿 테스트가 필요
  • 구체적 사례: Concept to Clinic
    • 2017-18년, AI를 활용해 방사선사가 CT 스캔을 처리하도록 돕는 오픈 애플리케이션 개발
    • 기여를 유도하기 위해 기여자들에게 포인트와 금전적 보상을 제공하는 구조적 인센티브 시스템 도입
    • 이러한 접근이 없었다면 프로젝트 개발이 불가능했을 가능성이 높음
  • 지속 가능한 오픈소스 성공을 위한 요건
    • 단순히 오픈소스로 공개하는 것만으로는 장기적 영향력 보장 불가능
    • 프로토타입에서 최종 사용자 대상 솔루션으로 발전하기 위해 명확한 로드맵과 지속적 자금 지원 필요
    • 중요한 애플리케이션을 개발할 때 오픈소스는 여정의 일부일 뿐, 최종 목표가 되어서는 안 됨

기술 과장이(hype wave) 지나치게 주목받음

  • 사회적 섹터와 기술 혁신
    • 사회적 섹터는 지난 10년 동안 새로운 기술 혁신의 물결과 밀접하게 연관됨
    • 조직은 제한된 자원 내에서 효율성을 높이고자 새로운 기술을 도입하려는 유혹을 받음
    • 최신 기술 동향을 따라가지 않으면 뒤처질 것이라는 압박으로 전략을 자주 변경
  • 과장된 기술 도입의 문제점
    • 기술 과장에서 핵심적인 혁신 요소를 선별해내기 어려움
    • 기술 도입이 과도한 기대와 미흡한 실행으로 이어지는 경우 많음
    • 예:
      • 블록체인: 높은 기대치에 비해 사회적 섹터에 실질적인 혜택은 미미
      • 모바일 앱: 반드시 필요하지 않은 경우에도 "필수"라는 압박으로 비효율적 비용 지출
  • 전문 기술 조직의 중요성
    • 기술 과장을 효율적으로 다룰 수 있는 기술 전문가 조직이 가장 높은 성과를 냄
    • DrivenData는 DataKind, DSSG Fellowship, Delta Analytics 등과 협력하며 기술 전문성을 활용
    • 그러나 이러한 전문가 그룹도 과거 기술 과장에서 얻은 교훈을 체계적으로 축적하기 어려움
  • 필요한 변화: 기술 과장을 다루는 ‘방파제’
    • 과도한 기대에서 실질적인 혁신을 분리하고 핵심 발전 사항을 식별할 역량 필요
    • 최첨단 기술에 대한 이해와 사회적 섹터에 대한 깊은 통찰을 겸비한 기술 리더십이 필수
    • 이러한 리더십과 생태계가 현재 부족하며, 이를 통해 지속적이고 성숙한 접근 방식 구축 필요
  • AI와 같은 최신 기술에 대한 전략적 접근
    • AI의 잠재력은 방대하지만 단순한 열광이 아닌 신중한 전략과 깊은 전문성 요구
    • 데이터 기반의 탄탄한 기초를 구축하지 않으면 기술 과장이 반복되는 비효율적인 사이클로 이어질 위험
    • 근본적인 투자와 계획 없이는 사회적 섹터의 기술 혁신이 진정한 성과를 내기 어려움

데이터 과학과 AI는 윤리적 함의가 크지만, 급격한 도입이 이를 지원하는 도구와 관행을 앞지름

  • 데이터 과학과 AI의 확대와 윤리적 중요성
    • 데이터 과학과 머신러닝은 의료, 재난 대응, 형사 판결 등 다양한 분야에 통합됨
    • 잘못된 활용 시 초래되는 위험이 이전보다 훨씬 커짐
  • 윤리적 고려가 부족한 현실
    • 데이터 과학자들은 모델과 파이프라인의 윤리적 함의를 이해하는 독특한 관점을 지님
    • 그러나 이러한 관점은 데이터 과학 프로젝트의 생애 주기에 통합되지 않는 경우가 많음
  • 윤리적 트레이드오프를 다루기 위한 오픈소스 체크리스트 개발
    • 윤리적 트레이드오프를 논의할 수 있도록 데이터 과학 워크플로에 통합
    • 주요 원칙:
      • 윤리적 결정은 특정 맥락에서 가장 중요한 트레이드오프를 인식하고 책임감 있는 진행과 피해 최소화를 목표로 해야 함
      • 데이터 수집, 저장, 분석, 모델링, 배포 등 프로젝트 전 단계에서 윤리적 문제가 발생
      • 윤리적 논의는 급박한 일정과 요구로 인해 종종 우선순위에서 밀려남
      • 이를 방지하려면 윤리적 질문을 워크플로의 다른 측면에 통합하고 시간을 의도적으로 할당해야 함
  • 알고리즘 공정성과 편향 완화
    • 편향된 데이터를 학습한 모델은 불평등을 재생산하므로 이를 식별하고 완화하려는 기술 개발 중
    • 예: Wellcome Trust와 협력해 심리적 스트레스 예측 모델에서 공정성을 고려한 편향 완화 사례 제작
      • 정량화된 공정성 지표를 통해 편향을 분석하고 완화 방법 제공
  • AI 시대 윤리적 고려의 중요성
    • AI의 빠른 확산과 동시에 기업들이 비용 절감을 위해 책임 있는 AI 팀을 해체
    • 사회적 섹터에서는 수혜자에 대한 책임감이 높아 윤리적 실패의 대가가 더 큼
    • 윤리적 관행을 강화하지 않으면 AI 도입이 더 큰 문제를 초래할 위험이 있음
  • 결론
    • AI 도입을 지원하는 윤리적 도구와 관행의 구축이 그 어느 때보다 중요
    • 기술의 책임감 있는 활용을 통해 사회적 섹터에서 신뢰와 지속 가능성을 보장해야 함

앞으로의 전망

  • 데이터 과학의 변화와 기회
    • 지난 10년간 데이터 과학은 사회적 섹터에서 중요한 변화를 이끌며 성공과 과제를 동시에 경험
    • 데이터와 AI의 잠재력에 대한 인식이 높아졌지만, 여전히 해결해야 할 큰 질문이 존재:
      • 지속적인 기술 발전을 어떻게 가장 큰 사회적 문제에 실질적으로 적용할 것인가?
      • 혜택이 소수 대기업에만 집중되지 않도록 어떻게 보장할 것인가?
      • 자연과 인류를 위한 책임감 있는 기술 배치를 어떻게 실현할 것인가?
  • 경험에서 얻은 교훈의 중요성
    • 과거 경험에서 얻은 교훈을 기반으로 한 노력이 가장 큰 성과를 냄
    • DrivenData는 데이터와 AI를 사회적 선을 위해 사용하는 파트너, 클라이언트, 개발자 커뮤니티의 일원이 된 것을 자랑스럽게 여김
    • 유사한 주제에 관심이 있거나 추가적인 아이디어가 있다면 공유를 환영
  • 미래를 향한 기대
    • 지난 10년이 눈부셨던 만큼, 앞으로의 10년은 더욱 큰 변화를 가져올 것으로 예상
    • 해야 할 일이 많으며, 배워야 할 것도 많음
    • 이러한 도전에 맞서 새로운 가능성을 모색하고, 더 나은 사회적 영향을 창출할 미래를 기대

"내 세대의 최고의 인재들이 사람들에게 광고를 클릭하도록 만드는 데 생각을 쏟고 있다… 정말 답답하다."

정말 생각 해 보니 그렇겠네요.