NYU 교수 AI 구술시험 실험

배경

  • AI 시대 전통 과제 평가 한계: 학생들이 AI로 과제 완벽히 작성하나 실제 이해 부족 드러남
  • Panos Ipeirotis 교수 (NYU 스턴 경영대학원): AI로 AI 부정행위 대응 역발상 실험

실험 개요

  • 수업: AI/ML 제품 관리
  • 대상: 36명 학생
  • 방법: ElevenLabs 음성 AI 에이전트 활용 구술시험
  • 내용: 학생 프로젝트 질문 + 수업 케이스 스터디 질문
  • 기간: 9일간, 평균 25분 per 학생
  • 총 비용: 15달러 (학생당 42센트)
    • Claude: 8달러, Gemini: 2달러, OpenAI: 30센트, ElevenLabs: 5달러

비용 비교

  • AI 시험: 15달러
  • 인간 채점: 750달러 (36명 × 25분 × 2명 × 25달러/시간)
  • 장점: 대규모 수업에서 구술시험 실현 가능

초기 문제점

  • 에이전트 톤: 엄격·거만하게 느껴짐 (학생 불만: "소리 질렀다")
  • 행동 문제: 여러 질문 동시, 반복 시 재구성, 빠른 끼어들기
  • 무작위성 편향: "무작위 선택" 지시에도 특정 케이스 (Zillow 88%) 편향
    • 이유: LLM 훈련 데이터 인간 편향 반영

채점 방식

  • 방법: Andrej Karpathy "Council of LLMs" 적용
    • Claude, Gemini, ChatGPT 독립 평가 → 상호 검토 → 수정
  • 결과: 초기 점수 차이 크나 (Gemini 17점 vs Claude 13.4점), 검토 후 60% 1점 이내 수렴
  • 피드백 품질: AI가 인간보다 우수 (구조화 요약 + 직접 인용)

발견 사항

  • 주제별 격차: "실험" 주제 약함 (평균 1.94/4점) → 교수법 문제 인정 (A/B 테스팅 소홀)
  • 시험 길이와 성적: 무상관 (최단 9분 최고점, 최장 64분 평범)

학생 평가

  • AI 형식 선호: 13% (인간 선호 2배)
  • 스트레스: 83% 더 높음
  • 공정성: 70% 실제 이해도 평가에 동의 (최고 평가 항목)

결론

  • AI 구술시험: 확장 가능·저렴·공정
  • 장점: 질문 매번 새로 생성 (유출 문제 없음), 연습 가능
  • 아이러니: AI 부정행위에 AI 해법
  • 교육 평가 변화 가능성 제시, 한계도 드러남