학생당 42센트로 AI 부정행위 잡기: NYU 교수의 AI 구술시험 실험
(aisparkup.com)NYU 교수 AI 구술시험 실험
배경
- AI 시대 전통 과제 평가 한계: 학생들이 AI로 과제 완벽히 작성하나 실제 이해 부족 드러남
- Panos Ipeirotis 교수 (NYU 스턴 경영대학원): AI로 AI 부정행위 대응 역발상 실험
실험 개요
- 수업: AI/ML 제품 관리
- 대상: 36명 학생
- 방법: ElevenLabs 음성 AI 에이전트 활용 구술시험
- 내용: 학생 프로젝트 질문 + 수업 케이스 스터디 질문
- 기간: 9일간, 평균 25분 per 학생
- 총 비용: 15달러 (학생당 42센트)
- Claude: 8달러, Gemini: 2달러, OpenAI: 30센트, ElevenLabs: 5달러
비용 비교
- AI 시험: 15달러
- 인간 채점: 750달러 (36명 × 25분 × 2명 × 25달러/시간)
- 장점: 대규모 수업에서 구술시험 실현 가능
초기 문제점
- 에이전트 톤: 엄격·거만하게 느껴짐 (학생 불만: "소리 질렀다")
- 행동 문제: 여러 질문 동시, 반복 시 재구성, 빠른 끼어들기
- 무작위성 편향: "무작위 선택" 지시에도 특정 케이스 (Zillow 88%) 편향
- 이유: LLM 훈련 데이터 인간 편향 반영
채점 방식
- 방법: Andrej Karpathy "Council of LLMs" 적용
- Claude, Gemini, ChatGPT 독립 평가 → 상호 검토 → 수정
- 결과: 초기 점수 차이 크나 (Gemini 17점 vs Claude 13.4점), 검토 후 60% 1점 이내 수렴
- 피드백 품질: AI가 인간보다 우수 (구조화 요약 + 직접 인용)
발견 사항
- 주제별 격차: "실험" 주제 약함 (평균 1.94/4점) → 교수법 문제 인정 (A/B 테스팅 소홀)
- 시험 길이와 성적: 무상관 (최단 9분 최고점, 최장 64분 평범)
학생 평가
- AI 형식 선호: 13% (인간 선호 2배)
- 스트레스: 83% 더 높음
- 공정성: 70% 실제 이해도 평가에 동의 (최고 평가 항목)
결론
- AI 구술시험: 확장 가능·저렴·공정
- 장점: 질문 매번 새로 생성 (유출 문제 없음), 연습 가능
- 아이러니: AI 부정행위에 AI 해법
- 교육 평가 변화 가능성 제시, 한계도 드러남