# 학생당 42센트로 AI 부정행위 잡기: NYU 교수의 AI 구술시험 실험

> Clean Markdown view of GeekNews topic #25656. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=25656](https://news.hada.io/topic?id=25656)
- GeekNews Markdown: [https://news.hada.io/topic/25656.md](https://news.hada.io/topic/25656.md)
- Type: news
- Author: [davespark](https://news.hada.io/@davespark)
- Published: 2026-01-08T11:27:53+09:00
- Updated: 2026-01-08T11:27:53+09:00
- Original source: [aisparkup.com](https://aisparkup.com/posts/7989)
- Points: 11
- Comments: 0

## Summary

AI **구술시험**이 학생 평가 방식을 다시 쓰고 있습니다. NYU Panos Ipeirotis 교수는 음성 에이전트와 여러 LLM을 조합해 36명 학생을 9일간 인터뷰했고, 총비용은 학생당 42센트에 불과했습니다. 인간 채점 대비 50배 이상 저렴하면서도 피드백 품질은 오히려 높게 평가되었으며, 학생들은 더 큰 긴장감을 느끼면서도 “이해도를 정확히 본다”는 점에 공감했습니다. AI가 만든 부정행위의 틈을, AI가 스스로 메우는 실험이 조용히 진행되고 있습니다.

## Topic Body

NYU 교수 AI 구술시험 실험  
  
**배경**  
  - AI 시대 전통 과제 평가 한계: 학생들이 AI로 과제 완벽히 작성하나 실제 이해 부족 드러남  
  - Panos Ipeirotis 교수 (NYU 스턴 경영대학원): AI로 AI 부정행위 대응 역발상 실험  
  
**실험 개요**  
  - 수업: AI/ML 제품 관리  
  - 대상: 36명 학생  
  - 방법: ElevenLabs 음성 AI 에이전트 활용 구술시험  
  - 내용: 학생 프로젝트 질문 + 수업 케이스 스터디 질문  
  - 기간: 9일간, 평균 25분 per 학생  
  - 총 비용: 15달러 (학생당 42센트)  
    - Claude: 8달러, Gemini: 2달러, OpenAI: 30센트, ElevenLabs: 5달러  
  
**비용 비교**  
  - AI 시험: 15달러  
  - 인간 채점: 750달러 (36명 × 25분 × 2명 × 25달러/시간)  
  - 장점: 대규모 수업에서 구술시험 실현 가능  
  
**초기 문제점**  
  - 에이전트 톤: 엄격·거만하게 느껴짐 (학생 불만: "소리 질렀다")  
  - 행동 문제: 여러 질문 동시, 반복 시 재구성, 빠른 끼어들기  
  - 무작위성 편향: "무작위 선택" 지시에도 특정 케이스 (Zillow 88%) 편향  
    - 이유: LLM 훈련 데이터 인간 편향 반영  
  
**채점 방식**  
  - 방법: Andrej Karpathy "Council of LLMs" 적용  
    - Claude, Gemini, ChatGPT 독립 평가 → 상호 검토 → 수정  
  - 결과: 초기 점수 차이 크나 (Gemini 17점 vs Claude 13.4점), 검토 후 60% 1점 이내 수렴  
  - 피드백 품질: AI가 인간보다 우수 (구조화 요약 + 직접 인용)  
  
**발견 사항**  
  - 주제별 격차: "실험" 주제 약함 (평균 1.94/4점) → 교수법 문제 인정 (A/B 테스팅 소홀)  
  - 시험 길이와 성적: 무상관 (최단 9분 최고점, 최장 64분 평범)  
  
**학생 평가**  
  - AI 형식 선호: 13% (인간 선호 2배)  
  - 스트레스: 83% 더 높음   
  - 공정성: 70% 실제 이해도 평가에 동의 (최고 평가 항목)  
  
**결론**  
  - AI 구술시험: 확장 가능·저렴·공정  
  - 장점: 질문 매번 새로 생성 (유출 문제 없음), 연습 가능  
  - 아이러니: AI 부정행위에 AI 해법  
  - 교육 평가 변화 가능성 제시, 한계도 드러남

## Comments


_No public comments on this page._