맞불 작전: AI 음성 에이전트를 활용하여 구술시험을 확장하기
(behind-the-enemy-lines.com)- 대형 언어모델(LLM) 의 확산으로 기존 과제·시험이 학습 이해도를 측정하지 못하게 되자, 교수진이 ElevenLabs 음성 AI를 이용해 실시간 구술시험을 도입하여 실험해 봄
- 시험은 프로젝트 설명과 사례 질의 두 부분으로 구성되어, 학생이 직접 AI에게 결정 근거와 사고 과정을 설명해야 함
- Claude·Gemini·ChatGPT 세 모델이 협의식으로 채점해 일관성과 피드백 품질을 높였으며, 실제 강의의 취약 주제(실험 설계) 도 드러남
- 36명 학생을 9일간, 평균 25분씩 평가했으며, 학생당 비용은 0.42달러로 매우 저렴했음
- AI 구술시험은 이해 중심 평가를 확장 가능하게 만드는 새로운 형태의 시험 모델이 될수 있을 것
문제 인식과 구술시험 도입 배경
- 학생 과제의 품질이 비정상적으로 높아 AI 작성 의심이 제기되었고, 무작위 질의 시 스스로 설명하지 못하는 사례 다수 확인
- LLM 접근성으로 기존 과제·시험의 신뢰성이 붕괴, 실시간 사고력 평가가 가능한 구술시험이 대안으로 부상
- 그러나 구술시험은 대규모 운영이 불가능하다는 한계가 있어, 이를 해결하기 위해 음성 AI 에이전트를 활용
ElevenLabs 기반 음성 에이전트 구성
- ElevenLabs Conversational AI를 이용해 음성 인식·합성·턴 관리 등 복잡한 요소를 통합
-
동적 변수로 학생 이름·프로젝트 정보를 전달하고, 워크플로우 구조로 인증·프로젝트·사례 질의 에이전트를 분리
- 인증 에이전트: 학생 ID 확인
- 프로젝트 에이전트: 제출 자료 기반 질의
- 사례 에이전트: 무작위 사례 선택 후 질문
- 여러 소형 에이전트로 분리해 대화 일탈 방지와 디버깅 용이성 확보
시험 운영 및 수치 결과
- 총 36명, 9일간, 평균 25분(최단 9분~최장 64분) 진행
- 평균 65회 메시지 교환, 총비용 15달러(학생당 0.42달러)
- LLM 채점 결과의 89% 가 1점 이내 일치, 가장 짧은 시험(9분) 이 최고점(19/20)을 기록
- 인간 채점 대비 50배 이상 비용 절감, 실시간 평가·기록·피드백 자동화 달성
시행착오와 개선 조치
- 음성 톤이 위압적이라는 학생 피드백 → 다양한 음성 A/B 테스트 예정
- 질문 누적(스택) 문제 → “한 번에 한 질문” 규칙 추가
- 질문 반복 시 의미 변형 → “문장 그대로 반복” 명시
- 생각할 시간 부족 → 대기시간 10초로 연장
- 사례 무작위 선택 실패 → 코드 수준에서 난수 매핑으로 해결
LLM 협의 채점(council grading)
- Claude·Gemini·ChatGPT가 독립 채점 후 상호 검토·수정
- 1차 채점 불일치율 높았으나, 2차 협의 후 1점 이내 일치율 62% → 85% 로 향상
- Gemini는 평균 2점 낮춰 조정, Claude·OpenAI 간 일관성 높음
- 실험 설계 항목에서 채점 불일치가 가장 컸으며, 이는 학생 답변의 모호성 때문으로 분석
- AI 채점은 인간보다 엄격하지만 공정, 피드백은 구체적·행동지향적으로 우수
교육적 통찰과 진단
- 주제별 성취도 분석에서 실험 설계 평균 1.94/4로 가장 낮음
- 0점 8%, 1점 19%, 2점 42%, 4점 0%
- 강의 내 A/B 테스트 설명 부족이 원인으로 드러나, 교수진의 교육 개선 필요성 확인
- 시험 시간과 점수의 상관관계 없음(r=-0.03) , 짧고 명확한 답변이 높은 점수와 연관
부정행위 방지 및 투명성
- 학생에게 웹캠·오디오 녹화 의무화로 외부 도움 차단
- 시험 구조와 질문 유형을 공개된 가이드라인으로 운영, 문제 유출 위험 제거
- 학생은 동일 구조로 반복 연습 가능, 실제 학습 효과 강화
학생 반응
- 13%만 AI 구술시험 선호, 57%는 전통 필기시험 선호, 83%는 더 스트레스 받았다고 응답
- 그러나 70%가 실제 이해도를 잘 평가했다고 인정, 평가 신뢰도는 높음
- 자율적 시간·장소 응시의 유연성은 긍정 평가
- 개선 요구: 속도 완화, 차분한 음성, 단일 질문 방식
향후 개선 계획
- 속도 조절·음성 다양화, 학생 제출물 기반 RAG 질의, 명시적 난수 시드로 사례 분배
- LLM 간 채점 불일치 시 인간 검토 트리거 도입
- 접근성 강화: 연습 모드, 추가 시간, 대체 수단 제공
결론: AI로 확장 가능한 이해 중심 평가
- 과제형·필기시험은 LLM 시대에 무력화, 실시간 사고력 평가로 전환 필요
- AI 구술시험은 이해·판단·즉흥적 사고를 측정하며, 대규모 운영이 가능한 새로운 평가 방식
- 문제 유출 위험 없이 반복 연습을 통한 학습 강화 가능
- “Fight fire with fire” — AI로 인해 생긴 문제를 AI로 해결하는 평가 혁신
Hacker News 의견들
-
기사에서 제시된 데이터와 결론이 맞지 않는다는 생각임
학생들은 AI와 대화한 뒤에도 여전히 필기시험을 선호했음
대학들은 수백 년간 부정행위를 방지하며 필기시험을 운영해왔고, 코로나 이후 온라인 평가라는 ‘각진 바퀴’ 를 도입했지만, 사실 원형 바퀴로 돌아가는 게 더 낫다는 비유를 들고 싶음- 실험 결과가 명백히 좋지 않았는데, 글쓴이는 “대성공”이라 주장한 점이 놀라움
LLM 평가의 정확도를 검증하지도 않았음. 결국 결론을 미리 정해놓고 데이터를 끼워 맞춘 느낌임 - 인용된 문장은 결론이 아니라 단순한 주장임
‘Take-home 시험은 끝났다’는 건 자명한 사실이지, 실험의 결과가 아님
요즘은 혼자서도 부정행위가 너무 쉬워졌음
또, 학문 분야마다 평가 방식이 달라야 하며, 컴퓨터공학처럼 새로운 분야는 아직 평가의 성숙도가 부족함
마지막으로, 학생의 선호도는 시험의 질을 판단하는 기준이 아님 - 학생들이 필기시험을 선호한다고 해서 그게 최선은 아님
실제로는 사람들 앞에서 자신의 의사결정 근거를 설명해야 하는 상황이 많음
코로나 시기에 대면 경험이 줄어든 세대가 말하기를 두려워하는 건 이해하지만, 이런 불안 극복 훈련이 오히려 도움이 될 수 있음 - 온라인 수업에서는 필기시험이 어려움
Take-home 시험의 부정행위 가능성이 높아졌기 때문에, 구술시험이 완벽하진 않아도 더 나은 대안이 될 수 있음 - 학생과 교사 간의 부정행위-감시 경쟁은 수백 년째 이어져온 일임
- 실험 결과가 명백히 좋지 않았는데, 글쓴이는 “대성공”이라 주장한 점이 놀라움
-
예전엔 모든 시험이 AI가 개입할 여지가 전혀 없었음
펜으로 손글씨로 작성하고, 감독관이 지켜보는 체육관에서 시험을 봤음
부정행위는 곧 퇴학이었고, 수천 명 중 1%만 졸업했음
지금 AI에 맞춰 시험을 바꾸자는 얘기를 들으면 미친 것 같음. 이미 해결책은 있었음- 학생의 99%가 낙제하는 시스템을 자랑할 일은 아님
결국 학생에게만 책임을 돌리는 구조이고, 교수의 게으름과 시험 문제 재활용이 문제였음
진짜 해결책은 매번 새로운 문제를 만들고 다양하게 출제하는 것임 - 손으로 C++ 코드를 쓰게 하는 게 정말 최선의 평가 방식인지 의문임
차라리 학교가 제공하는 개발 환경이 있는 컴퓨터로 시험을 보는 게 낫다고 생각함 - 구술시험이 이해도를 진단하는 데 더 낫다는 주장도 있음
만약 그게 사실이라면, 확장 가능한 구술시험 방식을 찾는 건 의미 있음 - 99% 낙제율은 믿기 어려움. 그런 대학은 문 닫아야 함
- 학생의 99%가 낙제하는 시스템을 자랑할 일은 아님
-
확장성에 집착할 필요가 없음
대학은 돈이 많으니, 그냥 교수가 직접 구술시험을 보면 됨
독일 대학원에서도 구술시험을 많이 봤고, 잘 작동했음- 유럽에서는 Matura나 박사 논문 방어처럼 구술시험이 일반적임
AI에 의존하는 건 게으름의 상징 같음
AI는 반복 업무엔 좋지만, 대립적 상황에서는 신뢰하기 어려움
- 유럽에서는 Matura나 박사 논문 방어처럼 구술시험이 일반적임
-
나도 학부 때 구술시험을 봤는데, 교수의 태도 변화가 너무 커서 긴장감이 극심했음
AI가 그런 감정적 압박을 줄 수 있을지는 의문임
오히려 나는 AI의 작은 실수에 짜증이 나는 편임- 이탈리아에서는 초등학교부터 대학까지 모든 시험에 구술이 포함됨
하지만 나는 그런 상황에서 머리가 하얘지고 아무 말도 못함. 정말 괴로움
- 이탈리아에서는 초등학교부터 대학까지 모든 시험에 구술이 포함됨
-
예전에 채용 과정에서 Take-home 과제를 줬는데, 지원자 중 일부는 자신이 제출한 코드를 설명하지 못했음
LLM이 등장한 지금은 AI로 대체 작성하는 유혹이 훨씬 커졌음
하지만 우리는 지원자의 문제 해결력과 커뮤니케이션 능력을 평가해야 함
LLM을 허용한 면접은 결국 “AI 사용 숙련도 테스트”로 변질됨
기사 속 방법에는 동의하지 않지만, 문제의식 자체는 현실적임- “synthetic pronouns”라는 표현이 흥미로움
-
다음 단계는 AI가 음성으로 대답하는 AI를 대신 쓰는 상황일지도 모름
결국 인간이 다시 중심이 되어야 함- 이미 텔레프롬프터만으로도 속이기 충분함
앞으로는 스마트 안경, 골전도 마이크 등으로 더 교묘해질 것임
결국 정직하지만 사회불안이 있는 학생만 불이익을 받게 됨 - 시험 공간이 전화 부스 수십 개로 채워진다면, 사무실 칸막이보다 더 끔찍할 것 같음
- 이미 텔레프롬프터만으로도 속이기 충분함
-
학기 중에 자발적 모의 구술시험을 운영하는 게 좋을 듯함
학생이 형식에 익숙해지고, 목소리 톤에도 적응할 수 있음
36명 정도면 구술시험이 불가능하다는 말은 의외임- 기사 말미에 언급된 부분처럼, AI가 매번 새로운 질문을 생성하므로 유출 걱정 없이 연습할 수 있음
이런 반복 학습이야말로 진짜 배움의 방식임 - 조교 한 명이 시간당 $25 받는다면, 구술시험은 충분히 가능함
$25 환불받고 LLM이 시험 보는 건 절대 싫음 - 프라하의 Charles University에서는 200명 넘는 학생도 구술시험을 봤음
- 구술시험의 깊이와 빈도에 따라 다름
일부 학생만 표본으로 뽑아 시험을 보면 동기 부여 혹은 좌절감을 동시에 유발할 수 있음 - 결국 돈 아끼려 챗봇으로 시험을 대체하려는 발상임
상위권 학생만이라도 10분씩 대화하는 구술시험은 충분히 가능함
- 기사 말미에 언급된 부분처럼, AI가 매번 새로운 질문을 생성하므로 유출 걱정 없이 연습할 수 있음
-
AI 음성 앱에게 심문받는다는 건 상상만 해도 끔찍함
이런 방식이 유지된다면, 차라리 평가 없는 교육 모델이 필요할지도 모름- 결국 손글씨 시험으로 돌아가는 게 가장 현실적인 해법일 수도 있음
- 나도 최근 AI 면접을 봤는데, AI에게는 거짓말을 해도 죄책감이 없었음
인간이라면 절대 하지 않았을 말도 쉽게 하게 됨 - 시험이 완전히 사라지면 학습 동기가 유지되지 않음
-
내가 바로 그 블로그 글의 작성자임
우리 AI 수업에서 새로운 시도를 해본 것뿐임
필기시험을 없애려는 게 아니라, 구술시험을 또 하나의 도구로 추가한 것임
팀 프로젝트에서 학생이 실제로 자신의 작업을 이해했는지 확인하려는 목적이었음
구술시험에서 낮은 점수를 받은 학생은 예상대로 프로젝트 이해도가 낮았음
36명 수준이면 직접 면담도 가능하지만, 100명 이상이면 어려움
무엇보다 AI는 피로하지 않기 때문에 일관된 평가를 제공한다는 연구 결과가 있었음. 그래서 신뢰했음- LLM 사용을 허용하는 게 당연하다고 했지만, 나는 동의하지 않음
헬스장에서 지게차를 쓰는 것과 다를 바 없음
MBA 수준의 단순 과목이라면 가능하겠지만, 미묘한 판단이 필요한 과목에서는 AI가 공정하지 않음
이런 단순 확인용 시험이라면 차라리 키오스크에서 객관식으로 보는 게 낫다고 생각함
- LLM 사용을 허용하는 게 당연하다고 했지만, 나는 동의하지 않음
-
우리 때는 모든 시험이 구술이었음
큰 시험은 이틀씩 걸렸지만, 교수와 조교가 연 6회 세션을 운영했음- 나도 물리학 학사·석사 때는 구술시험이 기본이었지만, 박사 과정에서는 사라졌음
이유 중 하나는 공정성의 문화적 해석 차이였음
다양성이 높은 환경에서는 구술시험이 편향 논란을 낳을 수 있음 - 교수도 결국 인간임
AI로 $5에 채점하고 20시간을 휴대폰 스크롤로 보낼 수 있다면, 그걸 택할 것임
- 나도 물리학 학사·석사 때는 구술시험이 기본이었지만, 박사 과정에서는 사라졌음