# 맞불 작전: AI 음성 에이전트를 활용하여 구술시험을 확장하기

> Clean Markdown view of GeekNews topic #25558. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=25558](https://news.hada.io/topic?id=25558)
- GeekNews Markdown: [https://news.hada.io/topic/25558.md](https://news.hada.io/topic/25558.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-01-05T03:33:16+09:00
- Updated: 2026-01-05T03:33:16+09:00
- Original source: [behind-the-enemy-lines.com](https://www.behind-the-enemy-lines.com/2025/12/fighting-fire-with-fire-scalable-oral.html)
- Points: 2
- Comments: 1

## Topic Body

- **대형 언어모델(LLM)** 의 확산으로 기존 과제·시험이 학습 이해도를 측정하지 못하게 되자, 교수진이 **ElevenLabs 음성 AI**를 이용해 실시간 구술시험을 도입하여 실험해 봄  
- 시험은 프로젝트 설명과 사례 질의 두 부분으로 구성되어, 학생이 직접 AI에게 **결정 근거와 사고 과정**을 설명해야 함  
- **Claude·Gemini·ChatGPT** 세 모델이 협의식으로 채점해 일관성과 피드백 품질을 높였으며, **실제 강의의 취약 주제(실험 설계)** 도 드러남  
- **36명 학생을 9일간**, 평균 25분씩 평가했으며, **학생당 비용은 0.42달러**로 매우 저렴했음  
- AI 구술시험은 **이해 중심 평가를 확장 가능하게 만드는 새로운 형태의 시험 모델**이 될수 있을 것  
  
---  
  
### 문제 인식과 구술시험 도입 배경  
- 학생 과제의 품질이 비정상적으로 높아 **AI 작성 의심**이 제기되었고, 무작위 질의 시 스스로 설명하지 못하는 사례 다수 확인  
- **LLM 접근성**으로 기존 과제·시험의 신뢰성이 붕괴, 실시간 사고력 평가가 가능한 구술시험이 대안으로 부상  
- 그러나 구술시험은 **대규모 운영이 불가능**하다는 한계가 있어, 이를 해결하기 위해 **음성 AI 에이전트**를 활용  
  
### ElevenLabs 기반 음성 에이전트 구성  
- ElevenLabs Conversational AI를 이용해 **음성 인식·합성·턴 관리** 등 복잡한 요소를 통합  
- **동적 변수**로 학생 이름·프로젝트 정보를 전달하고, **워크플로우 구조**로 인증·프로젝트·사례 질의 에이전트를 분리  
  - 인증 에이전트: 학생 ID 확인  
  - 프로젝트 에이전트: 제출 자료 기반 질의  
  - 사례 에이전트: 무작위 사례 선택 후 질문  
- 여러 소형 에이전트로 분리해 **대화 일탈 방지**와 **디버깅 용이성** 확보  
  
### 시험 운영 및 수치 결과  
- 총 **36명**, **9일간**, 평균 **25분(최단 9분~최장 64분)** 진행  
- 평균 **65회 메시지 교환**, **총비용 15달러(학생당 0.42달러)**  
- **LLM 채점 결과의 89%** 가 1점 이내 일치, **가장 짧은 시험(9분)** 이 최고점(19/20)을 기록  
- 인간 채점 대비 **50배 이상 비용 절감**, 실시간 평가·기록·피드백 자동화 달성  
  
### 시행착오와 개선 조치  
- **음성 톤이 위압적**이라는 학생 피드백 → 다양한 음성 A/B 테스트 예정  
- **질문 누적(스택)** 문제 → “한 번에 한 질문” 규칙 추가  
- **질문 반복 시 의미 변형** → “문장 그대로 반복” 명시  
- **생각할 시간 부족** → 대기시간 10초로 연장  
- **사례 무작위 선택 실패** → 코드 수준에서 난수 매핑으로 해결  
  
### LLM 협의 채점(council grading)  
- **Claude·Gemini·ChatGPT**가 독립 채점 후 상호 검토·수정  
- 1차 채점 불일치율 높았으나, 2차 협의 후 **1점 이내 일치율 62% → 85%** 로 향상  
- Gemini는 평균 2점 낮춰 조정, **Claude·OpenAI 간 일관성** 높음  
- **실험 설계 항목**에서 채점 불일치가 가장 컸으며, 이는 학생 답변의 모호성 때문으로 분석  
- AI 채점은 **인간보다 엄격하지만 공정**, 피드백은 **구체적·행동지향적**으로 우수  
  
### 교육적 통찰과 진단  
- 주제별 성취도 분석에서 **실험 설계 평균 1.94/4**로 가장 낮음  
  - 0점 8%, 1점 19%, 2점 42%, 4점 0%  
- 강의 내 **A/B 테스트 설명 부족**이 원인으로 드러나, 교수진의 교육 개선 필요성 확인  
- **시험 시간과 점수의 상관관계 없음(r=-0.03)** , 짧고 명확한 답변이 높은 점수와 연관  
  
### 부정행위 방지 및 투명성  
- 학생에게 **웹캠·오디오 녹화** 의무화로 외부 도움 차단  
- 시험 구조와 질문 유형을 **공개된 가이드라인**으로 운영, 문제 유출 위험 제거  
- 학생은 동일 구조로 **반복 연습 가능**, 실제 학습 효과 강화  
  
### 학생 반응  
- 13%만 AI 구술시험 선호, 57%는 전통 필기시험 선호, 83%는 더 스트레스 받았다고 응답  
- 그러나 **70%가 실제 이해도를 잘 평가했다고 인정**, 평가 신뢰도는 높음  
- **자율적 시간·장소 응시**의 유연성은 긍정 평가  
- 개선 요구: **속도 완화, 차분한 음성, 단일 질문 방식**  
  
### 향후 개선 계획  
- **속도 조절·음성 다양화**, **학생 제출물 기반 RAG 질의**, **명시적 난수 시드로 사례 분배**  
- **LLM 간 채점 불일치 시 인간 검토 트리거** 도입  
- **접근성 강화**: 연습 모드, 추가 시간, 대체 수단 제공  
  
### 결론: AI로 확장 가능한 이해 중심 평가  
- **과제형·필기시험은 LLM 시대에 무력화**, 실시간 사고력 평가로 전환 필요  
- AI 구술시험은 **이해·판단·즉흥적 사고**를 측정하며, **대규모 운영이 가능한 새로운 평가 방식**  
- 문제 유출 위험 없이 **반복 연습을 통한 학습 강화** 가능  
- “Fight fire with fire” — **AI로 인해 생긴 문제를 AI로 해결하는 평가 혁신**

## Comments



### Comment 48662

- Author: neo
- Created: 2026-01-05T03:33:16+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=46467677) 
- 기사에서 제시된 데이터와 결론이 맞지 않는다는 생각임  
  학생들은 AI와 대화한 뒤에도 여전히 **필기시험**을 선호했음  
  대학들은 수백 년간 부정행위를 방지하며 필기시험을 운영해왔고, 코로나 이후 온라인 평가라는 **‘각진 바퀴’** 를 도입했지만, 사실 원형 바퀴로 돌아가는 게 더 낫다는 비유를 들고 싶음
  - 실험 결과가 명백히 좋지 않았는데, 글쓴이는 “대성공”이라 주장한 점이 놀라움  
    **LLM 평가의 정확도**를 검증하지도 않았음. 결국 결론을 미리 정해놓고 데이터를 끼워 맞춘 느낌임
  - 인용된 문장은 결론이 아니라 단순한 주장임  
    ‘Take-home 시험은 끝났다’는 건 자명한 사실이지, 실험의 결과가 아님  
    요즘은 혼자서도 **부정행위**가 너무 쉬워졌음  
    또, 학문 분야마다 평가 방식이 달라야 하며, 컴퓨터공학처럼 새로운 분야는 아직 **평가의 성숙도**가 부족함  
    마지막으로, 학생의 선호도는 시험의 질을 판단하는 기준이 아님
  - 학생들이 필기시험을 선호한다고 해서 그게 최선은 아님  
    실제로는 사람들 앞에서 자신의 **의사결정 근거를 설명**해야 하는 상황이 많음  
    코로나 시기에 대면 경험이 줄어든 세대가 말하기를 두려워하는 건 이해하지만, 이런 **불안 극복 훈련**이 오히려 도움이 될 수 있음
  - 온라인 수업에서는 필기시험이 어려움  
    **Take-home 시험의 부정행위 가능성**이 높아졌기 때문에, 구술시험이 완벽하진 않아도 더 나은 대안이 될 수 있음
  - 학생과 교사 간의 **부정행위-감시 경쟁**은 수백 년째 이어져온 일임

- 예전엔 모든 시험이 AI가 개입할 여지가 전혀 없었음  
  펜으로 손글씨로 작성하고, **감독관이 지켜보는 체육관**에서 시험을 봤음  
  부정행위는 곧 퇴학이었고, 수천 명 중 1%만 졸업했음  
  지금 AI에 맞춰 시험을 바꾸자는 얘기를 들으면 미친 것 같음. 이미 해결책은 있었음
  - 학생의 99%가 낙제하는 시스템을 자랑할 일은 아님  
    결국 학생에게만 책임을 돌리는 구조이고, **교수의 게으름**과 **시험 문제 재활용**이 문제였음  
    진짜 해결책은 매번 새로운 문제를 만들고 다양하게 출제하는 것임
  - 손으로 C++ 코드를 쓰게 하는 게 정말 최선의 평가 방식인지 의문임  
    차라리 학교가 제공하는 **개발 환경이 있는 컴퓨터**로 시험을 보는 게 낫다고 생각함
  - 구술시험이 이해도를 진단하는 데 더 낫다는 주장도 있음  
    만약 그게 사실이라면, **확장 가능한 구술시험 방식**을 찾는 건 의미 있음
  - 99% 낙제율은 믿기 어려움. 그런 대학은 문 닫아야 함

- **확장성**에 집착할 필요가 없음  
  대학은 돈이 많으니, 그냥 교수가 직접 구술시험을 보면 됨  
  독일 대학원에서도 구술시험을 많이 봤고, 잘 작동했음
  - 유럽에서는 **Matura나 박사 논문 방어**처럼 구술시험이 일반적임  
    AI에 의존하는 건 게으름의 상징 같음  
    AI는 반복 업무엔 좋지만, **대립적 상황**에서는 신뢰하기 어려움

- 나도 학부 때 **구술시험**을 봤는데, 교수의 태도 변화가 너무 커서 긴장감이 극심했음  
  AI가 그런 감정적 압박을 줄 수 있을지는 의문임  
  오히려 나는 AI의 **작은 실수**에 짜증이 나는 편임
  - 이탈리아에서는 초등학교부터 대학까지 모든 시험에 구술이 포함됨  
    하지만 나는 그런 상황에서 머리가 하얘지고 아무 말도 못함. 정말 괴로움

- 예전에 채용 과정에서 **Take-home 과제**를 줬는데, 지원자 중 일부는 자신이 제출한 코드를 설명하지 못했음  
  LLM이 등장한 지금은 **AI로 대체 작성**하는 유혹이 훨씬 커졌음  
  하지만 우리는 지원자의 **문제 해결력과 커뮤니케이션 능력**을 평가해야 함  
  LLM을 허용한 면접은 결국 “AI 사용 숙련도 테스트”로 변질됨  
  기사 속 방법에는 동의하지 않지만, 문제의식 자체는 현실적임
  - “synthetic pronouns”라는 표현이 흥미로움

- 다음 단계는 AI가 **음성으로 대답하는 AI**를 대신 쓰는 상황일지도 모름  
  결국 인간이 다시 중심이 되어야 함
  - 이미 **텔레프롬프터**만으로도 속이기 충분함  
    앞으로는 **스마트 안경, 골전도 마이크** 등으로 더 교묘해질 것임  
    결국 정직하지만 **사회불안이 있는 학생**만 불이익을 받게 됨
  - 시험 공간이 **전화 부스 수십 개**로 채워진다면, 사무실 칸막이보다 더 끔찍할 것 같음

- 학기 중에 **자발적 모의 구술시험**을 운영하는 게 좋을 듯함  
  학생이 형식에 익숙해지고, 목소리 톤에도 적응할 수 있음  
  36명 정도면 구술시험이 불가능하다는 말은 의외임
  - 기사 말미에 언급된 부분처럼, **AI가 매번 새로운 질문을 생성**하므로 유출 걱정 없이 연습할 수 있음  
    이런 반복 학습이야말로 진짜 배움의 방식임
  - 조교 한 명이 시간당 $25 받는다면, 구술시험은 충분히 가능함  
    $25 환불받고 **LLM이 시험 보는 건 절대 싫음**
  - 프라하의 Charles University에서는 200명 넘는 학생도 구술시험을 봤음
  - 구술시험의 깊이와 빈도에 따라 다름  
    일부 학생만 표본으로 뽑아 시험을 보면 **동기 부여** 혹은 **좌절감**을 동시에 유발할 수 있음
  - 결국 돈 아끼려 **챗봇으로 시험을 대체**하려는 발상임  
    상위권 학생만이라도 10분씩 대화하는 구술시험은 충분히 가능함

- AI 음성 앱에게 심문받는다는 건 상상만 해도 끔찍함  
  이런 방식이 유지된다면, 차라리 **평가 없는 교육 모델**이 필요할지도 모름
  - 결국 **손글씨 시험**으로 돌아가는 게 가장 현실적인 해법일 수도 있음
  - 나도 최근 **AI 면접**을 봤는데, AI에게는 거짓말을 해도 죄책감이 없었음  
    인간이라면 절대 하지 않았을 말도 쉽게 하게 됨
  - 시험이 완전히 사라지면 학습 동기가 유지되지 않음

- 내가 바로 그 **블로그 글의 작성자**임  
  우리 AI 수업에서 새로운 시도를 해본 것뿐임  
  필기시험을 없애려는 게 아니라, **구술시험을 또 하나의 도구**로 추가한 것임  
  팀 프로젝트에서 학생이 실제로 **자신의 작업을 이해했는지** 확인하려는 목적이었음  
  구술시험에서 낮은 점수를 받은 학생은 예상대로 프로젝트 이해도가 낮았음  
  36명 수준이면 직접 면담도 가능하지만, 100명 이상이면 어려움  
  무엇보다 **AI는 피로하지 않기 때문에 일관된 평가**를 제공한다는 연구 결과가 있었음. 그래서 신뢰했음
  - LLM 사용을 허용하는 게 당연하다고 했지만, 나는 동의하지 않음  
    **헬스장에서 지게차를 쓰는 것**과 다를 바 없음  
    MBA 수준의 단순 과목이라면 가능하겠지만, **미묘한 판단이 필요한 과목**에서는 AI가 공정하지 않음  
    이런 단순 확인용 시험이라면 차라리 **키오스크에서 객관식**으로 보는 게 낫다고 생각함

- 우리 때는 모든 시험이 구술이었음  
  큰 시험은 이틀씩 걸렸지만, 교수와 조교가 **연 6회 세션**을 운영했음
  - 나도 물리학 학사·석사 때는 구술시험이 기본이었지만, 박사 과정에서는 사라졌음  
    이유 중 하나는 **공정성의 문화적 해석 차이**였음  
    다양성이 높은 환경에서는 구술시험이 **편향 논란**을 낳을 수 있음
  - 교수도 결국 인간임  
    AI로 $5에 채점하고 **20시간을 휴대폰 스크롤**로 보낼 수 있다면, 그걸 택할 것임
