GN⁺: AI 탐지기 효과 있나? 학생들, 부당한 부정행위 혐의 직면
(bloomberg.com)학생들을 부정행위로 잘못 비난하는 AI 탐지기 - 큰 결과를 가져옴
- 교사의 약 3분의 2가 AI로 생성된 콘텐츠를 탐지하기 위한 도구를 정기적으로 사용한다고 보고함. 이 정도 규모에서는 작은 오류율도 빠르게 누적될 수 있음.
Moira Olmsted의 사례
- 팬데믹 초기 대학을 잠시 쉬고 가족을 시작하기 위해 휴학했던 Moira Olmsted는 학교로 돌아가기를 간절히 원했음.
- 2023년 Central Methodist University의 온라인 강좌에 등록했지만, 제출한 과제물이 AI 탐지 도구에 의해 AI가 생성했을 가능성이 있다고 판단되어 0점을 받음.
- Olmsted는 자폐 스펙트럼 장애가 있어 공식적인 방식으로 글을 쓰기 때문에 AI가 생성한 것으로 오인될 수 있다고 주장했음.
- 성적은 결국 변경되었지만, 다시 지적될 경우 표절과 동일하게 처리하겠다는 엄중한 경고를 받음.
AI 작문 탐지기의 정확성 문제
- 최고의 AI 작문 탐지기는 매우 정확하지만 완벽하지는 않음.
- Businessweek은 GPTZero와 Copyleaks를 ChatGPT 출시 직전에 제출된 500개의 대학 지원 에세이 샘플로 테스트했음.
- 이 서비스들은 에세이의 1~2%를 AI가 작성했을 가능성이 있다고 잘못 지적했음.
- 오탐지된 학생들은 신경다양성, 제2 언어로서의 영어 사용자, 단순한 어휘와 기계적 스타일을 사용하도록 배운 사람들일 가능성이 높음.
- AI 탐지 서비스는 때때로 AI 작문을 인간의 것으로 위장하도록 설계된 자동화 도구에 의해 속을 수 있음.
Ken Sahib의 사례
- 이탈리아에서 대부분의 어린 시절을 보낸 다국어 학생 Ken Sahib는 Berkeley College에서 네트워킹 강좌의 독서 요약 과제물에 0점을 받았을 때 "압도적"이었다고 말함.
- 교수는 모든 도구가 같은 결과를 냈다며 AI가 생성했다고 주장했음.
- Sahib는 결국 수업을 통과했지만, 이 사건으로 교수와의 관계가 악화되었음.
AI 탐지기 사용에 따른 문제점
- 일부 교육자들은 AI 탐지기에서 물러서고 교육 과정에 AI를 통합하려 노력하고 있지만, 여전히 많은 대학과 고등학교에서 이 도구를 사용하고 있음.
- 이로 인해 교실에는 거짓 혐의에 대한 불안감과 편집증이 만연함.
- 학부생들은 자신의 작업의 진실성을 방어하기 위해 많은 시간을 소비하는 노력을 기울이고 있으며, 이는 학습 경험을 저하시킨다고 말함.
- 학생들을 대상으로 특별히 마케팅되는 일반적인 AI 작문 지원 서비스와 문법 검사기 사용을 두려워하기도 함.
AI 탐지 스타트업
- AI 작문 탐지기는 일반적으로 제출물의 단어 복잡성을 측정하는 perplexity를 살펴봄.
- AI 탐지 기업들은 자사 서비스를 판사, 배심원, 집행자로 취급해서는 안 되며, 교사를 안내하고 정보를 제공하는 데이터 포인트로 사용해야 한다고 강조함.
- Copyleaks는 학생들에게 서비스에 대한 액세스 권한을 부여하여 자신의 AI 점수를 볼 수 있도록 하고 있음.
- Turnitin은 학생들이 작문 과제를 어떻게 구성했는지 과정을 보여줄 수 있도록 돕는 서비스로 AI 제품 포트폴리오를 확장하고 있음.
학생들의 대처 방안
- 지적받은 후 Olmsted는 또 다른 비난을 피하기 위해 집착하게 되었음. 노트북에서 글쓰기 과제를 하는 자신을 화면 녹화하고 Google Docs에서 작업하여 변경 사항을 추적하고 디지털 종이 트레일을 만들었음.
- UC San Diego의 화학공학과 3학년인 Nathan Mendoza는 GPTZero를 사용하여 자신의 작업물을 사전 검사함. AI 탐지기에 잘못 지적되지 않도록 표현을 수정하는 데 대부분의 시간을 소비한다고 말함.
- 다른 학생들은 AI 탐지기를 통과하기 위해 제출물을 자동으로 다시 작성할 수 있는 "AI 인간화" 서비스를 사용하여 이 프로세스를 가속화했음.
"AI 인간화" 서비스
- Bloomberg의 Hix Bypass 테스트에 따르면, GPTZero가 98.1%가 AI라고 잘못 말한 인간이 작성한 에세이가 이 서비스에 의해 변경된 후 AI 비율이 5.3%로 크게 감소했음.
Grammarly 등 작문 지원 도구 사용의 문제
- 학생들은 Grammarly와 같은 인기 있는 온라인 작문 지원 도구 사용을 재고하게 되었음.
- Bloomberg은 Grammarly를 사용하여 에세이를 "개선"하거나 "학술적으로 들리게" 하면 100% 인간이 작성한 것으로 통과한 작업이 100% AI가 작성한 것으로 바뀐다는 것을 발견함.
- Florida SouthWestern State College의 Kaitlyn Abellar는 Grammarly 등의 프로그램에 대한 플러그인을 컴퓨터에서 제거했다고 말함.
지속 가능하지 않은 현재 시스템
- 일부 교육자와 학생들에게 현재 시스템은 교사 책상 양쪽에 가하는 부담과 AI가 계속 존재할 것이기 때문에 지속 가능하지 않은 것으로 느껴짐.
- University of Maryland의 영어 교수인 Adam Lloyd는 "인공지능은 우리가 좋아하든 싫어하든 미래의 일부가 될 것"이라며 "AI를 교실에서 격리시키거나 학생들이 사용하지 않도록 하는 것은 잘못된 생각"이라고 말함.
GN⁺의 의견
- AI 탐지 도구의 오탐지 문제는 특히 신경다양성, 영어 학습자, 단순한 문체를 사용하는 학생들에게 심각한 영향을 미칠 수 있음. 교육 기관은 이러한 학생 그룹을 배려하여 AI 탐지 결과를 신중하게 해석해야 함.
- AI 탐지기와 AI 인간화 서비스 간의 군비 경쟁은 교육자와 학생 사이의 신뢰를 손상시키고 교육적 이점은 거의 없음. 교육 과정에 AI를 통합하는 방안을 모색하는 것이 장기적으로 더 나은 접근 방식이 될 수 있음.
- 학생들의 작문 능력 향상을 위해 Grammarly 등의 도구 사용을 금지하기보다는, 이를 교육적으로 활용하는 방안을 고려해 볼 필요가 있음. 예를 들어 교사가 직접 추천하는 도구 목록을 제공하거나 바람직한 사용 방법을 안내할 수 있음.
- Copyleaks, Turnitin 등 AI 탐지 기업들이 학생 친화적인 서비스를 개발하려 노력하는 것은 긍정적인 변화임. 하지만 이러한 도구에 과도하게 의존하기보다는 학생과의 개방적인 소통을 통해 의심스러운 사례를 다루는 것이 바람직함.
- AI와 인간의 공존이 불가피한 미래를 준비하기 위해서는, 학생들에게 AI 도구의 윤리적 사용법을 교육하고 창의적이고 비판적인 사고 역량을 길러주는 것이 중요함. 이를 위해 교육 과정과 평가 방식의 혁신적 변화가 요구됨.
Hacker News 의견
-
30년간 고등 교육에서 수학을 가르친 경험을 바탕으로, 비대면 시험에서는 부정행위가 만연함. 기술을 사용하지 못하게 하고 대면 시험을 요구하는 것이 해결책이지만, 학생들이 수업에 등록하지 않을 것임. 고등 교육 위원회가 모든 수업에 대해 이를 의무화해야 한다고 생각함. 그러나 대면 시험만으로는 충분하지 않음. 학생들이 학습보다는 통과를 위한 작업에 익숙해져 있으며, 부정행위가 증가하고 있음. K-12 교육도 변화가 필요함.
-
AI가 지속될 것이므로 학생 성과를 평가하는 새로운 방법이 필요함. 과거에는 계산기를 사용할 수 없다는 이유로 시험에서 금지되었지만, 이제는 24/7 계산기를 사용할 수 있는 시대임. 변화에 적응하고 사회가 함께 대응 방법을 결정해야 함.
-
AI가 작업을 플래그한 이유를 학생에게 설명하지 않는 것이 문제임. 알고리즘이 정확히 왜 특정 작업을 플래그했는지 설명할 수 있어야 함. 현재 AI 기반 솔루션은 이를 설명할 수 없기 때문에 적절하지 않음.
-
한 학생의 선생님이 모든 에세이를 AI 탐지 소프트웨어로 검사할 것이라고 경고했지만, 그 경고문 자체가 AI 생성물로 판명됨.
-
대형 대학 병원에서 일하는 컨설턴트로서, ChatGPT를 사용해 영어를 더 간결하고 비즈니스적으로 수정함. AI 탐지기가 작동할 수 있지만, 철자 검사기만큼 유용하지 않음. AI는 대형 언어 모델일 뿐이며, 사실 모델이 아님. 교사는 좋은 허위 탐지자가 되어야 함.
-
AI 탐지가 100% 정확하지 않다면, 수백만 명의 학생과 젊은이의 미래를 판단하는 데 적절하지 않다고 믿음. 기술이나 에세이 형식에서 벗어나야 함. 주제에 대한 숙달 기준을 변경해야 함.
-
AI 생성 작업을 식별하는 것은 인간에게는 쉬울 수 있지만, 컴퓨터에 프로그래밍하는 것은 어려움. 이전 직장에서 표절 탐지기를 다루면서 그들이 얼마나 쉽게 속을 수 있는지 깨달음.
-
교사가 LLM 탐지기를 사용하여 학생을 실패시키는 것은 모순적임. 교사는 학생이 과제를 이해하지 못했다고 비난하지만, 교사 자신도 도구의 결정을 이해하지 못하고 책임을 회피함.
-
아이들의 학교에서 AI로 구동되는 무기 스캐너를 도입했지만, 학교에서 지급한 Lenovo 노트북을 무기로 인식함. AI 제품을 구매하고 신뢰하지만, 제대로 작동하지 않음.
-
사람들이 알고리즘을 신뢰하게 된 것이 놀라움. 작동 원리를 모르고 설명할 수 없지만, 그냥 작동한다고 믿음. 부정행위로 판명되면, 아무것도 할 수 없음. 책임을 지지 않는 사람들이 많음. 과거에는 부정행위로 의심받았지만, 증명할 수 없으면 상관없었음. 그러나 이제는 증명할 필요가 없고, 시스템이 있다고 믿음.