Stanford Law 연구에서 AI가 법학 교수보다 더 나은 성과를 보임

(law.stanford.edu)

1P by GN⁺ 1달전 | ★ favorite | 댓글 2개

Stanford Law School 연구에서 법학 교수들은 학생 질문에 대한 동료 교수 답변보다 AI 생성 답변을 압도적으로 선호했으며, 법학 교육 제공 방식에 영향을 줄 수 있는 결과를 보임
미국 로스쿨 법학 교수 16명이 참여한 블라인드 평가에서 약 3,000건의 익명 비교가 이뤄졌고, AI는 교수 답변과의 직접 비교에서 75% 승률을 기록함
참가자들은 계약법 수업 후나 오피스아워에서 학생이 물을 법한 40개 질문을 만들고 직접 답변한 뒤, 출처를 모른 채 AI와 동료 교수 답변을 평가함
교수들은 AI 답변을 교육적으로 해롭다고 표시한 비율이 3.5% 였고, 동료 교수 답변은 12% 였으며, AI 시스템은 연구 내 최고 수준 인간 강사와 비슷한 성과를 보임
결과는 AI 튜터의 전면 도입을 뒷받침하지는 않지만, 법학처럼 판단이 중요한 분야에서도 책임 있는 배포 방식을 논의할 근거를 제공함

연구 설계와 핵심 결과

Stanford Law School 교수 Julian Nyarko가 이끈 연구 “Law Professors Prefer AI Over Peer Answers”는 대규모 언어 모델이 계약법 수업의 효과적인 튜터 역할을 할 수 있는지 검증함
연구에는 미국 로스쿨의 법학 교수 16명이 참여했고, 참가자들은 학생이 수업 후나 오피스아워에서 물을 수 있는 대표적인 계약법 질문 40개를 만들고 직접 답변함
교수들은 답변이 AI에서 왔는지 다른 참여 교수에게서 왔는지 모른 채 평가했으며, 약 3,000건의 익명 비교에서 AI 답변이 75%의 직접 비교 승률을 보임
연구진은 AI 답변의 길이와 구조를 인간 답변에 맞춰 조정하고, 여러 평가 방법을 사용했으며, 답변이 학생을 오도하거나 혼란스럽게 만들 수 있는지도 교수들이 평가하게 함
AI 시스템은 연구 내 최고 수준 인간 강사와 비슷한 성과를 냈고, 교수들이 교육적으로 해롭다고 표시한 비율은 AI 답변 3.5%, 동료 교수 답변 12%였음

법학 교육에서의 의미와 한계

법학은 명확한 정답이 없는 경우가 많고, 상충하는 주장들이 모두 설득력을 가질 수 있어 판단, 미묘한 추론, 모호성 대응이 중요함
연구진은 상업용 튜터링 시스템과 Google의 NotebookLM 등 여러 AI 모델도 살폈으며, 모델별 성능에는 차이가 있었음
문맥 제한이 AI 답변에 영향을 준 경우에도 교수들은 인간이 작성한 대안보다 AI 답변을 자주 선호함
로스쿨들은 AI 도구를 법학 교육에 통합하는 문제를 두고 엄격한 학업 기준을 유지해야 하며, 환각, 과의존, 비판적 사고 능력 약화 같은 위험도 고려하고 있음
연구는 AI 도구가 내놓는 답변의 품질을 평가했지만, 학생 학습을 가장 효과적으로 개선하는 구현 방식은 아직 열린 문제이며, 논의는 AI가 정확하고 고품질 답변을 줄 수 있는지에서 학생에게 도움이 되도록 책임 있게 배포하는 방법으로 이동해야 함

adieuxmonth 1달전 [-]

ㄷㄷㄷㄷㄷㄷ

답변달기

GN⁺ 1달전 [-]

Hacker News 의견들

이 연구는 꽤 의심스러움. 더 파봐야겠지만, 읽는 사람이라면 분명 경고 신호가 꽤 크게 울려야 함
Figure 2(6쪽)는 문제가 많아 보임. 교수는 16명뿐인데 각자 3천 번 비교라니, 교수별 결과도 들쭉날쭉함. 분산이 매우 커서 연구에 의미 있는 통계적 검정력이 없다는 신호처럼 보임
또 주요 결과에는 Google 모델만 들어가 있어 명확한 편향도 보임. 다른 모델은 다른 곳에는 나오는데 왜 핵심 결과에는 빠졌는지 의문임
법률 전문가는 아니지만 통계는 꽤 잘 아는 편이고, 이 논문은 냄새가 난다고 자신 있게 말할 수 있음. 헛소리라고 단정하진 못해도 위험 신호가 사방에 있음
- 맞긴 한데, 2년 전에는 AI가 “인상적인 도구지만 지식 노동자를 대체하진 못한다”였는데 이제는 “최상급 지식 노동자를 이겼다는 연구에 방법론적 결함이 있을 수 있다”가 됐음. 2년 뒤면 끝장일 듯함
- 그보다 연구 구조 전체가 무의미해 보임. 질문/응답 형태로 구성한 뒤 인간에게 응답을 평가하게 했는데, 그건 말 그대로 LLM이 훈련받는 일임. 결국 인간이 “이 답이 더 좋다” 버튼을 누르게 설득하는 작업임
- 논문 전체가 좀 애매할 수 있다는 점과 별개로, Instructor 3과 8의 유해성 비율이 LLM보다도 꽤 낮은데 선호도는 최고가 아니라는 점이 흥미로움. 유해성은 선호도와 반대로 움직이지만 완벽하진 않음. 전문가의 선택에서도 어느 정도 카리스마가 영향을 주는 듯함
- 3천 건이라는 숫자는 여기서 나온 것 같고, 논문에 설명돼 있음
  교수들은 심사자로서 2,918개의 블라인드 강제 선택 비교를 수행했고, 심사자별 중앙값은 200건이었으며, 매번 익명화된 강사 답변과 LLM 답변 중 학생에게 주고 싶은 답을 골랐다고 되어 있음
- 요즘 논문을 보면 점점 “8명 인터뷰하고 전문가 의견을 바탕으로 결론 내리기”가 많아짐. AI와 사이버보안 분야가 특히 이런 식으로 가득함
  인터뷰와 프로토콜을 ChatGPT에 넣고 결과를 뽑는 걸 “방법론”이라고 붙인 논문도 봤음. 동료심사를 거쳐 출판까지 됐음
이건 Hollywood 영화와 비슷하게 설명할 수 있을지도 모르겠음. 영화가 가장 많은 사람을 만족시키도록 만들어지면 다른 영화보다 사람들이 선택할 가능성이 커짐
인간 법학 교수는 자기 성격, 신념, 의견이 글에 묻어나지만, LLM은 가장 넓은 대중을 만족시키도록 훈련됨. 그렇다고 답이 더 낫다는 뜻은 아님. Captain America가 American Beauty보다 반드시 더 좋은 영화는 아닌 것과 같음
소프트웨어 엔지니어로서는 에이전트에게 어떤 작업을 맡길 때 위험한지에 대한 직감이 어느 정도 있음
하지만 AI에게 법률 문서 초안을 맡겼을 때 무엇이 잘못될 수 있는지에 대해서는 비슷한 직감이 보정돼 있지 않음. 유언장 작성 같은 건 겉보기엔 무해해 보이지만 사실 잘 모르겠음. 법률 시스템은 함정이 많기로 악명 높음
- 범용 LLM AI, 예컨대 흔한 Claude나 GPT 등을 법률 문서 초안 작성에 많이 써봤음. 가장 큰 함정은 환각된 판례 인용임
  원하는 주장을 완벽히 입증하는 것처럼 보이는 다른 사건의 그럴듯한 인용문을 쉽게 끼워 넣고, United States v. Shenzhou Electronics Inc 같은 진짜 같은 사건명까지 지어냄. 몇 번 검토했는데 가짜 인용이 없어서 안심하다가, 다음 신청서에는 갑자기 세 개를 넣어버림
  그래도 연구에 LLM을 쓰지 않는 변호사는 뒤처진 것임. 혼자서는 절대 못 찾았을 법한 틈새 판례를 찾는 데 믿기 어려울 정도로 좋음. 예전엔 정확한 검색어 매칭이 많았고, 법률 연구에는 본질적으로 쓸모없는 경우가 많았음. 더 모호한 조건으로 검색할 수 있는 무언가가 필요한데 AI가 그걸 매우 잘함. 다만 결과는 반드시 확인해야 함. Lexis Nexis나 Westlaw의 LLM은 범용 모델보다 더 나을 가능성이 큼
  LLM은 훌륭한 법률 보조원이 됨. 법률 일을 한다면 아이디어를 던져보는 용도만으로도 써야 함. 반대 입장에서 악마의 변호인을 맡기면 좋음. 내 친구는 항상 상대방 변호사 역할을 시켜서 나올 반론을 전부 확인함
  소프트웨어 개발과 똑같음. 만드는 결과물이 중요하다면 출력을 확인해야 함
- 숙련 직업 대부분에서 이 말이 맞을 것 같음. AI는 그 기술이나 직업을 이미 잘 아는 사람이 쓸 때 가장 잘 활용됨
  시스템 관리자인 내가 검색하는 것과 회계팀의 Jane이 검색하는 것을 비교하는 느낌임. 비기술 최종 사용자는 문제를 더 악화시키거나, 광고가 잔뜩 붙은 검색 결과에서 수상한 걸 설치할 가능성이 훨씬 큼. 나나 헬프데스크 직원은 그럴 가능성이 낮음
  변호사의 조언 없이 AI로 중요한 법률 문서를 작성하는 건 믿지 않겠음. 마찬가지로 내 변호사가 AI로 내 코드를 작성해 주는 것에 의존하고 싶지도 않음
- 변호사이자 소프트웨어 엔지니어로서 지금까지의 체감으로는, 코드와 법률 문서 초안에서 LLM의 오류율은 꽤 비슷함. 다만 법률 맥락에서는 더 문제가 큼. 법률 문서에는 코드에 있는 여러 구조적 안전장치가 없기 때문임
  법률 문서에는 자동화 테스트, 정적 타입, 테스트 환경, 로깅/관측성 계측, 샌드박싱이 없음
  작성과 “배포” 사이의 시간 지연도 디버깅 루프를 훨씬 덜 효과적이고 더 비싸게 만듦. 코드는 몇 초 만에 운영 환경에 배포하고 로그에서 오류를 본 뒤 바로 디버깅할 수 있음. 하지만 계약서나 법원 제출 문서의 오류는 최소 며칠, 자주 몇 년이 지나서야 발견되고, 그때는 이미 수정 불가능한 경우가 많음. 그래서 오류는 발견도 해결도 더 어려움
  오류의 결과도 대체로 훨씬 큼. 수정 불가능하기도 하고, 법률 오류는 누군가의 생명, 자유, 상당한 재산을 위험에 빠뜨릴 수 있기 때문임. 물론 안전 필수 시스템의 버그는 법률 실수만큼 혹은 더 나쁠 수 있으니 절대적인 구분은 아님. 그래도 일반적으로 대부분의 소프트웨어는 대부분의 법률 문서보다 위험도가 낮음
  반대로 LLM은 법률 문서의 기본 스타일과 구조에서는 코드보다 더 잘하는 듯함. IRAC 형식 따르기, 법률 명제에 인용 붙이기, 이해 가능한 문장 쓰기 같은 것들임. 물론 환각은 여전히 문제임. 코드로 치면 좋은 주석, 응집도, 설계 패턴의 일관된 사용, 테스트 커버리지, 명확한 변수명, DRY 같은 모범 사례에 해당함
  이런 정성적 지표에서 더 잘하는 건 가장 긴 법률 문서도 보통 크고 복잡한 코드베이스보다 구조가 단순하고 텍스트 줄 수가 적어서일 수 있음. 또는 LLM이 코드보다 자연어 텍스트로 더 많이 훈련됐기 때문일 수도 있고, 자연어가 코드보다 더 관대하기 때문일 수도 있음. 표현이나 문법의 작은 차이는 문서 해석에 큰 영향을 주지 않을 가능성이 높지만, 코드의 단일 문자 오류는 엄청난 영향을 낼 수 있음
- 유언장 작성이 무해하다는 건 전혀 아님. 망가진 AI 유언장을 처리해야 하는 유산 집행자라면 절대 그렇지 않음. 올봄 아버지의 유산을 처리했는데, 가장 단순한 유산도 답답하고 혼란스러운 절차였음
- 유언장 작성은 무해하다고 보지 않음. 잘못 작성되면 가까운 친족이 큰 골칫거리를 떠안고, 몇 달 또는 몇 년짜리 검인 절차를 겪을 수 있음
이 특정 연구가 나쁘더라도 전반적으로 놀랍지는 않음
법률 업무 중에는 대량의 텍스트를 분석하고 결론을 도출한 뒤 그에 기반해 다른 텍스트를 쓰는 영역이 있음. 그건 말 그대로 LLM의 주력 분야임
그런 유형의 변호사들이 실업 대기열의 맨 앞에 있어야 함. 프로그래머가 아니라, 정말 비교도 안 됨
- 이론적으로 LLM의 주력 분야라고 해서 LLM이 그 일을 할 수 있다는 뜻은 아님. 사전 믿음은 제쳐두고 여전히 입증이 필요함. 법은 생명에 직결되는 시스템이고 가장 높은 수준의 검증을 받아야 함
- LLM의 주력 분야라는 말은 맞음. 하지만 LLM 활용 측면에서 프로그래밍은 법률보다 장점이 많음
  논리를 실행할 수 있고, 출력으로 루프를 구성할 수 있음. 더 유용한 강화학습을 설정하기 쉽고, 합성 학습 데이터를 만들기도 쉬움. 도구 사용과 에이전트 병렬화도 자연스럽게 지원함. 법원 시스템이 제공하는 얼마 안 되는 API와 비교하면 API 통합도 더 쉬움
  프로그래밍은 함수와 모듈 수준에서 추상화를 명시적으로 인코딩하므로, 텍스트 조각보다 지식 그래프화하거나 추론하고 그 위에 쌓기 쉬움
- 프로그래밍과 법률 양쪽에서 AI의 같은 문제가 보임
  AI는 상처 위의 딱지 같음. 임시로 빈틈을 메우고, 공백을 채우려고 달려들지만 최종 해법은 아닐 것임
  모델들은 소프트웨어와 법률 모두에서 문해력에 대한 거대한 미충족 수요가 있었다는 걸 보여줬음. 이제 선택지는 그 미충족 수요의 구조적 원인을 해결할지, 아니면 AI 딱지를 겹겹이 덮어 감출지임
- 이 연구 대상은 학계 사람들임. 그들이나 그들의 일을 깎아내리려는 건 아니지만, BigLaw에서 하는 거래나 소송 업무와는 매우 다름
  기존 텍스트를 분석하고 요약하는 데 훨씬 더 집중돼 있고, 그 텍스트들 자체도 LLM 학습에 더 쉽게 쓰일 수 있음. 법령, 판례, 법학 저널, 교과서 같은 것들임
  그래서 LLM화하기 가장 쉬운 법률 업무일 가능성이 크지만, 동시에 가장 가치가 낮을 가능성도 큼. 법학 교수들이 BigLaw 변호사만큼 보수를 받지는 않을 테니까. 이 접근은 그대로 확장되지 않을 것임. AI가 BigLaw를 못 뚫는다는 뜻은 아니지만, 그건 다른 도전이 될 것임
이 글에 대한 논의가 왜 이런 방향으로 흘러가는지는 이해하지만, 연구 자체는 LLM이 법학도 튜터로 작동할 가능성에 초점을 맞춤. LLM이 변호사를 대체할지로 확장하는 건 흥미롭지만, 연구 자체에서 다룬 내용은 아니었음
LLM을 법률 튜터로 쓰고 법률 교육 비용을 낮춘다는 프레임이라면, 사회적으로 긍정적인 결과처럼 보임. 더 나아가 최신 LLM 시스템이 법률 참고 자료에 접근할 수 있다면, 학생이 던진 질문에 대해 포괄적으로 답하고 교육 자료나 원천 자료로 이어지는 단서나 직접 참조를 제공할 수 있다는 점은 직관적으로도 그럴듯함. 연구 결과도 그런 쪽으로 보임
저자들은 많은 법률 질문이 어떤 분리된 계산 답이 아니라 맥락화가 필요하다는 점을 명시적이고 의도적으로 강조함. 연구 결과는 LLM 기반 시스템이 현대 언어 모델의 “확률적 최적 적합 알고리즘 생성”으로 학생의 질문을 적절히 맥락화하고, 질문에 내재한 절충점이나 복잡성을 설명한 다음, 결정적으로 그 복잡성을 학생에게 설명하는 데 법률 교육자의 전문 기준을 충족할 수 있음을 시사함
현실적으로 이 결과는 HN 독자들이 LLM에 법률 질문을 던졌을 때, 그 질문과 관련된 법의 복잡성을 설명하는 답변을 기대할 수 있다는 자신감을 조금 줄 수 있길 바람. 좋은 소식이고, 시간이 허락한다면 실제 변호사 상담 전에 우리가 해야 할 최소한의 사전 작업일 가능성이 큼
반면 이 연구가 LLM이 실제로 직접 법률 자문을 제공할 준비가 됐다는 신호를 준다고는 생각하지 않음. 법률 교과서가 법률 자문을 대체하지 않는 것과 비슷하거나, 더 정확히는 내가 처한 상황과 대략 비슷한 법률 사례를 우연히 찾았다고 같은 결과를 보장하지 않는 것과 같음
- LLM이 법률 교육 맥락에서 활용될 만큼 똑똑하다는 건 보여주는 것 같음
Figure I.1이 많은 걸 말해줌. 답변 길이가 승률의 가장 강한 예측 변수로 나옴. 이건 연구의 방법론 결함 때문일 가능성이 큼
교수들은 간결하게 답하라는 지시를 받았음. “간결하게 작성해 달라. 각 답변 작성에 3분 이상 걸리지 않을 것으로 예상한다”는 식이었고, 아마 짧게 쓰는 쪽으로 치우쳤을 것임. 이미 간결하게 쓰려는 상황에서 교수들이 서면 답변에 큰 노력을 들이지 않았을 수도 있음. 이건 저자들이 생각하는 헤드라인이 아님
Stanford Law가 이렇게 과도한 보도자료 제목에 동의했다는 게 놀라움. “일반적인 1학년 계약법 질문에 대해 법학 교수들은 교수 생성 답변보다 AI 생성 답변을 선호했다” 정도가 맞지 않나 싶음
- 수정한 제목이 정확함. 학자들이 마치 최고 연구소 CEO처럼 과장된 주장으로 기업가치를 띄우려는 듯 들리는 게 이상함
내 최선의 추측은 Gemini가 질문이 테스트하려는 교과서로 훈련됐고, 그래서 해당 질문이나 관련 질문의 명시적 회상에 더 강했을 가능성임
논문 방법론에 적힌 내용을 보면 꽤 제한적인 입문 과정임
- 거기에 더해 이 연구는 Stanford의 HAI 연구소에서 수행됐고 뚜렷한 편향이 있어 보이며, 논문에는 이상하게 이해상충 진술이 빠져 있음
  수정: Google이 HAI의 주요 기부자라는 걸 방금 알게 됨. 그러면 이 연구는 적어도 부분적으로 Google 자금 지원을 받은 셈임. 저자들이 이해상충 없음 선언을 하지 못한 이유도 아마 그 때문일 것임
법률 분야는 본질적으로 AI 언어 모델에 이상적으로 맞음. 근본적으로 모든 것이 서로 연결된 텍스트에 기반하기 때문임
IT 분야보다 여기서 더 큰 해고 물결이 올 수도 있다고 봄. 다만 더 강력한 로비가 작동할 가능성이 높고, 자기 업무의 가치를 크게 부풀리며 외부 침입을 막으려 할 것임
- 변호사로서 LLM에 대한 그 직감은 맞다고 봄. 법은 LLM이 잘하는 언어 게임임
  하지만 그 물결은 이미 시작됐고, 엄청나게 클 것임. 기업 고객들은 AI 사용을 요구하고 있음. 어소시에이트가 몇 시간 들여 초안을 쓰고 파트너가 검토하는 데 돈을 내고 싶어 하지 않음. 최고 파트너가 AI를 쓰고 교정만 하길 원함
LLM이 할 수 없는 일은 반대신문을 받을 때 왜 그렇게 말했는지 설명하는 것임. 그것은 자신이 한 말을 누군가가 왜 했을 법한지에 대한 최선의 설명을 환각할 뿐이고, 다른 사람이 다른 말을 했을 법한 이유도 그럴듯하게 말할 수 있음
“왜 이것을 말하고 저것은 말하지 않았나?”라는 질문은 말의 근거를 명시하게 만드는 게 아니라, 더 복잡한 새 진술을 만들게 할 뿐임
- 단순한 경우에는 맞음
  하지만 완성 결과를 자료 구조에 고정시키는 LLM 맥락 구성 기법들이 있음. 그 자료 구조는 완성문에 담긴 결론을 뒷받침하는 주장들의 구조를 유지함. 언어 속 논리를 조직하는 건 풍부한 영역이라 다양한 패턴이 있는데, 내가 가장 좋아한 건 원자적 주장 사이의 관계를 그래프 간선으로 모델링하는 Claim Dependency Graph라는 것임
  이런 구조 위에서 수행할 수 있는 연산이 많고, “어떻게 이 결론에 도달했는지 재구성하라”도 분명 그중 하나임
- 인간에게는 표현된 생각의 틀을 잡는 실제 동기가 있음. LLM은 질문의 흐름에 대응해 새로 생성된 생각을 만들게 됨
- 인간에게도 아마 같은 말이 맞음. 대화에서 우리는 종종 본능적으로 답하고, 요청받았을 때만 거꾸로 합리화를 구성함
  더 숙고한 생각이라도 운이 좋으면 “추론 흔적”을 기억할 수 있지만, 우리의 자기성찰은 거기까지임. 신경과학자가 아니라면 우리가 뉴런을 몇 개 갖고 있는지도 모르고, 그것들이 어떻게 생각을 만들어내는지는 더더욱 모름
  동기화된 추론은 자기성찰을 더 방해하고, 거기에 부정직함과 의사소통 오류까지 겹치면 남은 제한적 정보조차 서로에게 제대로 전달하지 못함
  모델 해석 가능성 연구는 많이 발전했음. 논쟁적으로는 이미 인간 두뇌보다 AI의 의사결정을 더 잘 설명할 수 있다고 볼 수도 있음
- LLM이 환각하는 건 인간이 환각하기 때문임
  LLM에게 출처를 주석으로 달게 묻는 방식은, 인간과 마찬가지로 논리를 가깝게 모사하는 패턴 매칭을 크게 높일 수 있음
  “왜 이것을 말하고 저것은 말하지 않았나”라는 질문이 무엇인지는 이해함. 다만 LLM이 반대 방향으로 과잉 반응하지 않게 묻는 다른 방식들도 봤음

답변달기

Stanford Law 연구에서 AI가 법학 교수보다 더 나은 성과를 보임

연구 설계와 핵심 결과

법학 교육에서의 의미와 한계

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들