<인간과 AI 를 다르게 취급해야 하는가?>
인간 홍길동이 스택 오버플로우를 포함해 인터넷을 돌아다닙니다. 그는 글들을 여럿 읽어서 특정 주제에 대한 여러 지식을 획득했다고 해봅시다. 길동은 자신이 배운 것들을 알기 쉽게 다시 일반화하고 정리해 외부 블로그에 작성하는 습관이 있습니다. 이때는 CC 라이센스와 관계가 없습니다. 저작자 표시의 의무도 없습니다. 왜냐면 인용이 아니라 학습한 것이기 때문입니다.

AI 는 사람처럼 신경망으로 학습합니다. 여러 소스를 그대로 복사해서 말하는게 아닙니다. 인간처럼 나름 자기가 지식을 분석하고, 스스로의 생각을 정립하고, 재배열해서 말합니다.

오히려 AI의 자유를 제한하고 남의 언어를 그대로 "인용" 하게 만들기가 좀 더 어렵습니다. 이를 위해 RAG 를 쓰는건 쉽지만, 인용하도록 학습하는건 더 어렵습니다.

그런데 AI 보고 따로 "네 생각을 말하지 말고 남의 글(코드)을 그대로 인용해라" 라고 하지 않아도 남의 말을 복사하듯이 떠오는 경우는 있습니다. 이 경우는 해당 소스가 너무나 유명한 경우입니다. 예컨데 셰익스피어나 영화의 명대사 등은 너무 유명해서 그대로 출력합니다. 인간도 이런 유명하고 반복적으로 노출되는 내용은 그대로 어구를 외워버리는데, AI 도 같은 겁니다. 이 경우는 인간과 같이 AI도 대개 출처를 알아서 말해줍니다.

결론적으로 과연 학습해서 말하는 내용에 대해 CC 라이센스와 저작권을 요구할 수 있는지 의문입니다. 이미 '학습'이 아닌 '추론'(학습이 끝난 AI를 사용하는 것) 분야에선 위와 같은 이유로 거의 원 소스의 저작권을 인정하지 않는 것이 세계적 트렌드가 되어가고 있습니다.

좋은 댓글 감사합니다.

개발자 홍길동은 SO 에서 본 답변을 통해 '학습'해서 블로그에 글을 적겠지만, 대학원생 홍길동은 다른 사람의 논문을 조금이라도 '인용'했다면 그 출처를 남길 것입니다. 우리가 나누고 있는 대화가 철학이나 발명이 아닌 프로그래밍 세계의 맥락이라면, 학습은 뭐고 인용은 뭘까요?

대개 출처를 남긴다는 점은 반례가 있습니다.
이 부분은 시간이 지나면서 해결될 가능성도 있지만, 코파일럿이 퀘이크의 fast invert sqrt 코드를 그대로 가져오면서 (https://news.ycombinator.com/item?id=27710287) 시작된 논란이었는데 저 코드가 많이 알려진 코드라 눈치챈 것이지 저런식으로 소위 복붙되는 코드가 얼마나 "생성" 됐는지는 아무도 모르는 일입니다.

정말 흥미로운 관점이네요. 많은 참고가 되었습니다.

흥미로운 관점이네요.
한국식으로 보면 "업자에게 넘겨버린 커뮤니티 카페"로 보는 입장이랑, "어차피 2차 창작인데 어떤가?" 느낌이네요.
다만 저는 sns에 올린 내 사진이 상업적으로 이용되는 느낌이라 달갑진 않은거 같아요

인간처럼 나름 자기가 지식을 분석하고, 스스로의 생각을 정립하고, 재배열해서 말합니다

LLM에게 가치관과 생각이 있다고 주장하시는 것 같은데 의도하시는 게 맞나요? 결론에는 영향이 없긴한데 추론에 저작권을 적용하지 말아야하는 근거로서는 적절하지 않은 것 같아서요

각 단어들을 토큰화하고, 그 임베딩 정보를 latent space에 적절히 집어넣고 정리하는 과정은 추상적으로 보면 가치관과 생각에 비유할 순 있다고 봅니다.