내가 StackOverflow에 시간과 전문 지식을 제공한 이유는 CC-BY-SA 라이선스 였기 때문

xguru · 2024-05-14T10:03:01+09:00

Stack Overflow와 OpenAI의 계약에 따라, Stack Overflow의 모든 질문과 답변이 GenerativeAI 모델 훈련에 사용될 예정임 이는 CC-BY-SA 라이선스 하에서 요구되는 저작자 표시 없이 이루어질 것임 CC-BY-SA 라이선스는 파생 저작물도 동일한 라이선스로 공유되어야 함 이에 나는 Stack Overflow에 데이터 삭제 요청을 하고 계정을 폐쇄함 Reddit에서도 같은 조치를 취했음 내가 만드는 데 기여한 데이터가 LLM에 묶여 다시 나에게 팔릴 것이기 때문임 Stack Overflow는 단번에 경쟁 우위의 주요 원천인 커뮤니티를 소외시킴 전에는 서로 도울 수 있을 때 도와주고, 미래에 다른 이들이 도와줄 것이라는 기대 하에 심리적 계약을 이행했음 이제는 교환이 아니라 #enshittification이 되어버림 프로그래머들은 이제 예술가, 카피라이터들처럼 작품이 GenAI 솔루션 제작에 끌려갔음 OpenAI가 GitHub의 Copilot처럼 코드를 생성하는 LLM을 만들면, 생성된 AI 모델이 도입한 버그에 대한 도움을 어디서 받을 수 있을지 의문임 최근 GitClear 보고서에 따르면 이런 도구들이 "코드 품질에 대한 하향 압력"을 야기함 이는 #enshittification의 또 다른 사례이자, DevRel 담당자들에게 중요한 교훈임 커뮤니티가 경쟁 우위의 원천이라면, 그들을 화나게 하지 말아야 함

(aus.social/@KathyReid)

20P by xguru 2024-05-14 | ★ favorite | 댓글 14개

Stack Overflow와 OpenAI의 계약에 따라, Stack Overflow의 모든 질문과 답변이 GenerativeAI 모델 훈련에 사용될 예정임
- 이는 CC-BY-SA 라이선스 하에서 요구되는 저작자 표시 없이 이루어질 것임
- CC-BY-SA 라이선스는 파생 저작물도 동일한 라이선스로 공유되어야 함
이에 나는 Stack Overflow에 데이터 삭제 요청을 하고 계정을 폐쇄함
- Reddit에서도 같은 조치를 취했음
- 내가 만드는 데 기여한 데이터가 LLM에 묶여 다시 나에게 팔릴 것이기 때문임
Stack Overflow는 단번에 경쟁 우위의 주요 원천인 커뮤니티를 소외시킴
- 전에는 서로 도울 수 있을 때 도와주고, 미래에 다른 이들이 도와줄 것이라는 기대 하에 심리적 계약을 이행했음
- 이제는 교환이 아니라 #enshittification이 되어버림
프로그래머들은 이제 예술가, 카피라이터들처럼 작품이 GenAI 솔루션 제작에 끌려갔음
OpenAI가 GitHub의 Copilot처럼 코드를 생성하는 LLM을 만들면, 생성된 AI 모델이 도입한 버그에 대한 도움을 어디서 받을 수 있을지 의문임
- 최근 GitClear 보고서에 따르면 이런 도구들이 "코드 품질에 대한 하향 압력"을 야기함
이는 #enshittification의 또 다른 사례이자, DevRel 담당자들에게 중요한 교훈임
- 커뮤니티가 경쟁 우위의 원천이라면, 그들을 화나게 하지 말아야 함

firea32 2024-05-20 [-]

enshittification 이건 신조어인가 보네요.

답변달기

iaesiiii 2024-05-16 [-]

<인간과 AI 를 다르게 취급해야 하는가?>
인간 홍길동이 스택 오버플로우를 포함해 인터넷을 돌아다닙니다. 그는 글들을 여럿 읽어서 특정 주제에 대한 여러 지식을 획득했다고 해봅시다. 길동은 자신이 배운 것들을 알기 쉽게 다시 일반화하고 정리해 외부 블로그에 작성하는 습관이 있습니다. 이때는 CC 라이센스와 관계가 없습니다. 저작자 표시의 의무도 없습니다. 왜냐면 인용이 아니라 학습한 것이기 때문입니다.

AI 는 사람처럼 신경망으로 학습합니다. 여러 소스를 그대로 복사해서 말하는게 아닙니다. 인간처럼 나름 자기가 지식을 분석하고, 스스로의 생각을 정립하고, 재배열해서 말합니다.

오히려 AI의 자유를 제한하고 남의 언어를 그대로 "인용" 하게 만들기가 좀 더 어렵습니다. 이를 위해 RAG 를 쓰는건 쉽지만, 인용하도록 학습하는건 더 어렵습니다.

그런데 AI 보고 따로 "네 생각을 말하지 말고 남의 글(코드)을 그대로 인용해라" 라고 하지 않아도 남의 말을 복사하듯이 떠오는 경우는 있습니다. 이 경우는 해당 소스가 너무나 유명한 경우입니다. 예컨데 셰익스피어나 영화의 명대사 등은 너무 유명해서 그대로 출력합니다. 인간도 이런 유명하고 반복적으로 노출되는 내용은 그대로 어구를 외워버리는데, AI 도 같은 겁니다. 이 경우는 인간과 같이 AI도 대개 출처를 알아서 말해줍니다.

결론적으로 과연 학습해서 말하는 내용에 대해 CC 라이센스와 저작권을 요구할 수 있는지 의문입니다. 이미 '학습'이 아닌 '추론'(학습이 끝난 AI를 사용하는 것) 분야에선 위와 같은 이유로 거의 원 소스의 저작권을 인정하지 않는 것이 세계적 트렌드가 되어가고 있습니다.

답변달기

roxie 2024-05-26 [-]

좋은 댓글 감사합니다.

개발자 홍길동은 SO 에서 본 답변을 통해 '학습'해서 블로그에 글을 적겠지만, 대학원생 홍길동은 다른 사람의 논문을 조금이라도 '인용'했다면 그 출처를 남길 것입니다. 우리가 나누고 있는 대화가 철학이나 발명이 아닌 프로그래밍 세계의 맥락이라면, 학습은 뭐고 인용은 뭘까요?

답변달기

bobcat 2024-05-17 [-]

대개 출처를 남긴다는 점은 반례가 있습니다.
이 부분은 시간이 지나면서 해결될 가능성도 있지만, 코파일럿이 퀘이크의 fast invert sqrt 코드를 그대로 가져오면서 (https://news.ycombinator.com/item?id=27710287) 시작된 논란이었는데 저 코드가 많이 알려진 코드라 눈치챈 것이지 저런식으로 소위 복붙되는 코드가 얼마나 "생성" 됐는지는 아무도 모르는 일입니다.

답변달기

cosine20 2024-05-16 [-]

정말 흥미로운 관점이네요. 많은 참고가 되었습니다.

답변달기

ng0301 2024-05-16 [-]

흥미로운 관점이네요.
한국식으로 보면 "업자에게 넘겨버린 커뮤니티 카페"로 보는 입장이랑, "어차피 2차 창작인데 어떤가?" 느낌이네요.
다만 저는 sns에 올린 내 사진이 상업적으로 이용되는 느낌이라 달갑진 않은거 같아요

답변달기

savvykang 2024-05-16 [-]