20P by xguru 6달전 | favorite | 댓글 14개
  • Stack Overflow와 OpenAI의 계약에 따라, Stack Overflow의 모든 질문과 답변이 GenerativeAI 모델 훈련에 사용될 예정임
    • 이는 CC-BY-SA 라이선스 하에서 요구되는 저작자 표시 없이 이루어질 것임
    • CC-BY-SA 라이선스는 파생 저작물도 동일한 라이선스로 공유되어야 함
  • 이에 나는 Stack Overflow에 데이터 삭제 요청을 하고 계정을 폐쇄함
    • Reddit에서도 같은 조치를 취했음
    • 내가 만드는 데 기여한 데이터가 LLM에 묶여 다시 나에게 팔릴 것이기 때문임
  • Stack Overflow는 단번에 경쟁 우위의 주요 원천인 커뮤니티를 소외시킴
    • 전에는 서로 도울 수 있을 때 도와주고, 미래에 다른 이들이 도와줄 것이라는 기대 하에 심리적 계약을 이행했음
    • 이제는 교환이 아니라 #enshittification이 되어버림
  • 프로그래머들은 이제 예술가, 카피라이터들처럼 작품이 GenAI 솔루션 제작에 끌려갔음
  • OpenAI가 GitHub의 Copilot처럼 코드를 생성하는 LLM을 만들면, 생성된 AI 모델이 도입한 버그에 대한 도움을 어디서 받을 수 있을지 의문임
    • 최근 GitClear 보고서에 따르면 이런 도구들이 "코드 품질에 대한 하향 압력"을 야기함
  • 이는 #enshittification의 또 다른 사례이자, DevRel 담당자들에게 중요한 교훈임
    • 커뮤니티가 경쟁 우위의 원천이라면, 그들을 화나게 하지 말아야 함

enshittification 이건 신조어인가 보네요.

전뇌화와 관련해서.

"가치있는 뇌만 보존 될 것이다."라는 누군가의 말이 생각나는 군요.

과연 SO쪽에서는 정직하게 삭제를 할까요? 아니면 Deleted 플래그만 세우고 나중에 "기술적 실수로 인해 학습에 사용되었음"을 발표할까요?

학습에 사용되고 출처가 없으니 묵살될 수도 있습니다.
게다가 애초에 한국이나 유럽과는 달리 '잊힐 권리' 논란이 끝날 수 없는 미국이라...

한국이 잊힐 권리를 법적으로 보장되고 잊혀져야 할 권리를 당연시 여기기 때문에 우리 입장에서는 엄청나게 아찔한 반응이 나올 수밖에 없죠.

게다가 애초에 한국이나 유럽과는 달리 '잊힐 권리' 논란이 끝날 수 없는 미국이라...

이 쪽에는 배경 지식이 없어서 잠깐 검색해봤는데 혹시 표현의 자유와 잊힐 권리가 상충되기 때문인가요? 합의가 아직 없기 때문에 입법도 안된거고요

와, 정말 이럴수도 있겠네요.

<인간과 AI 를 다르게 취급해야 하는가?>
인간 홍길동이 스택 오버플로우를 포함해 인터넷을 돌아다닙니다. 그는 글들을 여럿 읽어서 특정 주제에 대한 여러 지식을 획득했다고 해봅시다. 길동은 자신이 배운 것들을 알기 쉽게 다시 일반화하고 정리해 외부 블로그에 작성하는 습관이 있습니다. 이때는 CC 라이센스와 관계가 없습니다. 저작자 표시의 의무도 없습니다. 왜냐면 인용이 아니라 학습한 것이기 때문입니다.

AI 는 사람처럼 신경망으로 학습합니다. 여러 소스를 그대로 복사해서 말하는게 아닙니다. 인간처럼 나름 자기가 지식을 분석하고, 스스로의 생각을 정립하고, 재배열해서 말합니다.

오히려 AI의 자유를 제한하고 남의 언어를 그대로 "인용" 하게 만들기가 좀 더 어렵습니다. 이를 위해 RAG 를 쓰는건 쉽지만, 인용하도록 학습하는건 더 어렵습니다.

그런데 AI 보고 따로 "네 생각을 말하지 말고 남의 글(코드)을 그대로 인용해라" 라고 하지 않아도 남의 말을 복사하듯이 떠오는 경우는 있습니다. 이 경우는 해당 소스가 너무나 유명한 경우입니다. 예컨데 셰익스피어나 영화의 명대사 등은 너무 유명해서 그대로 출력합니다. 인간도 이런 유명하고 반복적으로 노출되는 내용은 그대로 어구를 외워버리는데, AI 도 같은 겁니다. 이 경우는 인간과 같이 AI도 대개 출처를 알아서 말해줍니다.

결론적으로 과연 학습해서 말하는 내용에 대해 CC 라이센스와 저작권을 요구할 수 있는지 의문입니다. 이미 '학습'이 아닌 '추론'(학습이 끝난 AI를 사용하는 것) 분야에선 위와 같은 이유로 거의 원 소스의 저작권을 인정하지 않는 것이 세계적 트렌드가 되어가고 있습니다.

좋은 댓글 감사합니다.

개발자 홍길동은 SO 에서 본 답변을 통해 '학습'해서 블로그에 글을 적겠지만, 대학원생 홍길동은 다른 사람의 논문을 조금이라도 '인용'했다면 그 출처를 남길 것입니다. 우리가 나누고 있는 대화가 철학이나 발명이 아닌 프로그래밍 세계의 맥락이라면, 학습은 뭐고 인용은 뭘까요?

정말 흥미로운 관점이네요. 많은 참고가 되었습니다.

흥미로운 관점이네요.
한국식으로 보면 "업자에게 넘겨버린 커뮤니티 카페"로 보는 입장이랑, "어차피 2차 창작인데 어떤가?" 느낌이네요.
다만 저는 sns에 올린 내 사진이 상업적으로 이용되는 느낌이라 달갑진 않은거 같아요

인간처럼 나름 자기가 지식을 분석하고, 스스로의 생각을 정립하고, 재배열해서 말합니다

LLM에게 가치관과 생각이 있다고 주장하시는 것 같은데 의도하시는 게 맞나요? 결론에는 영향이 없긴한데 추론에 저작권을 적용하지 말아야하는 근거로서는 적절하지 않은 것 같아서요

각 단어들을 토큰화하고, 그 임베딩 정보를 latent space에 적절히 집어넣고 정리하는 과정은 추상적으로 보면 가치관과 생각에 비유할 순 있다고 봅니다.

대개 출처를 남긴다는 점은 반례가 있습니다.
이 부분은 시간이 지나면서 해결될 가능성도 있지만, 코파일럿이 퀘이크의 fast invert sqrt 코드를 그대로 가져오면서 (https://news.ycombinator.com/item?id=27710287) 시작된 논란이었는데 저 코드가 많이 알려진 코드라 눈치챈 것이지 저런식으로 소위 복붙되는 코드가 얼마나 "생성" 됐는지는 아무도 모르는 일입니다.