13P by laeyoung 2021-08-02 | favorite | 댓글 12개

- Copilot은 GPT-3를 기반으로 만들어진 Codex를 상품화한 서비스
- Github에 있는 5,400만개의 Repo에서 추출해낸 159GB 데이터 셋으로 학습 진행
- 164개의 벤치마크 데이터 셋을 만들었고, Codex는 그 중 28.8%를 해결함
- LeetCode 문제와 같이 알고리즘 문제 잘품
-> 알고리즘 문제 풀이를 올린 Repo들이 Github에 많고 그걸 학습해서 그런 것으로 판단됨

--------
GeekNews에 Copilot 관련 글들이 몇개 올라왔었죠.
- GitHub CoPilot - AI 페어 프로그래머 https://news.hada.io/topic?id=4526
- GitHub Copilot : 첫인상 https://news.hada.io/topic?id=4639

이번에 회사분이 Copilot 관련 글을 쓰는데 Copilot Preview 계정이 있는게 저 뿐이라 제 컴퓨터에서 좀 도와 드렸습니다.
테스트 좀 해보면서 놀랐던 지점이 코딩 문제를 3개 넣어 봤는데, 바로 통과되는 답이 나오더라구요.
문제 하나는 백준에 있던 문제를 번역기 돌려서 넣었는데도 정답이 나오고요.
온라인 코딩 테스트에서 치팅용으로 쓰는 사람도 있겠다 라는 생각이...

제가 VSCode에 붙여서 한달간 써본 결론은
- 대충 아는 언어나 환경에서 개발 할 때 쓰면 좋다.
-> React 개발하는데 e.target.value 받아서 뭔가 해야 하는게 있었는데, 20글자짜리 추천이 나오길래 Tab 눌러서 자동완성 했더니 원하는대로 되더라고요.
-> 물론 의심이 강해, StackOverFlow가서 확인해 봤는데 추천해준게 정확했습니다.
- 잘 아는 언어나 환경이면, 추천이 최적은 아니어서 거슬릴 수 있다.
- Inference를 위해 Code가 전송될텐데 괜찮으려나? 하는 걱정이 있지만, 파일 하나 하나에 있는 코드 가지고 뭐하겠어? 라는 마음에 그냥 쓰고 있습니다.

https://www.youtube.com/watch?v=a9349pRiCRk
이런 의견도 있더라구요.
전 이거보고 급 관심이 떨어지긴 했습니다.

제가 코드 저작권에 대해 잘 몰라서 그런데, 저작권으로 보호받는 코드를 변수명만 바꾼다던지, 함수이름을 바꾼다던지 살짝만 고쳐서 쓰면 라이센스 위반인가요?

네. 위반입니다.

코드가 완전히 동일한가 보다는... 코드의 출처가 어디인가? 가 코드 저작권에서 중요한 요소가 아닐까 싶네요.
MIT 나 아파치 라이센스의 경우 가져다 변경 후 사용에 큰 문제가 되지 않겠지만...

Copilot에서 추천한 코드가 GPL라이센스를 가지는 코드와 동일한 코드를 추천했고..
개발자가 코드의 일부를 수정해서 개발한 프로젝트에 포함시켰다 라고하면..
GPL 라이센스상으로 보면 해당 프로젝트는 소스코드 전체를 공개해야 되는게 아닌가 싶거든요.

GPL 라이센스를 가진 코드를 사용하면 그걸 사용한 전체 코드를 공개하지 않으면 GPL 라이센스 위반인 걸로 알고 있거든요.

극단적인 예시를 하나 소설로 써보자면...
회사에 솔루션 개발하는데 개발자가 Copilot 사용했는데 재수없게 추천된 코드가 GPL 라이센스를 가진 곳의 코드를 AI가 러닝해서 그대로 뱉어 낸거라면...... 회사 솔루션 코드 전체 코드 공개 하던가 해야하는 이슈가 생기지 않을까 싶네요.

궁금한게, 그럼 copilot 이 뱉어낸 코드를 사용자가 살짝 수정해서 쓴다고 했을때, 그걸 발견해 낼 수 있는 방법이 있나요? 같은 I/O, 같은 기능이라도 다양한 스타일의 코드가 나올수 있을텐데 그런 코드 표절은 어떻게 발견하는건지 궁금하네요(음악 표절 소송처럼 레퍼런스와 서로 비교하는 방법론이 있는걸까요?)

글쎄요. 유사성을 어떻게 검증하고 어디까지 같은 코드로 볼지는 판단기준은 저도 잘 모르겠네요 ㅎㅎ

관련 글이 GeekNews에서도 올라 왔었습니다
https://news.hada.io/topic?id=4659

해당 유튜브 영상에서 저작권 이야기를 하지만, 정작 영상에 있는 자료 화면(뉴스, 만화영화 등)에 대한 출처나 저작권 명시가 없는거 보면 참 어려운 일인거 같아요ㅠ

지적하신 영상에 있는 뉴스/만화에 대한 저작권은 ... 쓴 당사자(영상 제작/배포 한사람)가 책임을 지면 될 문제지만..

Copilot을 사용하다 저작권에 걸리는 코드가 내 코드에 포함되면 이라는 문제죠.
난 툴을 썻을 뿐인데 내가 개발한 프로그램이 저작권 소송에 휘말리는 셈이니까요.

저도 사용해보고 싶은데 언제쯤 할당받을 수 있을지 ㅠ

+1 계속 기다리고 있네요

Github를 많이 쓸수록, 더 빨리 주는걸로 알고있어요.

어쩌다보니 작년에 코로나 때문에 급하게 만든 Repo가 Star 100개 넘게 받게 되어 있는데요. 그거 때문인지 저는 Copilot도 그렇고 Github Codespace도 그렇고 신청하면 잘 선정되긴 하더라고요.