1P by GN⁺ 2시간전 | ★ favorite | 댓글 1개
  • Kaggle에 불법 업로드된 Harry Potter 데이터셋을 활용해 SQL 기반 RAG 애플리케이션 구현 과정을 제시한 글이지만 이미 삭제됨
  • Azure SQL과 Microsoft Fabric SQL DB가 네이티브 벡터 검색을 지원하고, langchain-sqlserverVector Store 관리 가능
  • Azure Blob Storage 로드, 텍스트 청킹, Azure OpenAI 임베딩 생성 후 SQL에 벡터 저장 흐름 구성
  • 벡터 유사도 검색과 메타데이터 필터를 활용해 정확한 Q&A 시스템 구축
  • 동일 벡터 저장소를 활용해 GPT4o 기반 팬 픽션 생성 기능까지 확장 구현
  • Archive.is 링크

Azure SQL 네이티브 벡터 지원 및 LangChain 통합

  • Azure SQL과 Microsoft Fabric SQL DB에서 네이티브 벡터 검색 기능 공개 프리뷰 제공
  • langchain-sqlserver 패키지 공개로 SQL Server를 LangChain Vector Store로 관리 가능
    • PyPI 및 GitHub 저장소 통해 설치 및 예제 코드 제공
  • Azure SQL DB, LangChain, LLM을 결합해 수 줄 코드만으로 생성형 AI 기능 추가 가능

예제 데이터셋 구성

  • Kaggle 제공 Harry Potter 7권 텍스트 데이터셋 사용
    • .txt 파일 7개 포함
    • 데모에서는 1권 Harry Potter and the Sorcerer’s Stone만 사용
  • 대중적으로 익숙한 데이터셋을 활용해 이해도 높은 예시 구성

샘플 애플리케이션 구축 단계

1. langchain-sqlserver 패키지 설치

  • pip install langchain-sqlserver==0.1.1 명령으로 통합 패키지 설치
  • SQL 기반 벡터 저장소 기능 활성화

2. Azure Blob Storage 데이터 로드 및 청킹

  • Harry Potter 텍스트 파일을 Azure Blob Storage에 저장 후 로드
  • LangChain의 AzureBlobStorage 통합 기능 활용
  • langchain-text-splitter로 긴 텍스트를 작은 청크로 분할
    • Azure OpenAI 임베딩 입력 토큰 제한 대응 목적

3. 임베딩 및 Chat Completion 정의

  • Azure OpenAI를 사용해 각 청크에 대한 텍스트 임베딩 생성
  • LangChain에서 제공하는 다양한 임베딩 모델 대체 가능
  • Chat Completion 구성 통해 질의 응답 처리 준비

4. Vector Store 초기화 및 문서 삽입

  • AzureOpenAI 임베딩과 함께 Vector Store 초기화
  • add_documents 함수로 문서 및 임베딩 Azure SQL에 저장
  • 적은 코드로 벡터 생성 및 저장 수행 가능

5. 유사도 검색 수행

  • similarity_search_with_score 함수로 벡터 유사도 검색 실행
  • 메타데이터 필터 지원
    • 특정 메타데이터 속성 기반 검색 범위 제한 가능

Use Case 1: Q&A 시스템 구축

  • SQL Vector Store와 LangChain 기반 스토리 Q&A 시스템 구현
  • 사용자 질문에 대해 상위 10개 관련 문서 검색 후 응답 생성
  • vector_store 기반 retriever 생성
  • create_stuff_documents_chain으로 질문-응답 체인 구성
  • ChatPromptTemplate으로 구조화된 응답 포맷 정의
  • create_retrieval_chain 사용 시 검색된 문서를 "context" 키로 함께 반환
    • 응답 생성에 사용된 출처 표시 기능 지원

Use Case 2: Harry Potter 팬 픽션 생성

  • 벡터 저장소 기반으로 새로운 AI 팬 픽션 생성 기능 구현
  • 사용자 프롬프트 입력 시 관련 문단 검색
    • SQL 벡터 저장소에 저장된 임베딩 기반 문맥 유사도 탐색
  • 검색된 문단을 하나의 문자열로 정리해 모델 입력용 컨텍스트 구성
  • GPT4o 모델에 컨텍스트와 사용자 프롬프트를 함께 전달
    • 기존 문맥 요소를 반영한 새로운 이야기 생성
  • 생성 결과와 함께 참조된 벡터 소스 정보도 표시

통합 활용 시나리오

  • Q&A 시스템과 팬 픽션 생성 기능 결합으로 상호작용형 독서 경험 제공
    • 책 내용 이해가 필요한 경우 Q&A 활용
    • 특정 장면 확장 또는 대체 결말 생성 가능

코드 샘플 및 리소스

Hacker News 의견들
  • Microsoft의 이번 사건은 저작권 문제보다 더 근본적인 프로세스 붕괴를 보여주는 것 같음
    문서조차 검토되지 않는다면, 새 코드가 제대로 리뷰되고 있을 가능성은 얼마나 될까 하는 의문이 생김
    경영진에게 묻고 싶음 — 보안과 품질, 그리고 AI 혁신이라는 세 기둥 중 어느 쪽을 선택할 것인지
    (Scott Hanselman, 당신을 좋아하지만 이건 직접 답하지 말고 꼭 리더십에 전달해주길 바람)

    • Microsoft에서 오랫동안 일하며 블로그를 운영했었음
      당시엔 승인 절차 없이 개인적으로 글을 올릴 수 있었고, 그래서 블로그가 더 자연스럽고 진솔한 공간이었음
      이번 사건은 단순히 누군가의 잘못된 판단으로 생긴 일 같고, 글이 내려간 건 당연한 조치로 보임
      다만 더 중요한 건, 그 작성자가 속한 팀이 AI 학습을 위한 저작권 침해를 정당화하고 있는지 여부임
      내부 변호사들뿐 아니라 외부에서도 이 문제를 들여다보게 될 것 같음
    • 문서 검토가 코드 리뷰보다 덜 중요하다고 단정할 수는 없음
      코드에는 버그로 인한 심각한 문제 가능성이 있어 형식적인 리뷰 절차가 존재하지만,
      문서는 소프트웨어 동작에 직접 영향을 주지 않기 때문에 같은 수준의 엄격함이 적용되지 않을 뿐임
      문서가 검토되지 않았다고 해서 코드도 검토되지 않는다는 뜻은 아님
    • 이런 일이 조직 내 어딘가의 문제를 보여주는 건 맞지만, 그걸 전체 코드베이스로 일반화하는 건 과함
      대규모 조직에서는 부서마다 검증 수준이 다르게 적용되며, 코드에는 문서보다 훨씬 엄격한 통제가 있음
    • 예전부터 Microsoft의 개발자 블로그는 대부분 개별 개발자 주도로 운영된다는 인상을 받았음
    • 나도 비슷한 품질의 devblogs 글을 본 적 있음
      Stack Overflow 답변을 거의 그대로 복사한 수준이었고, 그걸 에러 메시지 검색 중에 발견했을 때
      화가 나기보단 그냥 실망스러웠음
  • Microsoft의 블로그 글이 Kaggle의 Harry Potter 데이터셋 페이지를 링크하고 있었음
    해당 페이지는 CC0, 즉 퍼블릭 도메인이라고 주장하지만 명백히 저작권 문제 소지가 있음
    게다가 그 글은 2024년 11월부터 올라와 있었는데, 아직도 내려가지 않았다는 게 놀라움

    • Kaggle 페이지를 직접 확인해보니 2년째 그대로였음
      “Report Dataset” 기능으로 신고하려 했더니 Google의 저작권 신고 페이지로 리디렉션됨
      하지만 “저작권자나 대리인이 아니면 신고할 수 없다”는 메시지로 거부당했음
      완전 코미디 같은 상황임. 그 데이터셋은 명백한 도둑질임
    • 링크를 걸었다고 해서 Microsoft가 바로 책임을 지는 건 아닐 수도 있음
      오히려 잘못된 라이선스로 업로드한 사람에게 책임이 있을 가능성이 큼
      다만 “Harry Potter”라는 이름을 보면 누구나 이게 퍼블릭 도메인이 아니라는 걸 알 수 있으니,
      상식적으로는 Microsoft도 책임을 피하기 어려움
  • Microsoft가 결국 해당 페이지를 내림
    하지만 archive.is에 보존된 사본이 남아 있음

    • 그런데 그 글은 2024년 게시된 거라, 누군가 이 스레드를 보고 조치를 취한 듯함
    • 혹시 이 글도 같이 내려갔는지 궁금함
      “5분 만에 RAG 앱 만들기”라는 제목으로 Azure와 GPT를 이용한 예제였음
    • 이건 명백한 저작권 침해 증거임. Rowling이 원한다면 소송을 걸 수 있을 것 같음
    • archive.is는 CAPTCHA를 이용해 사용자 브라우저를 DDoS에 악용한다는 논란이 있음
      아직도 그 사이트를 쓰는 게 실망스러움
    • 내 쪽에서는 아직 페이지가 그대로 보임
  • 블로그의 AI 생성 썸네일(이미지 링크)이
    젊은 Harry와 친구가 Microsoft 로고 앞에 있는 모습이었음. 정말 놀라움

    • AI는 항상 기차를 이상하게 그리는 버그가 있음
      아마 프레임이 더 넓었다면 객차 연결부가 없었을 것 같음
  • Microsoft를 싫어하는 입장이지만, 이번 사건을 “해적판 가이드”라고 몰아가는 건 과도함
    이건 연구용 예시일 뿐, 제품 통합이 아님
    저작권 독점과 공정 이용을 둘러싼 과잉 반응도 부끄러울 정도임

    • 그래도 Microsoft는 시가총액이 거의 3조 달러
      연구용이라도 사용한 텍스트에 대한 정당한 대가를 지불할 여력은 충분함
    • 사실 이런 일은 Microsoft만의 문제가 아님
      상업용 LLM 업체 대부분이 비슷한 일을 하고 있음
    • 제목이 과장이 아니라, 실제로 불법 자료 다운로드와 사용을 안내하는 글이었음
      일반인이라면 불법인 행위를 기업이 공식 블로그에서 가이드한 셈임
      Anthropic이 저작권 침해로 15억 달러를 합의한 사례도 있음
      나도 현행 저작권 체계를 싫어하지만, 기업과 개인에게 다른 잣대가 적용되는 건 용납할 수 없음
  • 이건 해적판 가이드가 아니라, 단순히 데이터셋을 SQL에 포함시키는 방법을 설명한 글이었음
    오히려 Kaggle이나 업로더인 Shubham Maindola 쪽이 책임을 져야 할 사안임
    “Harry Potter 전자책을 txt로 변환했다”는 데이터 출처 설명이 너무 소름 돋음
    그런데도 Kaggle 점수가 10.0이라니 놀라움

    • 게다가 텍스트 첫 단어부터 오타가 있음 — “M r.”이라니…
  • 이 글은 2024년에 올라온 것이고 Kaggle이 데이터를 호스팅 중임
    Rowling 측이 왜 아직 아무 조치를 취하지 않았는지 의문임

    • 아마 관심 밖에 있었던 탓일 것 같음
      Kaggle 다운로드 수가 1만 정도라 주목받지 못했을 가능성이 큼
      하지만 이건 명백히 선을 넘은 일임
      예전에도 Microsoft의 AI 관련 표절 사건이 있었는데,
      그때도 내부 검수 프로세스가 거의 없다는 지적이 있었음
      관련 스레드: “Microsoft morged my diagram”
    • Rowling에게 트위터로 직접 연락했고, 법률팀에도 제보 완료
    • 과거엔 학술 연구용 텍스트 마이닝은 불법이지만 묵인되곤 했음
      하지만 지금은 상업적 모델이 등장하면서 상황이 완전히 달라졌음
      Books3처럼 수십만 권의 저작권 도서를 포함한 데이터셋도 공개된 적이 있었음
  • 페이지는 이미 삭제되었지만 웹 아카이브 사본이 남아 있음
    윤리의식이 결여된 인력이 미래 기술을 만든다는 게 우려스러움

    • 더 걱정되는 건, 이런 글을 공개하는 게 문제라는 생각조차 못 했다는 점임
      그렇게 엄격한 채용 과정을 거친 사람들이 이런 판단을 한다면,
      실제로 중요한 결정들은 얼마나 위험할지 의문임
    • 물론 저작권 침해가 대기업의 다른 비윤리적 행위들에 비하면 사소할 수도 있음
      하지만 그게 면죄부가 될 순 없음
  • 이제 지적재산권이 무의미해진 세상 같음
    그래서 “AI가 Harry Potter를 그대로 출력하는 소설 스타트업”에 투자할 사람 없을지 농담처럼 제안함

    • “로봇 노예를 만드는 과정이라면 투자하겠다”는 농담으로 응답함
    • 차라리 AI로 무한 팬픽 생성기를 만드는 게 더 재미있을 것 같음
      지금까지 AI가 꾸준히 잘하는 건 유머뿐임
    • “Bee Movie”를 Ghibli풍으로 변환하고, 음성을 텍스트로 바꿨다가 다시 TTS로 재생하는
      무한 확장 가능한 AI 스타트업 아이디어를 제시함
    • “Vindows”라는 새 운영체제를 만들었다는 농담도 나옴
      기존 제품과의 유사성은 “순전히 우연”이라며 풍자함
    • 물론 이런 일은 억만장자에게만 허용된 특권
      일반인이 하면 여전히 모든 걸 잃고 감옥에 감
  • 지금의 Microsoft 행보를 보면 이런 사건이 전혀 놀랍지 않음
    2026년의 Microsoft에는 저작권법과 지식재산권이 더 이상 적용되지 않는 듯한 분위기