# 마이크로소프트의 LLM 교육용 해리포터 불법 복제 가이드(2024) [삭제됨]

> Clean Markdown view of GeekNews topic #26824. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=26824](https://news.hada.io/topic?id=26824)
- GeekNews Markdown: [https://news.hada.io/topic/26824.md](https://news.hada.io/topic/26824.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-02-20T05:34:36+09:00
- Updated: 2026-02-20T05:34:36+09:00
- Original source: [devblogs.microsoft.com](https://devblogs.microsoft.com/azure-sql/langchain-with-sqlvectorstore-example/)
- Points: 1
- Comments: 1

## Topic Body

- Kaggle에 불법 업로드된 Harry Potter 데이터셋을 활용해 **SQL 기반 RAG 애플리케이션** 구현 과정을 제시한 글이지만 이미 삭제됨  
- Azure SQL과 Microsoft Fabric SQL DB가 **네이티브 벡터 검색**을 지원하고, `langchain-sqlserver`로 **Vector Store 관리** 가능  
- Azure Blob Storage 로드, 텍스트 청킹, Azure OpenAI 임베딩 생성 후 **SQL에 벡터 저장** 흐름 구성  
- 벡터 유사도 검색과 메타데이터 필터를 활용해 **정확한 Q&A 시스템** 구축  
- 동일 벡터 저장소를 활용해 GPT4o 기반 **팬 픽션 생성 기능**까지 확장 구현  
- [Archive.is 링크](https://archive.is/D9vEN)  
---  
  
### Azure SQL 네이티브 벡터 지원 및 LangChain 통합  
  
- Azure SQL과 Microsoft Fabric SQL DB에서 **네이티브 벡터 검색 기능** 공개 프리뷰 제공  
- `langchain-sqlserver` 패키지 공개로 SQL Server를 **LangChain Vector Store**로 관리 가능  
  - PyPI 및 GitHub 저장소 통해 설치 및 예제 코드 제공  
- Azure SQL DB, LangChain, LLM을 결합해 **수 줄 코드만으로 생성형 AI 기능 추가 가능**  
  
### 예제 데이터셋 구성  
  
- Kaggle 제공 Harry Potter 7권 텍스트 데이터셋 사용  
  - `.txt` 파일 7개 포함  
  - 데모에서는 1권 *Harry Potter and the Sorcerer’s Stone*만 사용  
- 대중적으로 익숙한 데이터셋을 활용해 **이해도 높은 예시 구성**  
  
### 샘플 애플리케이션 구축 단계  
  
#### 1. langchain-sqlserver 패키지 설치  
  
- `pip install langchain-sqlserver==0.1.1` 명령으로 통합 패키지 설치  
- SQL 기반 벡터 저장소 기능 활성화  
  
#### 2. Azure Blob Storage 데이터 로드 및 청킹  
  
- Harry Potter 텍스트 파일을 Azure Blob Storage에 저장 후 로드  
- LangChain의 **AzureBlobStorage 통합 기능** 활용  
- `langchain-text-splitter`로 긴 텍스트를 작은 청크로 분할  
  - Azure OpenAI 임베딩 입력 토큰 제한 대응 목적  
  
#### 3. 임베딩 및 Chat Completion 정의  
  
- Azure OpenAI를 사용해 각 청크에 대한 **텍스트 임베딩 생성**  
- LangChain에서 제공하는 다양한 임베딩 모델 대체 가능  
- Chat Completion 구성 통해 질의 응답 처리 준비  
  
#### 4. Vector Store 초기화 및 문서 삽입  
  
- AzureOpenAI 임베딩과 함께 **Vector Store 초기화**  
- `add_documents` 함수로 문서 및 임베딩 Azure SQL에 저장  
- 적은 코드로 벡터 생성 및 저장 수행 가능  
  
#### 5. 유사도 검색 수행  
  
- `similarity_search_with_score` 함수로 벡터 유사도 검색 실행  
- 메타데이터 필터 지원  
  - 특정 메타데이터 속성 기반 검색 범위 제한 가능  
  
### Use Case 1: Q&A 시스템 구축  
  
- SQL Vector Store와 LangChain 기반 **스토리 Q&A 시스템 구현**  
- 사용자 질문에 대해 상위 10개 관련 문서 검색 후 응답 생성  
- `vector_store` 기반 retriever 생성  
- `create_stuff_documents_chain`으로 질문-응답 체인 구성  
- `ChatPromptTemplate`으로 구조화된 응답 포맷 정의  
- `create_retrieval_chain` 사용 시 검색된 문서를 `"context"` 키로 함께 반환  
  - 응답 생성에 사용된 **출처 표시 기능 지원**  
  
### Use Case 2: Harry Potter 팬 픽션 생성  
  
- 벡터 저장소 기반으로 새로운 **AI 팬 픽션 생성 기능 구현**  
- 사용자 프롬프트 입력 시 관련 문단 검색  
  - SQL 벡터 저장소에 저장된 임베딩 기반 문맥 유사도 탐색  
- 검색된 문단을 하나의 문자열로 정리해 모델 입력용 컨텍스트 구성  
- GPT4o 모델에 컨텍스트와 사용자 프롬프트를 함께 전달  
  - 기존 문맥 요소를 반영한 새로운 이야기 생성  
- 생성 결과와 함께 참조된 벡터 소스 정보도 표시  
  
### 통합 활용 시나리오  
  
- Q&A 시스템과 팬 픽션 생성 기능 결합으로 **상호작용형 독서 경험 제공**  
  - 책 내용 이해가 필요한 경우 Q&A 활용  
  - 특정 장면 확장 또는 대체 결말 생성 가능  
  
### 코드 샘플 및 리소스  
  
- LangChain-SQL-RAG 노트북 GitHub 저장소 제공  
  - https://github.com/Azure-Samples/azure-sql-db-vector-search  
- Azure SQL 및 SQL Server 피드백 포털 통해 기능 개선 요청 가능

## Comments



### Comment 51435

- Author: neo
- Created: 2026-02-20T05:34:36+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=47067759) 
- Microsoft의 이번 사건은 **저작권 문제**보다 더 근본적인 **프로세스 붕괴**를 보여주는 것 같음  
  문서조차 검토되지 않는다면, 새 코드가 제대로 리뷰되고 있을 가능성은 얼마나 될까 하는 의문이 생김  
  경영진에게 묻고 싶음 — 보안과 품질, 그리고 AI 혁신이라는 세 기둥 중 어느 쪽을 선택할 것인지  
  (Scott Hanselman, 당신을 좋아하지만 이건 직접 답하지 말고 꼭 리더십에 전달해주길 바람)
  - Microsoft에서 오랫동안 일하며 블로그를 운영했었음  
    당시엔 승인 절차 없이 개인적으로 글을 올릴 수 있었고, 그래서 블로그가 더 **자연스럽고 진솔한 공간**이었음  
    이번 사건은 단순히 누군가의 잘못된 판단으로 생긴 일 같고, 글이 내려간 건 당연한 조치로 보임  
    다만 더 중요한 건, 그 작성자가 속한 팀이 **AI 학습을 위한 저작권 침해를 정당화**하고 있는지 여부임  
    내부 변호사들뿐 아니라 외부에서도 이 문제를 들여다보게 될 것 같음
  - 문서 검토가 코드 리뷰보다 덜 중요하다고 단정할 수는 없음  
    코드에는 버그로 인한 심각한 문제 가능성이 있어 **형식적인 리뷰 절차**가 존재하지만,  
    문서는 소프트웨어 동작에 직접 영향을 주지 않기 때문에 같은 수준의 엄격함이 적용되지 않을 뿐임  
    문서가 검토되지 않았다고 해서 코드도 검토되지 않는다는 뜻은 아님
  - 이런 일이 조직 내 어딘가의 문제를 보여주는 건 맞지만, 그걸 전체 코드베이스로 일반화하는 건 과함  
    대규모 조직에서는 부서마다 **검증 수준이 다르게 적용**되며, 코드에는 문서보다 훨씬 엄격한 통제가 있음
  - 예전부터 Microsoft의 개발자 블로그는 대부분 **개별 개발자 주도**로 운영된다는 인상을 받았음
  - 나도 비슷한 품질의 devblogs 글을 본 적 있음  
    Stack Overflow 답변을 거의 그대로 복사한 수준이었고, 그걸 에러 메시지 검색 중에 발견했을 때  
    화가 나기보단 그냥 **실망스러웠음**

- Microsoft의 블로그 글이 Kaggle의 [Harry Potter 데이터셋 페이지](https://www.kaggle.com/datasets/shubhammaindola/harry-potter-books)를 링크하고 있었음  
  해당 페이지는 CC0, 즉 **퍼블릭 도메인**이라고 주장하지만 명백히 저작권 문제 소지가 있음  
  게다가 그 글은 2024년 11월부터 올라와 있었는데, 아직도 내려가지 않았다는 게 놀라움
  - Kaggle 페이지를 직접 확인해보니 2년째 그대로였음  
    “Report Dataset” 기능으로 신고하려 했더니 Google의 [저작권 신고 페이지](https://support.google.com/legal/troubleshooter/1114905?product=kaggle&url=https%25253A%25252F%25252Fwww.kaggle.com%25252Fdatasets%25252Fshubhammaindola%25252Fharry-potter-books#ts=1115658%2C13774968%2C14315871%2C13799514%2C1115789%2C1115864)로 리디렉션됨  
    하지만 “저작권자나 대리인이 아니면 신고할 수 없다”는 메시지로 거부당했음  
    완전 **코미디 같은 상황**임. 그 데이터셋은 명백한 도둑질임
  - 링크를 걸었다고 해서 Microsoft가 바로 책임을 지는 건 아닐 수도 있음  
    오히려 **잘못된 라이선스로 업로드한 사람**에게 책임이 있을 가능성이 큼  
    다만 “Harry Potter”라는 이름을 보면 누구나 이게 퍼블릭 도메인이 아니라는 걸 알 수 있으니,  
    상식적으로는 Microsoft도 책임을 피하기 어려움

- Microsoft가 결국 해당 페이지를 내림  
  하지만 [archive.is에 보존된 사본](https://archive.is/D9vEN)이 남아 있음
  - 그런데 그 글은 2024년 게시된 거라, 누군가 이 스레드를 보고 조치를 취한 듯함
  - 혹시 [이 글](https://devblogs.microsoft.com/azure-sql/?p=4796)도 같이 내려갔는지 궁금함  
    “5분 만에 RAG 앱 만들기”라는 제목으로 Azure와 GPT를 이용한 예제였음
  - 이건 명백한 **저작권 침해 증거**임. Rowling이 원한다면 소송을 걸 수 있을 것 같음
  - archive.is는 CAPTCHA를 이용해 **사용자 브라우저를 DDoS에 악용**한다는 논란이 있음  
    아직도 그 사이트를 쓰는 게 실망스러움
  - 내 쪽에서는 아직 페이지가 그대로 보임

- 블로그의 AI 생성 썸네일([이미지 링크](https://devblogs.microsoft.com/azure-sql/wp-content/uploads/sites/56/2024/11/Designer-23.jpeg))이  
  젊은 Harry와 친구가 Microsoft 로고 앞에 있는 모습이었음. 정말 놀라움
  - AI는 항상 **기차를 이상하게 그리는 버그**가 있음  
    아마 프레임이 더 넓었다면 객차 연결부가 없었을 것 같음

- Microsoft를 싫어하는 입장이지만, 이번 사건을 “해적판 가이드”라고 몰아가는 건 과도함  
  이건 **연구용 예시**일 뿐, 제품 통합이 아님  
  저작권 독점과 공정 이용을 둘러싼 과잉 반응도 부끄러울 정도임
  - 그래도 Microsoft는 시가총액이 거의 **3조 달러**임  
    연구용이라도 사용한 텍스트에 대한 정당한 대가를 지불할 여력은 충분함
  - 사실 이런 일은 Microsoft만의 문제가 아님  
    상업용 LLM 업체 대부분이 비슷한 일을 하고 있음
  - 제목이 과장이 아니라, 실제로 **불법 자료 다운로드와 사용을 안내하는 글**이었음  
    일반인이라면 불법인 행위를 기업이 공식 블로그에서 가이드한 셈임  
    Anthropic이 저작권 침해로 15억 달러를 합의한 사례도 있음  
    나도 현행 저작권 체계를 싫어하지만, **기업과 개인에게 다른 잣대**가 적용되는 건 용납할 수 없음

- 이건 해적판 가이드가 아니라, 단순히 **데이터셋을 SQL에 포함시키는 방법**을 설명한 글이었음  
  오히려 Kaggle이나 업로더인 Shubham Maindola 쪽이 책임을 져야 할 사안임  
  “Harry Potter 전자책을 txt로 변환했다”는 데이터 출처 설명이 너무 소름 돋음  
  그런데도 Kaggle 점수가 10.0이라니 놀라움
  - 게다가 텍스트 첫 단어부터 오타가 있음 — “M r.”이라니…

- 이 글은 2024년에 올라온 것이고 Kaggle이 데이터를 호스팅 중임  
  Rowling 측이 왜 아직 아무 조치를 취하지 않았는지 의문임
  - 아마 **관심 밖에 있었던 탓**일 것 같음  
    Kaggle 다운로드 수가 1만 정도라 주목받지 못했을 가능성이 큼  
    하지만 이건 명백히 선을 넘은 일임  
    예전에도 Microsoft의 **AI 관련 표절 사건**이 있었는데,  
    그때도 내부 검수 프로세스가 거의 없다는 지적이 있었음  
    관련 스레드: [“Microsoft morged my diagram”](https://news.ycombinator.com/item?id=47057829)
  - Rowling에게 트위터로 직접 연락했고, **법률팀에도 제보 완료**함
  - 과거엔 학술 연구용 텍스트 마이닝은 불법이지만 묵인되곤 했음  
    하지만 지금은 상업적 모델이 등장하면서 상황이 완전히 달라졌음  
    Books3처럼 수십만 권의 저작권 도서를 포함한 데이터셋도 공개된 적이 있었음

- 페이지는 이미 삭제되었지만 [웹 아카이브 사본](https://web.archive.org/web/20260105115129/https://devblogs.microsoft.com/azure-sql/langchain-with-sqlvectorstore-example/)이 남아 있음  
  **윤리의식이 결여된 인력**이 미래 기술을 만든다는 게 우려스러움
  - 더 걱정되는 건, 이런 글을 공개하는 게 문제라는 생각조차 못 했다는 점임  
    그렇게 엄격한 채용 과정을 거친 사람들이 이런 판단을 한다면,  
    실제로 중요한 결정들은 얼마나 위험할지 의문임
  - 물론 저작권 침해가 대기업의 다른 비윤리적 행위들에 비하면 사소할 수도 있음  
    하지만 그게 면죄부가 될 순 없음

- 이제 **지적재산권이 무의미해진 세상** 같음  
  그래서 “AI가 Harry Potter를 그대로 출력하는 소설 스타트업”에 투자할 사람 없을지 농담처럼 제안함
  - “로봇 노예를 만드는 과정이라면 투자하겠다”는 농담으로 응답함
  - 차라리 AI로 **무한 팬픽 생성기**를 만드는 게 더 재미있을 것 같음  
    지금까지 AI가 꾸준히 잘하는 건 유머뿐임
  - “Bee Movie”를 Ghibli풍으로 변환하고, 음성을 텍스트로 바꿨다가 다시 TTS로 재생하는  
    **무한 확장 가능한 AI 스타트업** 아이디어를 제시함
  - “Vindows”라는 새 운영체제를 만들었다는 농담도 나옴  
    기존 제품과의 유사성은 “순전히 우연”이라며 풍자함
  - 물론 이런 일은 **억만장자에게만 허용된 특권**임  
    일반인이 하면 여전히 모든 걸 잃고 감옥에 감

- 지금의 Microsoft 행보를 보면 이런 사건이 전혀 놀랍지 않음  
  2026년의 Microsoft에는 **저작권법과 지식재산권이 더 이상 적용되지 않는 듯한 분위기**임
