NIST의 DeepSeek 평가는 과학을 가장한 정치적

▲

GN⁺ 7달전 | parent | ★ favorite | on: NIST의 DeepSeek 평가는 과학을 가장한 정치적 공격이다(erichartford.com)

Hacker News 의견

미국 기관들이 오래전부터 국경을 넘는 사안에 대해 정치적으로 활용되어 온 사실에 전혀 놀라지 않음, 나는 중국 전자제품에 대해서도 항상 회의적인 태도를 가져왔음, 이번 보고서가 허위 및 외국인 혐오적이라는 점에는 동의하지만, 만약 중국이 LLM에 충분한 통제권을 가지게 된다면 현재든 미래든 어떤 식으로든 교묘한 조작을 시도할 가능성에 대해서는 여전히 의심함, 이는 중국뿐 아니라 미국이나 어떤 강대국이든 충분한 권력이 있다면 똑같이 할 것임, 결국 우리는 지속적으로 모델을 의심하고, 벤치마킹하며, 모델이 제공자 아닌 우리의 필요에 부합하는지 꾸준히 감시하는 태도가 중요함
- LLM을 통한 중국의 교묘한 조작 가능성에 대해 언급했는데, 구체적으로 어떤 방식일지 궁금함
- 정부나 정치적 영향력이 당연히 어느 정도는 개입됨, 문제는 존재 여부가 아니라 영향력이 어디에 얼마나 작용하느냐임, 이 보고서를 ‘허위’거나 ‘편향됐다’고 단정하고 일축하는 태도는 의미 없음, 우리는 복잡한 세상에서 정보를 걸러내고 분석할 필요가 있음
- 외국산에 대한 허위 정보 퍼뜨리기가 해답이 아니며, 오히려 사람들이 오픈소스 모델을 원한다는 것을 인식하고 자국산 최고 품질 모델을 공개해 그 모델이 널리 사용되도록 하는 것이 더 나음
- 미국 민주주의에 대해 생각을 정리해보면, 미국 리더십은 언제든 원하는 대로 결정할 수 있는 최대한의 유연성을 추구함, 민주주의이다 보니 대중의 지지라는 환상을 유지해야 하고, 정부가 특정 시각을 심어 대중의 생각 일부를 장악함으로써 어떤 결정을 내리든 일정 지지를 확보할 수 있도록 환경을 만들어 둠, 만약 정책이 바뀌거나 새 지도자가 등장하면, 전임자의 잘못으로 몰고 ‘전에는 나빴지만 지금은 바뀌었다’는 식의 도덕적 새 출발이 가능함, 이는 권위주의 체제에서는 불가능한 점임, 예를 들어 푸틴이 전쟁의 손실을 인지해도 정치적 정당성을 잃지 않으려면 전쟁을 멈출 수 없음, 만약 러시아가 미국식 민주주의였다면, 새 지도자 선출, 철군, 푸틴에게 형식적 처벌 후 국제사회에서 책임 면제까지 빠르게 진행할 수 있었을 것임
- 이 기관들이 국경 내에서도 정치적 도구로 활용됨
모든 분들께 원문 보고서를 먼저 읽어보고, 그 후에 이번 분석을 읽고 직접 판단할 것을 추천함, 클릭 유도성 요약에 휘둘리지 않고 원문을 읽는 것이 중요함
- 여기가 원문임: https://www.nist.gov/system/files/documents/2025/09/30/CAISI_Evaluation_of_DeepSeek_AI_Models.pdf
- 많은 사람들이 원문을 읽지 않은 듯함, 보고서에서 ‘exfiltration(정보유출)’을 어떻게 다루는지만 봐도 에세이 내용과 NIST 원문 보고서가 다름을 알 수 있음, 클릭베이트 웹페이지가 70페이지짜리 기술 보고서보다 더 많은 주목을 받는 것은 요즘 사람들의 짧아진 주의집중 탓임
유럽 대학에서 연구진과 스태프들을 위해 LLM을 호스팅하는 입장에서 개인적으로 크게 와닿는 사안임, 중국 모델 없이는 현재 우리가 하는 여러 작업이 불가능했을 것임, 내가 보기엔 EU든 어디든 중국 연구소들이 이렇게 관대한 라이선스 하에 모델을 공개해주는 점에 감사해야 함, 이들이 없었다면 선택지가 형편없었을 것임, 미국산 강력한 모델이 필요하다면 미화 수억에 달하는 NVIDIA 데이터센터 구축을 권유받고, EU 옵션조차 자체 하드웨어에 호스팅해도 라이선스 요금을 내야 하지만, 결국 전문지식도 보호됨, 이와 달리 DeepSeek는 '비밀 소스'를 공개해 우리처럼 vLLM 같은 오픈소스 프로젝트가 더욱 효율적으로 모델을 호스팅하도록 도운 바 있음
실제로 보고서를 읽어보니, 본문의 설명과는 내용 일치하지 않음
- 흥미로운 점은, 이 포스트의 댓글조차도 실제 본문 내용과 다르다는 것임, 작성자는 오픈소스에 대한 공격이라고 계속 몰아가지만, 댓글들은 오히려 중국 영향력에서 생길 수 있는 문제에 대해 제대로 언급하는 듯함
- 이 블로그 글은 매우 오해의 소지가 있는 내용임, 본문의 첫 번째 단락들이 NIST 보고서에 ‘악성 코드, 백도어, 데이터 유출 흔적이 없었다’고 강조하지만, 이건 NIST가 실제 주장하지 않은 내용임, 블로그 포스트만 본다면 NIST가 근거 없이 백도어 존재를 주장한 것처럼 보임
- 내 경우는 실제 보고서 내용과 잘 일치한다고 느꼈음
중국 모델이 비방의 대상이 되더라도, 나는 성능 좋고 저렴한 모델을 써서 경쟁 우위 챙길 예정임
- 비방이 결국 형사처벌 수순까지 이어지는 첫걸음임
- NIST 기사(원문)에서 비방 표현은 전혀 찾을 수 없었음, 내가 생각하는 ‘비방’의 정의는 적국을 사탄화하는 선전임, 만약 다르다면 보고서에서 구체적으로 어디인지 지적해줬으면 함, https://www.thefreedictionary.com/demonization 참고
- 폐쇄형 모델이 성능은 더 나쁜데 여러 배 비싼 가격에, 검열도 심한 것을 사람들이 옹호하는 현상은 비정상임, 중국 기업들은 서구 기업들처럼 벤치마크에 집착하지 않고, 실제 써보면 Kimi, GLM, Deepseek 같은 모델이 영문 벤치마크 점수는 낮아도 체감 품질은 훨씬 우수하다고 느낌, 특히 Kimi는 하드웨어 질문에 대해 Gemini, Claude에 비해 훨씬 더 자세하고 정확하게 답변함, 이는 중국어 데이터 학습을 더 잘 활용했기 때문이라 생각함
작성자 Eric Hartford가 ‘선동적인 언어를 걷어내야 한다’고 했는데, 보고서를 보면 그런 언어가 보이지 않았음, 전반적으로 건조하고 지루할 수 있는 문체임
- 오히려 블로그 포스트에 근거 없는 선동적 언어가 굉장히 많음
- 실제로 이번 기사가 오히려 NIST나 미국을 겨냥한 ‘흑색선전’에 가깝다고 생각함, 선동적 언어도 기사에서 더 많이 보임
좋은 통찰을 공유해줘서 고마움, 혹시 작성자가 만든 uncensored Dolphin 모델을 실제로 써본 사람 있다면 경험이 궁금함
- 내 생각을 말하자면, 가장 좋은 방법은 직접 평가 프레임워크를 만들어 직접 써보는 것임, 두 번째 대안은 자신과 유사한 평가를 진행한 외부 사례를 찾아보는 것임, 그러나 자신의 기준을 정립하지 않은 채 남의 평가가 충분히 신뢰할 만한지 알 수 없음, 특히 ML이나 AI 분야에서 HN 상에서 이루어지는 논의의 품질을 낮게 평가함, 참가자들이 신속하고, 냉소적이며, 파벌화되어 있어 제대로 진실을 추구하지 않는 느낌임, 그럼에도 불구하고 이곳에 남아 토론에 기여하고 싶음, 항상 명확성, 논리, 깊이 있는 논의가 이뤄지길 바람, 때로는 https://xkcd.com/386/ 같은 느낌이 들기도 함
DeepSeek가 Nature 저널의 동료 평가 논문도 나온 만큼, 독립 연구자가 오픈 모델에서 지적한 일부 문제점을 기사에서도 인정함, 그런 점에서 이번 NIST 평가가 정치적 공격에 가깝다고 생각함, 미국 정보기관이 기술 이득이 생길 때마다 이를 사찰 목적으로 활용해왔던 CryptoAG 사건이나 화웨이 논란에서 실제로는 큰 악의적 증거가 나오지 않았던 것처럼, 이런 관행이 불안감의 근거가 됨, 결국 Kimi, Qwen 등 다양한 오픈모델이 존재해 비용과 성능이 평준화되어야 하며, 각국이 인공지능을 ‘지정학적 해자’로 삼으려는 경쟁이 사라지는 것이 분야 전체를 위해 긍정적임
중국이 DeepSeek 이후 훨씬 더 우수한 오픈소스 모델을 공개한 시점에 이미 NIST 보고서는 한발 늦은 듯함
- DeepSeek는 계속해서 신규 버전이 나오고 있음, https://api-docs.deepseek.com/updates 참고
NIST가 왜 성능, 비용, 채택률을 평가하는지 의문임, 최근 출시된 미국산 모델(OpenAI GPT-5 시리즈, Anthropic Opus 4 등)과 예전 DeepSeek (R1, R1-0528, V3.1)만을 비교했는데, 현재 최신 DeepSeek 3.2는 매우 성능이 좋음, 자동차가 0-60마일을 3초에 달린다고 해서 정부의 평가가 중요한 게 아니라, 내가 실제 몰아보고 판단해야 함, DeepSeek의 ’최고 보안 모델’이 악성 요청에 대한 거부율 6%로 기술되어 있지만, 실상은 미국산 GPT 모델 역시 이제는 아무 제한 없이 악용 가능함, 이번 보고서는 NIST와 보안 험담이 아니라 미국의 선전용 자료에 불과하다고 생각함