GeekNews Weekly

[GN#357] 확률적 창업자와 확률적 엔지니어링

2026-05-04 ~ 2026-05-10 사이의 주요 뉴스들

AI 에이전트가 발전하면서 창업도, 엔지니어링도 새로운 단계로 넘어가고 있습니다. 이제 중요한 변화는 단순히 "코드를 더 빨리 짠다"거나 "작은 팀이 더 많은 일을 한다"는 수준에 머무르지 않습니다. 더 근본적인 변화는, 소프트웨어를 만들어내는 과정이 점점 확률적이 되고 있다는 점입니다.

예전의 소프트웨어 개발은 비교적 결정론적인 세계에 가까웠습니다. 사람이 요구사항을 정리하고, 사람이 코드를 작성하고, 사람이 리뷰한 뒤 배포했습니다. 물론 버그는 늘 있었지만, 적어도 시스템 안에 들어가는 변화가 어디서 왔는지, 누가 어떤 의도로 넣었는지는 추적할 수 있었습니다.

AI 에이전트가 들어오면서 이 흐름에 새로운 불확실성이 섞이고 있습니다. 같은 요청을 해도 매번 다른 코드가 나오고, 사람이 직접 작성하지 않은 코드가 빠르게 쌓입니다. 더 큰 문제는 생성 비용과 검증 비용의 비대칭입니다. 에이전트는 1분 만에 수백 줄짜리 PR을 만들 수 있지만, 그 안에 숨어 있는 미묘한 버그나 구조적 문제를 찾는 일은 여전히 사람의 몫입니다.

「확률적 엔지니어링과 24/7 직원」은 이 지점을 잘 짚습니다. 생성은 싸졌지만 검증은 싸지지 않았고, 일정 규모를 넘어서면 시스템은 인간이 충분히 신뢰하며 평가할 수 있는 것보다 더 많은 결과물을 생산하게 됩니다. 코드베이스는 "작동한다고 아는 것"에서 "작동한다고 믿는 것"에 가까워집니다.

창업도 비슷한 방향으로 움직이고 있습니다. 「확률적 창업자의 부상」은 AI 시대의 창업자가 더 이상 고정된 로드맵을 밀고 가는 사람만은 아니라고 말합니다. 최신 모델이 새로 나오면 어제의 계획이 무의미해지고, 에이전트가 실패하면 도구만 탓하는 것이 아니라 자신의 명세, 검토 방식, 오케스트레이션을 다시 의심해야 합니다. 여기서 말하는 "확률적"은 대충 한다는 뜻이 아닙니다. 오히려 반대에 가깝습니다. 결과가 매번 조금씩 달라지는 환경에서는, 더 엄격하게 판단하고 더 빠르게 교정할 수 있는 사람이 중요해집니다.

엔지니어링 현장에서도 같은 변화가 체감되고 있습니다.

엉클 밥은 「코드를 직접 짜던 시대는 끝났다」고 이야기합니다. AI가 하루 걸리던 작업을 몇 분 만에 끝낼 수 있으니, 이제 개발자는 그 힘을 테스트 커버리지, 뮤테이션 테스트, 복잡도 분석 같은 품질 개선에 쓸 수 있다는 이야기입니다. 맞는 말입니다. AI가 작성 비용을 낮춰준다면, 그만큼 더 높은 품질 기준을 요구할 수 있습니다.

하지만 실무자의 체감은 조금 더 복잡합니다. Simon Willison은 「Vibe coding과 agentic engineering이 내가 원하는 것보다 더 가까워지고 있다」에서, Claude Code가 반복적으로 잘 처리하다 보니 어느 순간 생성된 모든 줄을 더 이상 검토하지 않는 자신을 발견했다고 고백합니다. 모델이 계속 잘해줄수록 신뢰는 커지지만, 바로 그 신뢰 때문에 잘못된 순간에 크게 다칠 수도 있다는 것이죠. 그는 이를 "일탈의 정상화(normalization of deviance)" 라고 부릅니다.

실제로 에이전트가 짠 코드를 보면, 별것 아닌 기능인데도 CPU와 메모리를 과하게 쓰는 경우가 꽤 있습니다. 분석을 시키면 "인스턴스를 업그레이드하라" 고 결론을 내버립니다. 하지만 "그건 돈으로 해결하는 방식이고, 지금 장비에서 돌아가게 다시 생각해봐", "이 로직이 왜 이렇게 무겁지?", "이 데이터를 매번 읽어야 하나?", "처음부터 이렇게 큰 구조가 필요했어?" 이런 식으로 한참 지적하다 보면, 기존 시스템 안에서도 충분히 돌아가는 코드가 나오는 경우가 많습니다.

처음부터 그렇게 만들어주면 좋겠지만, 현재의 모델은 비용, 제약, 운영 현실을 스스로 충분히 고려하지 못합니다. 모델이 더 좋아지면 이런 문제 중 일부는 줄어들 것입니다. 하지만 비용, 제약, 운영 현실은 항상 특정한 맥락 위에 있습니다. 지금 이 서버에서, 이 트래픽으로, 이 예산 안에서 무엇이 맞는지는 모델의 일반 지능만으로 자동 결정되기 어렵습니다. 성능이 올라갈수록 더 그럴듯한 답을 더 빠르게 내놓겠지만, 그 답이 지금 우리 시스템에 맞는지는 여전히 별개의 문제입니다.

그래서 AI 시대의 HITL, 즉 Human-in-the-loop 에서 중요한 것은 단순히 사람이 루프 안에 있다는 사실이 아닙니다. 정말 중요한 것은 그 사람이 루프 안에서 가치 있는 지적을 할 수 있는가입니다. 에이전트가 만든 결과물을 보고 "좋아 보인다"고 넘기는 사람과, "이건 운영에서 터질 것 같다"고 잡아내는 사람의 차이는 점점 더 커질 것입니다.

말하자면 AI 시대의 엔지니어링 역량은, 코드를 직접 치는 손끝보다 좋은 지적질을 할 수 있는 눈에 가까워지고 있습니다.

확률적 창업자도 마찬가지입니다. 에이전트가 프로토타입부터 영업 메일까지 빠르게 만들어주는 시대에는 실행량 자체가 차별점이 되기 어렵습니다. 오히려 너무 많은 실행 결과가 너무 빨리 쌓이면서, 무엇이 실제 신호이고 무엇이 그럴듯한 잡음인지 구분하는 일이 더 중요해집니다. 중요한 것은 수많은 시도 중 무엇을 믿고, 무엇을 버리고, 어디에 더 투자할지 판단하는 능력입니다. 창업자의 일도 점점 직접 만드는 일에서, 확률적으로 쏟아지는 결과물을 선별하고 방향을 조정하는 일로 이동하고 있습니다.

결국 이 시대의 핵심 질문은 이것일지도 모릅니다.

루프 안의 인간은, 루프 안에 있을 가치가 있는가?

모두가 AI를 쓰게 될 시대에, 차이는 "AI를 쓰는가"에서 나지 않을 것입니다. AI가 내놓은 확률적 결과물 앞에서, 누가 더 좋은 질문을 던지고, 더 정확히 의심하고, 더 집요하게 고쳐내는가에서 날 것입니다.

AI 시대의 인간에게 필요한 것은 단순한 승인 권한이 아니라, 결과를 더 낫게 만들 수 있는 판단력입니다.

✓ Feedback : 긱뉴스 위클리 어떻게 읽고 계신가요? 의견과 제안 부탁드려요

✓ Show GN - 직접 만드신 오픈소스나, 재직중인 스타트업의 제품/서비스를 소개해주세요.

✓ Ask GN - 다양한 질문을 올려주세요.

긱뉴스 위클리는 개발자 프로젝트와 오픈소스 후원 서비스 - Fairy 에서 후원을 받고 있습니다. 계속 운영되는 데 힘을 보태고 싶으시다면 아래 링크를 이용해 주세요.

Fairy에서 긱뉴스 후원하기

매주 월요일 아침, 지난 일주일간의 GeekNews 중 엄선한 뉴스들을 이메일로 보내드립니다.

Amazon에서 약 1,000번 면접을 진행하며 얻은 교훈
아마존에서 17년간 약 1,000번의 면접을 진행한 경험을 정리한 글입니다. 기술적으로 뛰어난 후보자가 탈락하는 주된 이유가 기술 부족이 아니라 행동 면접에서의 자기 표현 실패라는 점이 핵심인데요. 면접 준비 시간의 95%를 코딩에 쓰면서 정작 스토리 준비에는 거의 투자하지 않는 패턴을 수백 번 목격했다고 합니다. AI 시대에 기술 역량의 바닥이 올라갈수록, "이 사람과 함께 일하고 싶은가"를 판단하는 행동 면접의 비중은 오히려 더 커질 것이라는 점에서 지금 읽어두면 좋은 글입니다. 주말 하나(약 10시간)만 스토리 준비에 투자해도 결과가 달라진다는 조언에 공감합니다. 스토리 텔링이 중요해요.
최고의 직원이 최악의 관리자가 되는 이유
팀에서 가장 뛰어난 엔지니어를 관리자로 승진시켰더니 오히려 팀이 무너지는 경험, 한 번쯤 보셨을 겁니다. 이 글은 관리직은 승진이 아니라 완전히 새로운 직업이라는 관점에서, 피터 원리(Peter Principle)가 왜 반복되는지를 구조적으로 분석합니다. Gallup 조사에 따르면 직원 몰입도의 70%가 관리자에 의해 좌우된다고 하는데요. AI가 개인 기여자의 생산성을 크게 높여주는 시대에, 오히려 사람을 다루는 역량의 가치는 더 올라가고 있습니다. 후보자를 선별할 때 "무엇을 하겠습니까?"가 아니라 "무엇을 했습니까?" 를 묻고, 현재 역할의 100%를 수행하면서 다음 역할의 50%를 이미 해본 경험이 있는지 확인하라는 150% 규칙 같은 구체적인 체크리스트가 들어 있어서, 바로 적용해볼 수 있습니다.
엉클 밥: "코드를 직접 짜던 시대는 끝났다"
위에서도 언급한 엉클 밥의 말(실제로는 영상)인데요, 여기서 주목할 부분은 그가 말하는 "엄청난 힘"의 구체적인 사용처입니다. 단순히 "AI가 코드를 대신 짜준다"가 아니라, 뮤테이션 테스터를 만들어서 테스트의 실질적 유효성을 검증하고, 순환 복잡도(CRAP 점수) 를 기준으로 AI에게 함수를 쪼개고 커버리지를 확보하라고 지시할 수 있다는 이야기입니다. 그동안 시간이 없어서 미뤄왔던 품질 작업을 AI에게 시킬 수 있게 된 셈인데요. Reddit 댓글에서는 "프로덕션 경험 없이 하는 소리" 라는 반론과 "실제로 E2E 테스트를 AI로 확보하고 있다" 는 현장 보고가 동시에 올라와서, 지금이 정확히 체감이 갈리는 시점임을 보여줍니다.
Agentic Coding은 함정이다
위에서 얘기한 "확률적 엔지니어링" 논의와 정반대 극에서 경고를 보내는 글입니다. Anthropic 연구가 다룬 감독의 역설 - Claude를 효과적으로 쓰려면 감독할 코딩 역량이 필요한데, 코딩 에이전트 사용이 바로 그 역량을 약화시킨다는 모순을 정면으로 짚습니다. 특히 AI를 많이 쓴 시니어 개발자가 외부 연동 관련 회의에서 이렇게 무지하고 창피하다고 느낀 적이 없었다고 고백한 HN 댓글이 인지 부채(cognitive debt) 의 현실을 생생하게 보여줍니다. 제가 말씀드린 "루프 안의 인간이 가치 있는 지적을 할 수 있는가" 라는 질문의 어두운 이면이기도 합니다.
생산적 미루기 - 왜 해야 할 일 대신 다른 생산적인 일을 하게 되는가
해야 할 핵심 작업을 미루면서 다른 생산적인 일을 하고 있는 자신을 발견한 적 있으신가요. 포트폴리오 리디자인, 로컬 AI 실험, 새 사이드 프로젝트 등 다 의미 있는 일인데 정작 마감이 있는 본업은 손을 못 대는 상태 말입니다. 이 글은 그 현상을 뇌과학 관점에서 분석합니다. 뇌의 도파민 보상 시스템이 새로운 자극에 강하게 반응하고, 과거의 생산적 행동이 "나 오늘 충분히 했어" 라는 심리적 면죄부(도덕적 허가)를 만들어준다는 설명이 꽤 찔립니다. 개발자라면 특히 공감할 글입니다.
병목은 결코 코드가 아니었다
1년 넘게 미뤄온 구조화 생성 알고리듬 실험을 Codex에 30분 설명했더니 몇 시간 만에 작동하는 첫 버전이 나왔다는 경험담으로 시작하지만, 글의 진짜 포인트는 거기가 아닙니다. 에이전트가 구현을 맡게 되면 팀의 병목은 코드를 쓰는 사람이 아니라 로드맵, 인수 기준, 설계 문서 같은 정밀한 명세를 만드는 사람으로 이동한다는 것이 핵심입니다. 코드 작성 비용이 낮아지면 이전에는 만들지 않았을 프로토타입과 내부 도구가 폭증하는데, 사용자가 흡수할 수 있는 속도는 그대로이기 때문에 무엇을 만들지 않을지 정하는 규율이 오히려 더 중요해진다는 지적이 날카롭습니다. 위의 "확률적 엔지니어링/창업자" 와도 연결되네요.
에이전트 경제의 블루오션 기회
AI가 채팅 인터페이스에서 자율 실행 에이전트로 넘어가면서 기업 소프트웨어 지형이 어떻게 바뀌는지를 VC 관점에서 정리한 글입니다. MCP와 A2A 프로토콜이 기존 SaaS의 UI 경쟁 우위를 무력화하고, 에이전트가 데이터 레이어에 직접 접근하는 구조로 바뀌면 "UI-for-a-Database" 형태의 SaaS는 구조적 위기에 처한다는 진단이 날카롭습니다. 투자 관점에서 Buy/Hold/Sell로 분류한 프레임워크가 실용적인데, 특히 에이전트 거버넌스 인프라(권한 관리, 감사 추적, 정책 코드화)를 "Fortune 500이 에이전트를 프로덕션에 배포하려면 필수"인 범주로 짚은 부분이 인상적입니다. 스타트업을 준비하거나 SaaS 비즈니스를 운영 중이라면 꼭 읽어볼 글입니다.
Understand-Anything - 코드/지식베이스를 인터랙티브 지식 그래프로 변환하는 플러그인
코드베이스의 파일, 함수, 클래스, 의존성을 멀티 에이전트 파이프라인으로 자동 분석해서 인터랙티브 지식 그래프로 만들어주는 오픈소스 플러그인입니다. 구조적 그래프(코드 레벨)와 도메인 그래프(비즈니스 프로세스 매핑) 두 가지 뷰를 제공하고, 커밋 전 변경 영향 분석(리플 이펙트) 도 가능합니다. 에이전트가 짠 코드가 빠르게 쌓이는 시대에 "이 코드베이스가 지금 어떤 상태인지" 를 파악하는 일 자체가 병목이 되고 있는데, 그 문제를 정면으로 다루는 도구입니다. JSON 기반이라 한 번 커밋하면 팀 전체가 공유할 수 있고, Claude Code부터 Cursor까지 10개 AI 코딩 플랫폼을 지원합니다.
프로그래밍은 형편없다 [2014]
2014년에 쓰인 글인데 지금 읽어도 한 줄도 낡지 않았습니다. "시스템 관리자 전원이 동시에 점심을 먹으러 가면 문명이 붕괴한다", "수조 달러가 'TODO: FIX THIS'라고 적힌 10년 된 코드 위에 돌아가고 있다" 같은 문장들이 시니컬하면서도 정확합니다. AI 에이전트가 코드를 더 빠르게 쏟아내는 2026년에 다시 올라온 이유를 생각해보면, 소프트웨어의 본질적인 혼란은 생성 속도와 무관하게 줄어들지 않는다는 점을 새삼 확인시켜주기 때문이 아닐까 싶습니다. 개발자라면 박장대소하면서도 묘하게 가슴이 서늘해지는 글입니다.
프로그래밍은 여전히 형편없다
바로 위 글 "프로그래밍은 형편없다(2014)"와 연결되는 2026년 현황 에세이입니다. 2016년부터 매일 새벽 3시에 도는 cron job과 # DO NOT CHANGE!!! Ask Ben 주석이 달린 코드를 Sara라는 55세 엔지니어가 홀로 지탱하고 있다는 이야기가 핵심인데요. 조직은 AI를 핑계로 주니어를 잘랐고, 주니어가 시니어로 성장하는 도제식 파이프라인까지 끊어버렸습니다. Sara가 떠나면 3만 명의 급여를 지탱하던 시스템이 같이 무너지지만, 조직은 Sara가 거기 있다는 사실조차 모릅니다. "AI가 일자리를 빼앗은 게 아니라 탐욕이 빼앗았다" 는 결론이 씁쓸하면서도 정확합니다.
AI가 끌어올린 바닥, 우리의 천장은 어디인가? 대화 속에서 찾아낸 세 가지 화두
구글 테크 리드 매니저이자 W3C 오디오 워킹 그룹 의장인 최홍찬 님이 AI 시대의 불안을 세 가지 화두로 정리한 글입니다. 1839년 사진기 발명 때 "회화는 끝났다" 고 선언한 폴 들라로슈의 사례를 꺼내며, AI가 기초적 작업의 바닥을 올려도 천장은 인간의 영역이라는 프레임을 제시합니다. 특히 프롬프트 엔지니어링이나 MCP 같은 최신 기술들을 "불완전한 AI를 제어하기 위한 임시 장치" 로 보는 시각이 시원합니다. 이번 주 메인 기사에서 다룬 "루프 안의 인간이 가치 있는 지적을 할 수 있는가"라는 질문에 대해, 20년 이상의 현장 경험에서 나온 구체적인 답을 제시하는 글입니다.
모두가 AI를 가져도 회사는 여전히 아무것도 배우지 못할 때
Copilot, Claude, Cursor를 다 깔아줬는데 왜 회사는 여전히 나아지지 않는지를 다루는 글입니다. 개인의 AI 생산성 향상이 자동으로 조직 차원의 학습으로 이어지지 않는다는 점이 핵심인데요. 어떤 팀은 에이전트를 촘촘한 루프로 돌리고, 어떤 팀은 자동완성 정도로만 쓰고, 시니어가 발견한 유용한 패턴은 머릿속에만 남아 팀 밖으로 나가지 않습니다. 댓글에서 "내 생산성 향상을 회사에 무료로 공유할 이유가 없다" 고 말하는 개발자의 시선이 이 문제의 현실을 잘 보여줍니다. 측정해야 할 것은 토큰 대비 산출물이 아니라 토큰 대비 학습이라는 지적이 날카롭습니다.
장기 실행 에이전트 - 에이전트가 며칠 동안 실행되면 무엇이 달라지는가
에이전트가 10분이 아니라 10시간, 며칠, 몇 주 동안 실행되면 무엇이 달라지는지를 체계적으로 정리한 글입니다. Anthropic의 내부 테스트에서 Claude가 30시간 이상 자율 코딩한 사례, Project Vend에서 한 달간 자판기 사업을 운영한 실험 등 구체적인 사례가 풍부합니다. 핵심 문제는 세 가지로 수렴하는데, 컨텍스트 윈도우 소진, 세션 간 상태가 날아가는 영속 상태 부재, 그리고 모델이 30% 완성 상태에서도 "다 했다"고 답하는 자기 검증 편향입니다. 결국 모델 자체보다 모델을 감싸는 상태·세션·핸드오프 레이어가 진짜 차이를 만든다는 결론이, 위에서 다룬 "확률적 엔지니어링" 논의와도 맞닿아 있습니다.
확률적 창업자의 부상
위에서 창업자의 책임 설정 전환을 중심으로 소개했는데, 이 글에서 더 흥미로운 부분은 구체적인 숫자입니다. AI 네이티브 팀에서는 엔지니어 업무의 약 70%가 실험, 30%가 로드맵으로 비율이 역전되었다는 관찰이 나오고, 5년 전이라면 "비체계적" 또는 "엄밀함 부족"으로 읽혔을 신호가 지금은 업무 형태에 정확히 부합하는 특성이라고 짚습니다. 투자자 입장에서도 평가 기준이 바뀌어야 한다는 이야기인데, 실험 품질, 선별 규율, 에이전트 함대를 올바른 문제에 배치하는 능력이 새로운 엄밀함이라는 정의가 실무적입니다. VC뿐 아니라 사내에서 신규 프로젝트를 판단하는 분들에게도 읽어볼 만합니다.
확률적 엔지니어링과 24/7 직원
위에서 "생성은 싸졌지만 검증은 싸지지 않았다"는 핵심을 소개했는데, 이 글에서 놓치면 안 되는 부분은 주니어 엔지니어의 훈련 위기 진단입니다. 첫 주부터 AI에 의존해 폴리싱된 코드를 출력하는 주니어들이 모델이 예상 못한 방식으로 실패할 때 버그를 찾지 못한다는 관찰이 나옵니다. 새벽 2시에 스택 트레이스와 씨름하면서만 형성되는 시스템 내부 모델을 개발하지 못했기 때문이라고요. 저자는 현재 세대의 시니어 엔지니어들이 구 방법론으로 완전히 훈련받은 마지막 코호트일 수 있다고 경고하며, 의도적으로 정기적으로 함대 없이 어려운 것을 직접 해보라고 조언합니다. 에이전트 시대의 도제식 교육이 어떻게 바뀌어야 하는지 고민하는 분들에게 필독입니다.
이메일 주소 심층 분석
이메일 주소가 단순한 "사용자명@도메인"이 아니라 얼마나 복잡한 체계인지를 깊이 파헤친 글입니다. Gmail의 점(dot) 무시 정책을 악용한 무료 체험 중복 획득, 모든 이메일에 존재하는 두 개의 발신자 주소(Envelope Sender vs From 헤더)가 스푸핑의 근본 원인이라는 점, + 주소를 거부하는 웹사이트가 사실은 검증 코드의 버그라는 지적까지, 이메일을 다루는 시스템을 만들어본 분이라면 공감할 내용이 가득합니다. RFC 표준과 실제 동작 사이의 간극을 정리해둔 레퍼런스로도 유용합니다.
OpenAI가 대규모 저지연 음성 AI를 제공하는 방법
OpenAI가 9억 명 이상의 주간 활성 사용자에게 자연스러운 음성 대화를 제공하기 위해 WebRTC 스택을 어떻게 재설계했는지 다룬 기술 글입니다. 대부분의 세션이 사용자 1명과 모델 1개의 1:1 대화라는 특성 때문에, 다자간 통화용 SFU 대신 relay + transceiver 분리 구조를 선택했다는 판단이 흥미롭습니다. Kubernetes에서 세션당 UDP 포트를 노출하는 기존 모델이 만드는 방화벽·로드밸런서·롤아웃 복잡성을 어떻게 해결했는지, 첫 STUN 패킷의 ICE ufrag에 라우팅 힌트를 담아 전달하는 구조까지 구체적으로 설명합니다. 음성 AI나 실시간 미디어 인프라를 다루는 분들에게 실용적인 레퍼런스입니다.
Codex CLI 에 /goal 기능 추가
Codex CLI 0.128.0에 목표 기반 자동 반복 실행 기능인 /goal이 추가되었습니다. 설정한 목표가 완료될 때까지 에이전트가 달성 여부를 스스로 평가하며 자율적으로 루프를 돌리고, 토큰 예산이 소진되면 자동 중단하는 구조입니다. 이번 주 다른 글에서 다룬 "장기 실행 에이전트"의 개념이 실제 도구에 빠르게 반영되고 있다는 점에서 주목할 만합니다. 다만 에이전트의 자기 평가가 긍정 편향을 보인다는 연구 결과를 떠올리면, 결국 토큰 예산이라는 가드레일의 설계가 중요해질 것 같습니다. config.toml에 goals = true를 추가해야 활성화됩니다.
AI로 인한 고용 종말이 (아마도) 일어나지 않을 이유
에즈라 클라인의 뉴욕타임즈 사설로, AI CEO들이 "5년 내 신입 일자리 소멸"을 경고하는데 실업률은 4.3%로 안정적이고 소프트웨어 엔지니어 수요는 오히려 급증 중이라는 데이터부터 시작합니다. 스프레드시트가 나왔을 때 회계사가 사라질 거라 했지만 오히려 4배 늘었던 것처럼, AI가 업무 단가를 낮추면 기업은 사람을 자르는 대신 그동안 비용 문제로 포기했던 프로젝트를 시도하게 된다는 Jevons 역설을 다시 꺼냅니다. 다만 진짜 위험은 대량 실업이 아니라 특정 직군만 조용히 타격받는 소외라는 지적이 가장 날카로운 부분입니다. 규모가 작으면 사회는 그 문제를 개인의 무능으로 치부하고 방치하기 쉽다고요.
Gemma 4 가속하기 : 다중 토큰 예측 drafter로 더 빠른 추론
Gemma 4 공개 후 몇 주 만에 다운로드 6,000만 회를 넘긴 가운데, Google이 다중 토큰 예측(MTP) drafter를 공개했습니다. 가벼운 drafter 모델이 여러 미래 토큰을 제안하고, 무거운 대상 모델이 이를 병렬 검증하는 구조로, 출력 품질 저하 없이 추론 속도를 최대 3배 높입니다. 표준 LLM 추론에서 단일 토큰 하나를 뽑기 위해 수십억 개 파라미터를 VRAM에서 옮기는 메모리 대역폭 병목을 우회하는 접근인데요. 특히 소비자용 하드웨어에서 로컬 모델을 돌리는 분들에게 실질적인 체감 차이가 클 것 같습니다.
Gemma 4 MTP 은폐후 커뮤니티가 파헤치고, Google이 뒤늦게 우회 지원
바로 위 Gemma 4 MTP 글의 뒷이야기입니다. Google이 MTP로 학습시킨 Gemma 4에서 해당 기능을 공개 배포판에서 의도적으로 제거했다가, 오픈소스 커뮤니티가 엣지용 .litertlm 파일을 리버스 엔지니어링해서 들통났습니다. 커뮤니티가 TFLite 커널의 극악한 양자화 구조를 수일간 파헤쳐 end-to-end 패리티 검증에 성공하자, Google이 뒤늦게 외부 보조 모델 형태로 우회 지원을 시작한 건데요. "로컬에서 31B 모델이 너무 빨라지면 자사 상용 API의 경쟁력을 위협하기 때문" 이라는 의혹이 나올 만합니다. "오픈"의 의미가 무엇인지 다시 생각하게 만드는 사건입니다.
Google Chrome이 동의 없이 기기에 4GB AI 모델을 조용히 설치함
Chrome이 사용자 동의 없이 약 4GB 크기의 Gemini Nano 모델을 기기에 조용히 내려받고 있다는 분석입니다. 하드웨어 요건을 만족하면 동의 프롬프트도, 설정 체크박스도 없이 자동 설치되며, Windows에서는 삭제해도 다시 다운로드되는 구조입니다. Apple Silicon 신규 프로필 검증에서 14분 28초 동안 모델이 자동 설치되는 과정이 포렌식 수준으로 기록되었고요. 10억 대 배포 시 4EB 전송, 240GWh 전력, 6만 톤 CO2e라는 환경 비용 계산도 눈길을 끕니다. ePrivacy Directive와 GDPR 투명성 원칙 관점에서 문제가 될 수 있는 부분이라, 브라우저 프라이버시에 관심 있는 분들이라면 확인해볼 만합니다.
Open Generative AI - 200개 이상의 AI 모델로 이미지/영상을 생성하는 스튜디오
Flux, Midjourney, Kling, Sora, Veo 등 200개 이상의 생성 AI 모델을 하나의 인터페이스에서 쓸 수 있는 오픈소스 스튜디오입니다. 텍스트→이미지, 이미지→영상, 립싱크까지 5개 스튜디오로 나뉘어 있고, 콘텐츠 필터 없이 사용할 수 있습니다. 로컬 추론도 지원해서 Apple Silicon이나 CUDA 환경에서 직접 돌릴 수 있고, 노드 기반 Workflow Studio로 멀티스텝 파이프라인도 구성 가능합니다. Higgsfield AI, Freepik, Krea AI 같은 유료 서비스의 무료 대체제를 찾고 있었다면 한번 살펴볼 만합니다. MIT 라이선스이고, 웹 버전은 설치 없이 바로 써볼 수 있습니다.
Vibe coding과 agentic engineering이 내가 원하는 것보다 더 가까워지고 있다
메인 기사에서 "어느 순간 모든 줄을 검토하지 않는 자신을 발견했다"는 고백을 소개했는데, 이 글에서 더 주목할 부분은 상류(upstream) 변화입니다. 코드 200줄을 만들던 상황에서 2,000줄을 만들 수 있게 되면, 디자인 프로세스도 바뀌어야 한다는 지적인데요. 예전에는 엔지니어에게 잘못된 설계를 넘기면 3개월을 날리니까 디자인 단계에 공을 들였지만, 빌드 비용이 낮아지면 잘못됐을 때의 비용도 낮아지기 때문에 더 위험을 감수할 수 있다는 것입니다. 또한 에이전트와 대화하는 모습이 비개발자에게는 알아듣기 어려운 "moon language"처럼 보인다는 관찰도 재미있습니다. AI 도구는 기존 경험을 대체하지 않고 증폭한다는 결론이, 결국 소프트웨어 엔지니어 커리어가 끝나지 않는 이유이기도 합니다.
직장에서 생산적으로 보이기
코드를 작성할 줄 모르는 사람이 소프트웨어를 만들고, 데이터 시스템을 설계해본 적 없는 사람이 데이터 시스템을 설계하는 교차 영역 생성이 직장에서 벌어지고 있다는 관찰입니다. 겉보기엔 진척으로 보이는 산출물이 늘어나지만, 만든 사람이 실제 작동 방식을 설명하지 못하거나 초기 스키마부터 잘못된 경우가 생긴다고요. AI가 산출물과 역량 사이의 연결을 끊어버리면서, 내부 문서와 업데이트는 길어지지만 읽는 비용은 줄지 않아 조직 안에서 신호를 찾기 더 어려워지는 새로운 형태의 AI 슬롭(slop) 이 된다는 표현이 정확합니다. 메인 기사의 "루프 안에서 가치 있는 지적을 할 수 있는가"라는 질문을 또 다른 각도에서 보여주는 글입니다.
AI Slop이 온라인 커뮤니티를 죽이고 있다
바로 앞 글 "직장에서 생산적으로 보이기"가 조직 내부의 AI 슬롭을 다뤘다면, 이 글은 온라인 커뮤니티로 번지는 AI 슬롭을 정면으로 다룹니다. 프롬프트 한 번으로 만든 GitHub 저장소, 블로그 글, 전자책을 여러 subreddit과 Slack에 무차별로 뿌리는 패턴이 커뮤니티의 신호 대 잡음 비율을 심각하게 떨어뜨리고 있다는 지적입니다. 핵심 기준은 "Built with AI, not by AI" 로, AI를 써도 사람이 생각하고 설계하고 검증한 결과물이어야 기여가 된다는 것. 만든 사람이 직접 쓰는지, 이슈와 PR을 책임질 준비가 됐는지 묻는 체크리스트가 실용적입니다. 오픈소스 프로젝트를 운영하거나 커뮤니티 모더레이션을 하는 분들에게 특히 공감될 글입니다.
Claude Code는 당신의 제품을 더 좋게 만들지 않는다
코딩 에이전트의 생산성 효과가 모두에게 균등하지 않고 K자형으로 갈라진다는 관찰이 핵심입니다. 시니어는 산출이 늘지만 주니어는 정체하거나 감소하는 패턴이 나타나고 있다고요. SST의 Dax, Linear의 Karri Saarinen, Sentry의 David Cramer 같은 실제 제품을 잘 만드는 사람들이 공통적으로 코딩 에이전트가 제품 개선 속도를 뚜렷하게 높인다는 확신을 얻지 못하고 있다는 점이 설득력 있습니다. Claude Code가 Anthropic 내부에서 7개월간 독점적 이점을 줬다면 경쟁자와의 격차가 복리로 벌어져야 했지만 현실은 그렇지 않다는 반증도 날카롭고요. 제품 품질의 최전선에서는 빠른 코드 작성보다 취향, 압축, 삭제, 거절의 판단이 더 중요하다는 결론이 이번 주 메인 기사의 메시지와 정확히 맞닿아 있습니다.
브라우저가 알려준 모든 정보를 보여주는 웹페이지
웹페이지에 접속하는 순간, 브라우저가 첫 밀리초 동안 얼마나 많은 정보를 넘기는지를 직접 보여주는 프로젝트입니다. 익스플로잇이나 해킹 없이 공개 문서화된 표준 기능만 사용해서 위치, 기기, GPU, 배터리 잔량, 설치된 폰트, 사용자 선호까지 알아냅니다. 폰트 지문, 캔버스 지문, Clipboard API, favicon을 이용한 로그인 사이트 감지 같은 기법들도 소개하면서 결론은 "이건 설계가 문제" 라는 한 문장으로 수렴합니다. 직접 접속해보면 자기 브라우저가 얼마나 수다스러운지 체감할 수 있어서, 프라이버시에 관심 있는 분이든 아니든 한번 들어가볼 만합니다.
나만의 GitHub를 만든다면
GitHub를 처음부터 다시 만든다면 어떻게 만들겠는가를 진지하게 고민한 글입니다. 현재 forge(GitHub, GitLab, Gitea)에서 실제 업무의 핵심은 git 자체보다 PR, Actions, Issues 같은 forge 기능 안에서 일어나는데, 정작 그 기능들이 실제 업무 방식과 동떨어져 있다는 문제의식에서 출발합니다. 피드백은 커밋 이후가 아니라 push 전에 와야 하고, PR 승인은 승인/거부의 이분법을 넘어야 하며, Stacked PR은 일급 기능이어야 한다는 제안이 구체적입니다. 특히 AI 시대에 LLM이 낮은 위험으로 판단한 작은 변경은 네 눈 검토 없이 진행할 수 있어야 한다는 지적이, 위의 "병목은 코드가 아니었다" 글과도 맥이 통합니다.
GPT-5.5 vs GPT-5.4 vs Opus 4.7 - 실제 코딩 작업 56개 벤치마크 비교
Zod와 graphql-go-tools 두 오픈소스 저장소에서 추출한 56개 실제 코딩 작업으로 GPT-5.5, GPT-5.4, Opus 4.7을 비교한 벤치마크입니다. GPT-5.5가 테스트 통과율, 인간 패치 동등성, 코드 리뷰 통과율 모든 지표에서 1위를 기록했고, Opus 4.7은 가장 작은 패치를 생성하지만 동반 작업 누락으로 불완전한 구현이 반복되는 패턴을 보였습니다. 주목할 점은 테스트를 통과해도 리뷰어가 수용하지 않는 패치가 많다는 것으로, 테스트 통과만으로는 품질을 판단할 수 없다는 결론이 나옵니다. 또한 같은 모델이라도 저장소에 따라 순위가 달라지기 때문에, 결국 자기 코드베이스에서 직접 돌려봐야 한다는 실용적인 교훈을 줍니다.
GPT-5.5 low vs medium vs high vs xhigh: 오픈소스 저장소의 실제 작업 26개에서 본 추론 곡선
바로 위 56개 벤치마크 글의 후속편으로, 이번에는 GPT-5.5 하나를 low, medium, high, xhigh 네 가지 추론 설정으로 돌려 비교한 결과입니다. 테스트 통과율은 설정 간 차이가 크지 않았지만, 사람 패치와의 의미적 동등성은 4/26에서 23/26으로, 코드 리뷰 통과율은 3/26에서 18/26으로 극적으로 갈렸습니다. high가 비용 대비 품질에서 가장 실용적인 기본값으로 보이고, xhigh는 품질을 더 높이지만 비용이 2배 이상 뛰면서 테스트·fixture까지 건드려 풋프린트 위험도 커집니다. "테스트만 통과하면 된다"는 기준이 얼마나 부족한지를 숫자로 보여주는 글이라, 에이전트 코딩을 실무에 적용하는 분들에게 참고할 데이터가 많습니다.
React 및 Next.js에서 다수의 보안 취약점 공개, 즉시 패치 권고
React와 Next.js에서 12건의 보안 취약점이 동시에 공개되었습니다. High 심각도 6건, Moderate 4건, Low 2건으로, DoS, 미들웨어 우회, SSRF, XSS, 캐시 포이즈닝 등 공격 벡터가 다양합니다. 특히 미들웨어 우회와 SSRF 취약점 일부는 WAF로 차단이 불가능해서 애플리케이션 코드 자체의 패치가 유일한 대응 수단입니다. React 19.0.6/19.1.7/19.2.6과 Next.js 15.5.16/16.2.5로 업데이트해야 하고, TanStack Start 같은 React 기반 서버 프레임워크도 함께 확인이 필요합니다. React Server Components를 프로덕션에서 쓰고 있다면 즉시 패치 하시기 바랍니다.
소프트웨어를 만들어서 무료로 나눠주기
오픈소스 블로그 플랫폼 Nonograph 개발자가 소프트웨어를 무료로 나눠주는 경험과 철학을 공유하는 글입니다. 월 5달러 호스팅 비용으로 수십만 일일 독자를 감당하는데, 여기에 구독 인프라를 도입하면 오히려 개발 비용만 올라가고 사용자는 이탈한다는 현실적 계산이 먼저 나옵니다. 모든 취미를 수익화하면 결국 두 번째 직업이 되어버리고, 소프트웨어 개발을 금전적 수단이 아닌 자기탐색의 도구로 접근하면 사용자에게 적대적인 기능이 붙지 않는 더 나은 결과물이 나온다는 이야기입니다. 구독 모델과 강제 AI 기능으로 서비스 질적 저하(enshittification) 가 만연한 요즘, 반대 방향의 선택을 보여주는 글입니다.
Microsoft Edge는 사용하지 않을 때도 모든 비밀번호를 메모리에 평문으로 저장함
Microsoft Edge가 브라우저 시작 시점에 저장된 비밀번호를 모두 복호화해서 프로세스 메모리에 평문으로 상주시킨다는 보안 연구 결과입니다. 해당 사이트를 방문하지 않아도 이 동작이 발생하고, Password Manager UI는 재인증을 요구하지만 실제로는 이미 평문이 메모리에 있습니다. Chrome은 자격 증명이 필요할 때만 복호화하고 App-Bound Encryption으로 다른 프로세스의 키 재사용을 차단하는 것과 대비됩니다. Microsoft에 보고했더니 답변은 "by design" 이었다고요. 터미널 서버 같은 공유 환경에서는 관리자 권한을 얻은 공격자가 모든 사용자의 저장 비밀번호를 볼 수 있어 특히 위험합니다. Edge에 비밀번호를 저장하고 있다면 확인해볼 필요가 있습니다.
오픈소스가 공개 커뮤니티를 의미하지는 않는다
오픈소스의 본래 의미를 다시 생각하게 하는 글입니다. GitHub 이전에는 FTP의 tarball과 이메일 연락처만으로도 오픈소스였는데, GitHub 이후 issue, PR, 채팅 그룹 관리까지 떠안는 무급 업무가 되어버렸다는 지적입니다. 직장에서 standup, KPI, 마감을 처리하고 집에 오면 오픈소스 알림이 쌓이는 구조가 결국 번아웃으로 이어진다고요. 핵심 메시지는 오픈소스가 "오픈소스"이기 위해 반드시 공개적으로 개발될 필요는 없다는 것입니다. issue tracker를 끄고, 신뢰하는 작은 그룹과 작업하거나, 혼자 만들어서 크리스마스 새벽 2시에 code drop을 해도 된다고요. AI 슬롭 PR까지 쏟아지는 요즘, 오픈소스 메인테이너들에게 특히 공감될 글입니다.
OpenAI, GPT-5급 추론 능력을 가진 GPT-Realtime-2 시리즈 공개
OpenAI가 실시간 음성 API에 GPT-5급 추론 능력을 탑재한 3개의 새 모델을 출시했습니다. GPT-Realtime-2는 대화 중 도구 호출과 중단 처리를 하면서도 자연스럽게 이어가는 최초의 추론 음성 모델이고, GPT-Realtime-Translate는 70개 이상 언어를 실시간 번역, GPT-Realtime-Whisper는 발화와 동시에 텍스트로 변환하는 스트리밍 전사 모델입니다. 이번 주 소개한 "OpenAI가 대규모 저지연 음성 AI를 제공하는 방법" 글의 인프라 위에서 돌아가는 제품이기도 합니다. 음성이 단순 호출-응답을 넘어 추론하고, 번역하고, 행동까지 수행하는 인터페이스로 진화하는 흐름을 보여주는 발표입니다.
Camofox Browser - AI 에이전트를 위한 스텔스 헤드리스 브라우저
AI 에이전트가 웹을 탐색할 때 Cloudflare나 봇 탐지에 막히는 문제를 해결하는 스텔스 헤드리스 브라우저입니다. Camoufox(Firefox 포크) 기반으로 C++ 레벨에서 핑거프린트를 스푸핑하기 때문에 JavaScript shim 방식보다 탐지 우회가 근본적입니다. 접근성 스냅샷을 활용해 원시 HTML 대비 90% 작은 크기로 토큰을 절약하고, Idle 시 약 40MB로 Raspberry Pi나 $5 VPS에서도 돌릴 수 있다는 점이 실용적입니다. VNC로 시각적으로 로그인한 뒤 세션을 내보내서 에이전트가 재사용하는 워크플로도 깔끔하게 설계되어 있습니다. 에이전트 기반 자동화를 실무에 쓰는 분들에게 Puppeteer/Playwright 대안으로 살펴볼 만합니다.
브라질의 Pix 결제 시스템, Visa와 Mastercard의 압박을 받는 중
브라질 중앙은행이 만든 즉시 결제 시스템 Pix가 성인 인구의 93%, 금융 거래의 49%를 차지하며 Visa와 Mastercard를 압도하고 있는 이야기입니다. 개인은 완전 무료, 기업 수수료는 0.33%로 카드의 2~5%와 비교가 안 됩니다. 2025년 한 해에만 800억 건, R$ 35.3조를 처리했는데, Visa와 Mastercard의 손실이 약 R$ 120억으로 추정되자 미국 USTR이 "불공정한 경쟁상 불이익" 이라며 지적을 하기도 했네요. 한국의 토스나 카카오페이 같은 간편결제와 비교해봐도 중앙은행이 직접 운영하는 공공 인프라라는 점에서 근본적으로 다른 접근이라 흥미롭습니다. Lula 대통령이 "아무도 Pix를 바꾸게 만들 수 없다"고 선언한 배경도 이해가 됩니다.
Hunk - AI 에이전트 코드 리뷰를 위한 터미널 Diff 뷰어
에이전트가 생성한 코드 변경사항을 터미널에서 리뷰하는 데 특화된 Diff 뷰어입니다. 코드 옆에 인라인 AI/에이전트 주석을 직접 표시해주는 기능이 독특한데, 에이전트가 왜 이렇게 바꿨는지를 diff와 함께 바로 볼 수 있습니다. git config로 설정하면 git diff와 git show가 자동으로 Hunk에서 열리고, watch 모드로 파일 변경 시 자동 리로드도 됩니다. 이번 주 메인 기사에서 "생성은 싸졌지만 검증은 싸지지 않았다"는 비대칭을 다뤘는데, 그 검증 단계의 마찰을 줄여주는 도구라는 점에서 시의적절합니다.
정확한 텍스트와 숫자를 위해 “밑그림” 사용하기
AI 이미지 생성 모델이 텍스트와 숫자 배치를 제대로 못하는 문제를 우아하게 우회하는 기법입니다. 결정론적 도구(SVG/HTML)로 숫자와 텍스트 위치가 정확한 밑그림을 먼저 만들고, 이미지 생성 모델이 그 위에 시각적 스타일만 입히는 두 단계 접근인데요. 50개의 디딤돌에 1부터 50까지 번호를 붙이는 과제에서 Gemini와 ChatGPT Images 모두 밑그림 없이는 실패했지만, underdrawing을 함께 넣자 번호와 순서가 맞는 결과가 나왔습니다. 수학적 정밀함은 코드에, 시각적 표현은 모델에 맡기는 역할 분리가 핵심이고, 인포그래픽이나 보드게임 이미지처럼 정확한 텍스트 배치가 필요한 작업에 바로 써볼 수 있는 팁입니다.
나는 Bun이 걱정된다
Anthropic이 2025년 12월 Bun을 인수한 이후, Bun 자체의 품질보다 Anthropic의 제품 정책이 Bun에 스며들 가능성을 걱정하는 글입니다. Claude Code가 Bun 실행 파일로 배포되니 Bun을 안정적으로 유지할 동기가 있다고 했지만, 2026년 4월 이후 Claude Code에서 품질 저하, 서드파티 하네스 제한, git 히스토리의 OpenClaw 언급만으로 요청을 거부하거나 추가 과금하는 동작이 보고되면서 우려가 구체화됐습니다. 오픈소스 도구가 대기업에 인수된 뒤 정책 변화로 예상 밖 동작이 나타나는 패턴은 익숙한 이야기인데, Bun을 쓰는 프로젝트에서 일부가 pnpm으로 옮기기 시작했다는 흐름은 주시할 만합니다. 이번 주 Gemma 4 MTP 은폐 사건과 함께, "오픈"이라는 단어의 무게를 다시 생각하게 되는 글입니다.
AI가 두 취약점 문화를 깨뜨리고 있다
AI가 보안 취약점 공개의 기존 관행 두 가지를 동시에 흔들고 있다는 분석입니다. Linux 커널에서는 보안 수정을 조용히 공개 커밋으로 밀어넣고 며칠간 엠바고를 유지하는 관행이 있었는데, AI가 커밋별 보안 의미를 평가하는 비용을 크게 낮추면서 이 "숨기기" 전략이 더 이상 통하지 않게 되고 있습니다. 실제로 Copy Fail 취약점의 후속 패치가 공개 커밋으로 올라가자마자 외부에서 발견되어 엠바고가 깨졌고, 전통적인 90일 조율 공개 모델도 한 취약점이 보고 후 9시간 만에 독립적으로 재발견되면서 약해지고 있습니다. 보안 연구자뿐 아니라 오픈소스 프로젝트를 운영하는 분들에게도 공개 정책을 다시 생각하게 만드는 글입니다.
Lean Analytics, AI와 에이전트 시대에 맞춰 돌아보기
2013년에 나온 Lean Analytics의 프레임워크를 AI 시대에 맞춰 재해석한 글입니다. 핵심 원칙(단계 파악, OMTM, 벤치마크)은 여전히 유효하지만, AI 제품에서는 가치 도달 시간(Time to Value) 이 극단적으로 짧아져 사용자가 첫 시도에서 고품질 결과를 기대하고 실패 시 바로 이탈한다는 점이 가장 큰 변화입니다. 또한 토큰 기반 가변 비용 구조 때문에 파워 유저가 오히려 손실을 유발할 수 있어, 기존 SaaS의 "많이 쓸수록 좋다" 공식이 깨진다는 지적도 날카롭습니다. AI 제품에서 품질이 일급 지표가 되었고, 평가 하네스(eval harness) 없이는 제품이 아니라 "감(vibes)"에 불과하다는 표현이 실무적입니다. AI 기반 제품을 만들거나 투자하는 분들에게 유용한 프레임워크 업데이트입니다.
Redis array: 긴 개발 과정의 짧은 이야기
Redis 창시자 antirez가 새 Array 데이터 타입을 4개월에 걸쳐 설계·구현한 과정을 공유한 글입니다. 이번 주 화제인 AI 코딩의 실제 사용 사례이기도 한데, 초기 설계는 Opus와 함께 다듬고 이후 Codex로 개발을 진행하면서도 생성된 코드를 한 줄씩 검토하고 여러 모듈을 수동으로 다시 작성했다고 합니다. 고품질 시스템 프로그래밍에서는 여전히 사람이 완전히 관여해야 하지만, 32비트 지원 추가 같은 피로도 높은 작업과 복잡한 알고리듬의 버그 탐지에서 AI가 안전망 역할을 했다는 정리가 인상적입니다. 메인 기사에서 다룬 "루프 안의 인간이 가치 있는 지적을 할 수 있는가"라는 질문에 대해, antirez 수준의 시니어가 보여주는 구체적인 답변이기도 합니다.
TUI가 다시 돌아온 이유
Claude Code와 Codex가 명령줄에서 큰 성공을 거두면서, TUI(Terminal UI)가 왜 다시 주목받는지를 네이티브 GUI의 쇠퇴와 함께 분석한 글입니다. Windows는 MFC부터 WinUI, MAUI까지 일관된 GUI 전략을 만들지 못했고, macOS도 자신이 만든 Human Interface Guidelines를 스스로 깨고 있으며, Linux는 설계상 불일치가 내장된 구조라는 진단입니다. Electron이 그 공백을 채웠지만 메모리보다 시각적 일관성 부족과 키보드 중심 워크플로의 빈틈이 더 큰 문제라고요. 결국 TUI가 돌아온 건 복고가 아니라, 즉각적인 피드백과 자동화 용이성이라는 실용적인 이유 때문이라는 결론이 설득력 있습니다.
텍스트 모드의 거짓말: 현대 TUI가 접근성에 악몽인 이유
바로 위 "TUI가 돌아온 이유" 글과 함께 읽으면 좋은 반대편의 이야기입니다. 터미널 앱이 텍스트 기반이니 본질적으로 접근 가능하다는 가정이 현대 TUI에서 완전히 깨진다는 분석인데요. Ink, Bubble Tea 같은 프레임워크가 터미널을 2D 격자로 다루면서 화면 읽기 프로그램 사용자에게 스피너 갱신마다 반복 낭독, 크래시, 입력 시 최대 10초 지연을 유발합니다. 반면 nano, vim 같은 오래된 도구들은 커서 숨김, 단일 열 포커스, VT100 스크롤 영역 활용으로 이 문제를 피해왔다고요. Claude Code나 gemini-cli처럼 TUI 기반 AI 도구가 늘어나는 지금, 접근성을 고려하지 않은 TUI는 잘못 구현된 GUI보다 더 나쁠 수 있다는 경고가 시의적절합니다.
왜 ASCII에서 소문자는 대문자 바로 뒤에 오지 않을까?
ASCII에서 Z(90)와 a(97) 사이에 왜 6개의 문자가 끼어 있는지, 그 이유가 비트 연산의 우아함 때문이었다는 이야기입니다. 알파벳 26자에 6개를 더해 차이를 32(2^5) 로 맞추면, 대소문자가 항상 00100000 비트 하나만 다르게 됩니다. 덕분에 32와 AND하면 대문자, OR하면 소문자, XOR하면 반전이 되는 깔끔한 구조가 만들어집니다. 1960년대의 설계 결정이 지금까지 이어지는 셈인데, 이런 종류의 컴퓨터 과학 기초 이야기는 알고 나면 머릿속에서 잊히지 않습니다. 주니어 개발자에게 추천하고 싶은 짧은 글입니다.
AI의 Computer Use 기능은 구조화 API보다 45배 더 비싸다
같은 관리자 패널 작업을 AI의 Computer Use(비전 에이전트) 와 구조화 API 두 방식으로 실행해본 비교 벤치마크입니다. 비전 에이전트는 평균 53단계, 1003초, 55만 토큰을 썼고, API 에이전트는 8번 호출, 20초, 1.2만 토큰으로 끝나 비용이 약 45배 차이났습니다. 더 심각한 건 비전 에이전트가 스크롤 아래에 있던 대기 중 리뷰를 놓쳐 작업 자체를 완료하지 못한 경우도 있었다는 점입니다. 비용 격차의 원인이 모델 성능이 아니라 인터페이스 구조에서 나왔다는 결론이 핵심인데, 내부 도구를 만들 때 에이전트용 API를 함께 제공하는 것이 얼마나 중요한지를 숫자로 보여줍니다.
클로드 코드 사용하기: HTML의 놀라운 효율성
Claude Code에서 출력 형식을 Markdown 대신 HTML로 바꾸면 결과물의 가독성이 크게 달라진다는 앤트로픽 Claude Code 팀의 Thariq의 팁입니다. 표, CSS, SVG, JavaScript 상호작용까지 활용해서 스펙 문서, 코드 리뷰, 아키텍처 다이어그램을 훨씬 풍부하게 표현할 수 있고, "HTML 파일을 만들어줘" 라고 요청하는 것만으로 시작할 수 있습니다. 100줄 넘는 Markdown은 어차피 잘 안 읽히고, 요즘은 파일을 직접 편집하기보다 Claude에게 편집을 맡기는 경우가 많아 Markdown의 장점인 쉬운 직접 편집의 가치도 줄었다는 관찰이 공감됩니다. 생성이 2~4배 느리고 diff가 시끄러운 단점은 있지만, 실제로 읽힐 가능성이 더 크다는 게 핵심입니다. Claude Code 사용자라면 바로 시도해볼 만한 워크플로입니다.
antirez/ds4 - Metal용 DeepSeek V4 Flash 로컬 추론 엔진
이번 주 Redis Array 글에서 소개한 antirez가 이번에는 DeepSeek V4 Flash 전용 로컬 추론 엔진을 공개했습니다. 범용 러너가 아니라 단일 모델에 집중한 네이티브 C 구현체로, Apple Metal GPU에 최적화되어 있습니다. DeepSeek V4 Flash는 thinking 모드에서 다른 모델 대비 1/5 수준의 짧은 사고 구간을 생성하고, 100만 토큰 컨텍스트 윈도우와 극도로 압축된 KV 캐시로 128GB MacBook에서도 장문맥 추론이 가능합니다. OpenAI/Anthropic 호환 HTTP API를 내장해서 Claude Code나 opencode 같은 코딩 에이전트와 바로 연결할 수 있고요. GPT 5.5의 코딩 지원을 받아 개발했다고 밝힌 점도 antirez답게 솔직합니다. 이분 요즘 AI 개발에 심취하신 듯
Claude Mythos Preview로 Firefox를 강화한 비하인드 스토리
Mozilla가 Claude Mythos Preview로 Firefox에서 실제 보안 버그 271개를 찾아 수정한 사례입니다. 몇 달 전까지만 해도 AI 생성 보안 보고서는 그럴듯하지만 틀린 경우가 많아 유지보수자에게 부담이었는데, 모델 성능 향상과 하네스 개선으로 신호 대 잡음 비율이 크게 바뀌었다고 합니다. 공개된 버그에는 JIT의 WebAssembly GC 초기화 제거 문제, IPC 경합 조건을 통한 UAF, XSLT의 20년 된 rehash 버그 등이 포함되어 있고, 상당수가 퍼징만으로는 찾기 어려운 샌드박스 탈출 유형입니다. 이번 주 "AI가 취약점 문화를 깨뜨리고 있다" 글과 함께 읽으면, AI가 보안 분야에서 공격과 방어 양쪽을 동시에 바꾸고 있다는 그림이 선명해집니다.

✓ 사내 커뮤니케이션 도구에 GeekNews Bot을 추가해서 멤버들과 함께 새 글을 받아보세요
ㅤ→ Slack봇, 잔디봇, Teams봇, Dooray!봇, Discord봇, 구글 챗 봇, Swit 봇
✓ 긱뉴스를 트위터에서 구독 하거나 RSS로도 구독 가능 합니다
✓ 주위분들께 긱뉴스 위클리 - https://news.hada.io/weekly 뉴스레터를 추천해 주세요.

긱뉴스 위클리는 개발자 프로젝트와 오픈소스 후원 서비스 - Fairy에서 후원을 받고 있습니다.

계속 좋은 뉴스와 프로젝트를 소개할 수 있도록 응원해 주시려면 아래 링크를 이용해 주세요.

Fairy에서 긱뉴스 후원하기

후원에 사용한 이메일과 인증된 긱뉴스 계정 이메일이 일치하면 Supporter 배지가 발급됩니다.