관찰 가능성(Observability)의 종말이 다가옴 (그리고 나는 괜찮음)
(honeycomb.io)- 지난 수십 년간의 Observability 도구의 핵심 목표는 대규모 이종 Telemetry 데이터를 인간이 이해할수 있도록하는 것이었음
- AI와 LLM의 등장으로 기존 "대시보드+경보+샘플링" 위주 패러다임이 변화하며, 분석 과정이 자동화로 대체되는 현상 발생
- 실제로, AI 에이전트가 80초 만에 8번의 툴 호출로 지연 스파이크 원인을 분석하고, 기존 데모에서 하던 작업을 자동화하며 비용도 단 60센트로 해결함
- 기존의 예쁜 대시보드나 편리한 계측이 더 이상 특별한 가치가 아니며, LLM이 분석을, OpenTelemetry가 계측을 평준화(commoditize) 함
- 미래의 Observability는 "빠른 피드백 루프" 와 AI+사람 협업 워크플로우가 성공의 열쇠이며, 더 많은 소프트웨어와 자동화의 시대를 이끌 것
관찰 가능성(Observability) 도구의 역사와 AI의 등장
- 수십 년간 관찰성 도구의 핵심 목적은 방대한 이기종 데이터(텔레메트리)를 인간이 이해 가능한 수준으로 압축/요약하는 것이었음
- 새로운 소프트웨어 추상화(예: Rails, AWS, Kubernetes, OpenTelemetry 등)가 등장할 때마다,
그 복잡성을 가리기 위한 모니터링·측정·대시보드·적응형 알림·동적 샘플링 등 다양한 도구가 개발되어 왔고, 데이터의 복잡함을 인간 인지 수준에 맞게 압축해 제공함
LLM = 범용 함수 근사기, 그리고 진짜 유용해짐
- LLM은 수학적으로 범용 함수 근사기(universal function approximator) 에 불과하지만, 실제로는 관찰성 문제를 해결하는 데 매우 유용함
- 예시로, Honeycomb 데모에서 히트맵 상의 지연 스파이크를 AI 에이전트에게 자연어로 분석 요청
- “프론트엔드 서비스에서 4시간 간격으로 발생하는 지연 스파이크 원인을 분석해줘”
- 오프더셸프 LLM(Claude Sonnet 4)과 Honeycomb의 Model Context Protocol(MCP) 연동
- 80초, 8번의 툴 호출, 비용 60센트만에 원인 자동 분석
- 추가 프롬프트, 별도 훈련, 가이드 없이 실제 시나리오를 무(無)지시(zero-shot)로 해결하는 수준에 도달
-
분석의 평준화(commoditization):
- LLM이 분석 작업을 자동화하면, 기존 관찰성 제품의 차별점(예쁜 그래프, 손쉬운 계측 등)은 의미를 잃음
- OpenTelemetry가 계측을, LLM이 분석을 평준화함
- 앞으로는 “빠른 피드백 루프”가 관찰성 도구의 핵심 가치를 대체
사람의 역할, 그리고 미래의 변화
- 인간의 역할이 완전히 사라지진 않음
- 클라우드의 등장도 IT의 존재 자체를 없애지 않았던 것처럼, AI도 개발자/운영자를 대체하지 않음
- 생산성 증가는 전체 지형을 확장시키고, 더 많은 소프트웨어가 탄생함
- 핵심 질문은,
코드 작성/리팩터/분석 비용이 크게 줄고, 분석이 상수화되는 세상에서
관찰성(Observability)의 본질이 어디로 가는가?
진짜 중요한 건 "빠른 피드백"
-
가장 중요한 것은 개발·운영의 모든 단계에서 "빠르고 촘촘한 피드백 루프"를 갖추는 것
- AI는 속도에서 항상 인간을 앞설 것임
- LLM은 수십 번의 가설을 빠르게 세우고, 실패하고, 결국 올바른 결과를 찾아냄
(그 비용도 매우 저렴함)
- Honeycomb의 철학:
- 빠른 피드백 루프, 협업 지식 공유, 실험적 개발/운영
- 앞으로는 AI 보조가 소프트웨어 개발과 운영의 전주기에 도입됨
- 예시
- 코드 작성 및 배포 시 AI 에이전트가 실시간 피드백, 버그/품질 개선 제안
- 운영 중 emergent behavior 감지/분석/자동 리포트, 승인 후 자동 개선
- 최첨단 조직은 SRE/SWE 역할을 AI+도구로 자동화, 비즈니스 목표까지 직접 달성
- 예시
-
성공을 위한 관찰성의 미래 조건
- 초저지연 쿼리 성능
- 데이터 통합 저장소
- 사람과 AI 간의 원활한 협업 워크플로우
-
결론:
- 기존의 대시보드, 알림, 시각화 위주의 관찰성 도구는
AI 시대에 핵심이 아니며,
“빠른 피드백 루프”와 AI-사람 협업 플랫폼만이 살아남음
- 기존의 대시보드, 알림, 시각화 위주의 관찰성 도구는
자사 서비스를 "종말이 다가온다" 하면서 홍보하니 조금 낯 뜨겁네요...
개인적으로는 vision llm이 발전해서 모니터링 작업에 쓰는 것을 기대하고 있습니다
최근에 vlm을 아이가 자는 동안 특이점이 없는지 체크하는 용도로 쓴 부모의 글을 본 적이 있는데, 그게 되게 재밌었습니다
Hacker News 의견
- 우리가 집단적으로 결정론의 가치를 너무 낮게 평가하고 있고, 반대로 비결정론이 가져올 비용 역시 과소평가 중인 느낌임. 최근에 비슷한 영업 멘트로 나온 다른 제품을 테스트해봤는데, 이게 내 사건들을 그래프를 연관시켜 RCE하려고 함. 결과적으로 Spurious Correlations 페이지처럼 나와버리는데, 직접 보면 분명하고 웃긴 모습임
- 시계열 데이터는 정말로 허튼 상관관계(spurious correlations)에 약함이라는 점이 알려져야 할 사실임. r² 값도 의미 없음. 더 나쁜 건 그래프를 눈대중으로 해석할 때인데, 시간이 지남에 따라 변하는 데이터라면 그에 맞는 적절한 측정 기준을 써야 함
- 혹시 내가 포인트를 잘못 이해한 걸 수도 있지만, LLM 기반 앱에서도 설계만 잘하면 정말 중요한 순간에 결정론적 UX 구현 가능함. 필요할 때 LLM이 무언가를 수행하는 결정론적 명세를 생성해서 해당 작업이나 액션을 기록할 수 있음. 사용자가 언제든 다시 실행할 수 있는 명세를 대화 내용과 함께 저장하도록 하고, 명세 실패할 때 AI가 고칠 방법을 제안할 수 있도록 구성하는 식임. 코딩에 AI 쓰는 경험과 비슷한 흐름임. 다만 스펙 도메인을 더 좁히고 실패한 명세를 어떻게 복구할지 고민이 더 필요함. 사용자에게 명세 언어를 따로 배우라고 요구하지 않고도 실현 가능한 구성임
- RCA를 잘하는 사람으로서, 민망함을 느끼는 내 동료들이 10% 틀린 결과를 아주 자신감 있게 내놓는 도구를 그대로 신뢰해 더 엉망이 되지 않을까 걱정임. 정말로 모르는 게 있을 때 공개적으로 모른다고 말하지 않아도 되니 도구에만 의존하게 될까 우려임. 만약 도구가 결론을 낸 후 그 해석을 반박하는 데이터를 찾고, 좀 더 신뢰할만한 근거나 불확실함을 명확히 말했으면 덜 나쁘겠다는 생각임
- 시스템 프롬프트를 잘 짜면 이 부분을 제법 보완할 수 있음. 실제로 LLM으로 기본적으로 더 엄밀하고 연구된 답변을 잘 끌어내는 커스텀 프롬프트/지침을 만들어 봤고 꽤 좋은 경험이었음. ChatGPT에서 내가 쓰는 프롬프트는 다음과 같음: "실체, 명확성, 깊이에 우선순위. 모든 제안, 설계, 결론을 가설로 취급해 날카롭게 질문. 숨은 전제, 트레이드오프, 실패 케이스를 조기에 드러냄. 불필요한 칭찬은 근거 없으면 생략. 불확실하면 명확히 언급. 항상 대안적 관점 제안. 사실 주장은 인용 또는 근거가 확실할 때만 단언. 추론이나 불완전 정보에 기대면 명확하게 고지. 확신보다 정확함 중시." 이런 구성으로 실제로 답변의 품질이나 깊이가 대폭 개선됨
- “New Relic이 Rails 혁명에서, Datadog은 AWS 부상에서, Honeycomb은 OpenTelemetry를 선도했다”는 식의 역사는 편향된 해석임. OpenTelemetry(OTel)는 Google이 시작한 OpenCensus와 LightStep이 시작한 OpenTracing이 공식적으로 합쳐지면서 태동한 것임. 구글, LightStep, Microsoft, Uber 등 다양한 조직이 초기 거버넌스에 참여함. Honeycomb이 코드, 커뮤니티, 기술 도입을 크게 이끈 건 맞지만, “선도했다”는 건 과장임
- 최근에 Honeycomb을 도입한 사람이 읽고 있는데, 정말 놀라운 툴임. 특히 otel 자동 계측 덕분에 몇 시간 만에 인사이트 얻는 경험 가능함. 대시보드/쿼리 기능 역시 깊은 관찰성(Observability) 철학에서 나온 것임이 느껴짐. 우리 팀 모두 도구의 완성도에 충격을 받았음. Datadog은 마케팅과 '관찰성' 체크리스트에 더 치중해 보이는 분위기임
- “판매 멘트”를 한쪽으로 치우고 보면, 이건 LLM이 정말로 가치 있는 어플리케이션 중 하나임. 그동안 모니터링과 관찰성은 대기업 SRE만의 영역이었고 소규모 조직엔 벽이 높았음(IT 관점 한정). 유의미한 메트릭 선정, heartbeat와 baseline 세팅 자체가 시간, 전문 도구, 방대한 개발환경, 변경 검증 체계까지 필요해서 일반 IT 팀은 엄두를 못 냈음. 이제 가장 대중적인 툴에 훈련된 LLM 덕분에 예산/역량 부족한 IT 팀도 오픈 프레임워크/툴 기반의 “진짜” 관찰성 시스템을 구현할 수 있게 됨. 더는 현란한 구독 솔루션 없어도 됨. 대시보드 구축, 실용적인 모니터링 세팅이 필요할 땐 LLM이 정말 축복 같은 존재임. CIO가 푸시하는 수많은 제품군을 한 땀 한 땀 깊이 파고들 여유 없이도 설명서 읽고 트러블슈팅 할 줄 아는 IT라면 활용성 극강임. PagerDuty 알림에 최소 원인 추천까지 붙는다면, SMB/SME 입장에서 관찰성 혁명임
- 유의미한 메트릭 발굴은 LLM이 못하는 분야지만, heartbeat나 baseline 등 나머지 부분은 이미 오래전부터 ConvNet(합성곱 신경망)으로 충분히 자동화 가능했던 영역임. 변경 검증이나 안정성 컨트롤 같이 배포 고민은 관찰성 도구 범위를 벗어나는 문제임
- 소규모 SRE 팀에도 대박 임팩트 기대함. 우리 팀은 2명이 수백대의 베어메탈 서버 관리 중인데, 장애가 생기면 원인을 좁혀나가는 과정이 매우 스트레스임. MCP(Master Control Program) 같은 도구를 직접 만들어볼까 고민할 정도임. 여러 번은 오랜 시간 잠복하던 이슈가 에러로 터지는 경우도 있었는데, 이런 케이스에 LLM 상당히 도움될 것임
- 제목이 너무 자극적인 느낌임. 기존 관찰성 도구가 무용지물이 되는 건 아님. 단지 그래프 만들고 계속 들여다보는 시간은 줄어들 수 있음. LLM이 모든 영역에 미치는 효과와 비슷함. 이미 할 줄 아는 업무를 더 빨리 하게 도와주거나, 그 방법 자체를 배워가는 데 도움 주는 건 맞지만, 특정 기술 자체를 완전히 대체하는 건 아님
- “이미 할 줄 아는 업무 속도 증가시키기”, “새로운 일을 배우게 돕기”, 이 결론을 오늘만 해도 두 번째 듣는 중임. 2번으로 추론(inference)하고, 1번 효율을 극단적으로 높인다는 점, 앞으로 가장 생산적인 방향성임
- 제목이 자극적이지만 메시지는 명확함 — 진입장벽(모트)이 점점 낮아짐
- 이런 현상을 “Charity Majors 효과”라고 부름
- 데모에서 “이건 인위적 예시가 아니다. 우리가 데모에서 유저에게 묻는 질문을 똑같이 LLM 에이전트에게 던졌고, 추가 프롬프트, 학습, 안내 없이 바로 정답을 찾아냈다”라고 하지만, 실제로는 이 시나리오 자체가 이미 데모에 포함된 것이고, 솔루션도 이미 존재하는 사례임. 오히려 인위적 예시를 써서 모델이 학습 데이터에 정확히 있지 않은 새 상황에도 일반화가 되는지 보여줘야 했다는 생각임. LLM의 실제 기능이 유용한 건 맞지만, “관찰성의 종말”처럼 극단적 선언을 하려면 도구가 일반화 능력을 보여주는 게 필요함
- “관찰성의 종말”은 아니라고 생각함. 하지만 글에서 제시한 포인트도 완전히 헛된 건 아님. 확실히 SRE(특히 RCA 포함)에서 다양한 역할을 수행할 수 있는 새로운 인공지능 에이전트 계층이 떠오를 가능성이 높음. 다만, 그게 현실화되어도 기존 관찰성 스택 대부분(아니면 전부)이 여전히 필요함. 게다가 LLM의 헛소리/신뢰/안정성 문제 원천 해결되지 않는 한, 깊은 문제파악은 여전히 사람이 필요함
- “AI로 조금만 노력하면 전문가가 하던 일 다할 수 있다”라는 사업 전략, 정말 매력적인 사업 전략임. 슬프지만 요즘 AI 스타트업 80%에 이 멘트 복붙해도 이상하지 않음
- 이게 조롱인 줄 알겠지만, 그 “일 좀 하는 전문가”들이 <i>엄청나게</i> 비싼 리소스임. 실제로 이 자동화가 이뤄지면 어설픈 AI 스타트업이 넘치는 이유 역시 납득 가능함
- 이 기사, AI가 다 쓴 느낌임. “AI가 이 파라다임을 끝낸다, 이미 그렇다, 시스템 설계와 운영 방식까지 근본적으로 바뀔 것이다” — 어떻게 데이터 일부 해석하는 게 “관찰성의 종말”이란 말인지 의문임
- “이젠 그래프와 UI로 데이터 볼 필요 없다”는 논리는 현실적으로 한계가 있음. LLM이 잘될 땐 정말 좋지만, 실패할 땐 사람이 개입해서 그래프 등 시각화를 직접 봐야 함. 그래프나 시각화도 어렵지만, 실제 데이터 수집이나 복잡한 쿼리 및 저장 방식 설계에는 훨씬 더 어려운 난이도 존재함. 진짜 인공지능이 모든 걸 거의 완벽하게 판단하는 순간에야 관찰성이 “사라질” 것임. 결국 이때는 사회 전체 구조가 완전히 바뀌는 문화적 변화(소멸은 아니어도 고통스러운 전환)가 올 것임. AI가 관찰성 판을 바꾸는 건 진짜임. 현재도 진행 중이지만 아직 갈 길 멈