AIWatch는 Claude, OpenAI, Gemini 등 주요 AI 서비스의 장애·업타임·복구 시간을
실시간으로 모니터링하는 오픈소스 프로젝트입니다.

대시보드: https://ai-watch.dev
랜딩 페이지: https://ai-watch.dev/intro
GitHub: https://github.com/bentleypark/aiwatch

장애 발생 시 AI가 원인을 분석하고 복구 시간을 예측하며,
Discord/Slack 으로 즉시 알림을 보냅니다.

오늘은 3월 20~31일(12일)간 수집한 데이터를 기반으로 27개 서비스(3월 기준)의
신뢰도 리포트를 공개합니다. 첫 번째 리포트라 기간이 짧고, 4월부터 전체 월 데이터로 발행됩니다.

핵심 발견 3가지

1. 업타임 % 수치는 불완전합니다
Claude API는 99% 업타임을 기록했지만 12일간 9건의 인시던트가 발생했습니다.
Cohere는 100% 업타임에 인시던트 제로입니다.
숫자만 보면 비슷해 보이지만 실제 신뢰도는 전혀 다릅니다.

2. 짧은 인시던트가 쌓이면 큰 문제입니다
Together AI는 12일간 인시던트 20건으로 가장 많았지만
평균 복구 시간은 25분으로 총 다운타임은 8시간 37분입니다.
반면 ChatGPT는 4건이었지만 그 중 하나가 19시간 46분짜리였습니다.

3. 업스트림 의존성 위험
Deepgram의 74시간 Voice Agent 장애는 OpenAI 장애에서 시작됐습니다.
다른 AI 위에 AI를 얹은 서비스는 상위 서비스의 장애를 그대로 상속합니다.


AIWatch Score 상위 5개 (3월 기준)

서비스 Score 등급 인시던트
Cohere API 100 Excellent 0건
Hugging Face 100 Excellent 0건
OpenRouter 99 Excellent 0건
Groq Cloud 93 Excellent 1건
DeepSeek API 92 Excellent 1건
OpenAI API 88 Excellent 1건 (2h 56m)
Together AI 84 Good 20건 (avg 25m)
ChatGPT 73 Good 4건 (최장 19h 46m)
Claude API 59 Fair 9건 (모델별 집계)
ElevenLabs 47 Degrading 2건 (최장 4h 47m)

Score 공식 (3월 리포트 기준): Uptime(50) + 인시던트 영향 일수(30) + 복구 시간(20) = 100점 만점
인시던트 건수가 아닌 영향 일수(affected_days) 기준이라 보고 방식에 관계없이 공정한 비교가 가능합니다.
산출 방식 전체 공개: https://ai-watch.dev/#about-score

ElevenLabs는 업타임 97.55%로 27개 서비스 중 유일하게 Degrading 등급을 받았습니다.
음성/오디오 서비스를 프로덕션에 사용 중이라면 주의가 필요합니다.


참고사항

  • 모니터링 기간이 3월 20~31일 (12일)로 첫 번째 리포트인 만큼 데이터가 부분적입니다.
    4월부터 전체 월 데이터로 발행됩니다.

용도별 추천 (3월 리포트 기준)

  • 프로덕션 크리티컬: Cohere(100점, 인시던트 0건), OpenAI API(88점, 인시던트 1건/총 다운타임 2h 56m)
  • 저지연 / 안정성: Groq Cloud(93점, 100% 업타임), DeepSeek API(92점)
  • 코딩 워크플로: Cursor, Windsurf (높은 업타임)
  • 음성/오디오: AssemblyAI 권장 + Fallback 필수 (ElevenLabs·Deepgram 다중 장애)