전체 요지

  • 이 보고서는 2026년 3월 기준, 가시성이 높은 Bio-AI 및 인접 과학 자동화 저장소 10개를 감사한 결과를 정리
  • 무작위 선정 아닌 GitHub star. 기술적 논의 빈도. 실제 생태계 노출도 기준으로 선정.
  • 감사는 2단계 방식으로 진행, 1단계는 기술적 코드 검수: Repo 구조·엔트리포인트·실행, 2단계는 STEM-AI v1.0.4 점수화로 문서 무결성, 코드·테스트·거버넌스 평가 등을 실시
  • 결론: 대부분은 실행 가능. 그러나 신뢰 가능 수준은 아님. 가버넌스의 부재는 Bio-AI의 한계를 보여줌

1. Bio-AI 2026 현재상황

  • LLM 기반 Bio-AI 도구 급증.
  • agent, skills, automation wrapper hype도 빠르게 확산.
  • 겉보기 성능과 유용성은 커짐.
  • 그러나 검증 장치 부족.
  • 책임 소재 불분명.
  • 신약 개발 등 고위험 영역에서는 특히 위험.
  • 결론적으로, 능력의 확산 속도보다 검증과 거버넌스가 훨씬 뒤처져 있음.

2. 감사 대상

  • 대상 10개 선정.
  • 기준은 가시성. 영향력. 실제 노출도. 논의 빈도. 중심.
    • Biomni
    • AI-Scientist
    • CellAgent
    • ClawBio
    • LabClaw
    • claude-scientific-skills
    • SciAgent-Skills
    • BioAgents
    • BioClaw
    • OpenClaw-Medical-Skills

3. 감사 방식

  • 감사는 2단계로 진행.
  • 1단계. Technical Code Audit
    • 저장소 구조 확인.
    • 엔트리포인트 확인.
    • 오케스트레이션 레이어 확인.
    • 실행 경로 추적.
    • 출력 경로 확인.
    • 핵심 파일 직접 점검.
    • README 주장과 실제 코드 비교.
    • 즉, “무엇을 한다고 쓰여 있는가”보다 “실제로 무엇을 하는가” 중심으로 확인.
  • 2단계. STEM-AI v1.0.4 점수화
    • S1 평가 진행.
    • README와 문서 무결성 확인.
    • S3 평가 진행.
    • 코드 실체 확인. 테스트 확인. 변경 규율 확인. 생물학적 무결성 장치 확인.
    • 즉, 인상평 아님. 구조 확인 후 점수화 진행.
  • 감사 원칙
    • 전체 저장소 완전 동적 재현 전부 수행 아님.
    • 대신 핵심 주장과 직접 연결된 부분 중심으로 감사 진행.
    • 위험·모순 큰 부분은 심화 검토 진행.
    • 중요 원칙: README보다 실행 표면 우선. 문서와 코드 충돌 시, 문서가 아니라 실행 기준으로 판단.
    • 즉, 이 감사는 재현 벤치마크 보다 구조 진단에 더 가까움.

4. 점수화로 등급

  • T0: 신뢰 미성립. 실행되더라도 신뢰 가능한 시스템으로 보기 어려움.
  • T1: 일부 구조는 있으나 여전히 신뢰 부족. 탐색·참고 수준.
  • T2: 의미 있는 진전은 있으나 감독된 파일럿에 넣기엔 아직 부족.
  • T3: 감독된 파일럿 검토가 가능한 최소 기준.
  • T4: 더 높은 결과 책임 환경과의 연결을 검토할 수 있는 수준.
  • 보고서는 T3를 감독된 파일럿의 최소선으로, T4를 더 높은 결과 책임 환경 연결의 최소선으로 선정

5. 결과

  • 개별 레포 결과
    • AI-Scientist — 48점, T1
    • Biomni — 17점, T0
    • BioAgents — 30점, T0
    • BioClaw — 29점, T0
    • CellAgent — 15점, T0
    • ClawBio — 63점, T2
    • claude-scientific-skills — 24점, T0
    • LabClaw — 20점, T0
    • SciAgent-Skills — 32점, T0
    • OpenClaw-Medical-Skills — 22점, T0
  • 결과 의미
    • 10개 중 8개는 신뢰 미성립.
    • 1개는 일부 구조 존재. 그러나 여전히 부족.
    • 1개는 가장 나았음. 그러나 파일럿 최소선 미달.
    • T3 이상 0개. 즉, 감독된 파일럿 최소 기준 통과 저장소 없음.

6. 반복되는 패턴 문제점

  • 주장 과함
  • 검증 약함
  • 추적성 부족
  • 실패 경계 약함
  • README와 실행 현실 불일치
  • 거버넌스 부재
  • 재현성 부족
  • 라이선스·책임·운영 경계 불명확
  • 임상 인접 범위를 말하지만 책임 구조 취약
  • CI는 과학 검증보다 문법·형식 검증 위주.
  • 목업·플레이스홀더가 실제 기능처럼 보이는 사례 확인.
  • 로컬 설계는 좋아 보여도 배포 기본값은 위험한 경우 반복.

7. 최종 결론

  • 이 보고서는 Bio-AI 모든 오픈소스 “쓸모없다”를 말하는 것 아님.
  • 핵심은 유능해 보이는 것과 신뢰 가능함은 다르다는 점을 강조
  • 병목은 모델 능력만이 아니라 검증, 추척, 책임, 거버넌스의 부재가 더 큰 문제
  • 더 정확히는 주장과 출력의 재현 가능, 경계 명확, 기관 검토 가능하도록 구조 개선해야 Bio-AI가 신뢰 가능한 시스템이 될 수 있음

8 . 한줄 요약

  • Bio-AI의 문제는 능력 부족보다, 검증·거버넌스 부족이 가장 큰 문제