전체 요지
- 이 보고서는 2026년 3월 기준, 가시성이 높은 Bio-AI 및 인접 과학 자동화 저장소 10개를 감사한 결과를 정리
- 무작위 선정 아닌 GitHub star. 기술적 논의 빈도. 실제 생태계 노출도 기준으로 선정.
- 감사는 2단계 방식으로 진행, 1단계는 기술적 코드 검수: Repo 구조·엔트리포인트·실행, 2단계는 STEM-AI v1.0.4 점수화로 문서 무결성, 코드·테스트·거버넌스 평가 등을 실시
- 결론: 대부분은 실행 가능. 그러나 신뢰 가능 수준은 아님. 가버넌스의 부재는 Bio-AI의 한계를 보여줌
1. Bio-AI 2026 현재상황
- LLM 기반 Bio-AI 도구 급증.
- agent, skills, automation wrapper hype도 빠르게 확산.
- 겉보기 성능과 유용성은 커짐.
- 그러나 검증 장치 부족.
- 책임 소재 불분명.
- 신약 개발 등 고위험 영역에서는 특히 위험.
- 결론적으로, 능력의 확산 속도보다 검증과 거버넌스가 훨씬 뒤처져 있음.
2. 감사 대상
- 대상 10개 선정.
- 기준은 가시성. 영향력. 실제 노출도. 논의 빈도. 중심.
- Biomni
- AI-Scientist
- CellAgent
- ClawBio
- LabClaw
- claude-scientific-skills
- SciAgent-Skills
- BioAgents
- BioClaw
- OpenClaw-Medical-Skills
3. 감사 방식
- 감사는 2단계로 진행.
- 1단계. Technical Code Audit
- 저장소 구조 확인.
- 엔트리포인트 확인.
- 오케스트레이션 레이어 확인.
- 실행 경로 추적.
- 출력 경로 확인.
- 핵심 파일 직접 점검.
- README 주장과 실제 코드 비교.
- 즉, “무엇을 한다고 쓰여 있는가”보다 “실제로 무엇을 하는가” 중심으로 확인.
- 2단계. STEM-AI v1.0.4 점수화
- S1 평가 진행.
- README와 문서 무결성 확인.
- S3 평가 진행.
- 코드 실체 확인. 테스트 확인. 변경 규율 확인. 생물학적 무결성 장치 확인.
- 즉, 인상평 아님. 구조 확인 후 점수화 진행.
- 감사 원칙
- 전체 저장소 완전 동적 재현 전부 수행 아님.
- 대신 핵심 주장과 직접 연결된 부분 중심으로 감사 진행.
- 위험·모순 큰 부분은 심화 검토 진행.
- 중요 원칙: README보다 실행 표면 우선. 문서와 코드 충돌 시, 문서가 아니라 실행 기준으로 판단.
- 즉, 이 감사는 재현 벤치마크 보다 구조 진단에 더 가까움.
4. 점수화로 등급
- T0: 신뢰 미성립. 실행되더라도 신뢰 가능한 시스템으로 보기 어려움.
- T1: 일부 구조는 있으나 여전히 신뢰 부족. 탐색·참고 수준.
- T2: 의미 있는 진전은 있으나 감독된 파일럿에 넣기엔 아직 부족.
- T3: 감독된 파일럿 검토가 가능한 최소 기준.
- T4: 더 높은 결과 책임 환경과의 연결을 검토할 수 있는 수준.
- 보고서는 T3를 감독된 파일럿의 최소선으로, T4를 더 높은 결과 책임 환경 연결의 최소선으로 선정
5. 결과
- 개별 레포 결과
- AI-Scientist — 48점, T1
- Biomni — 17점, T0
- BioAgents — 30점, T0
- BioClaw — 29점, T0
- CellAgent — 15점, T0
- ClawBio — 63점, T2
- claude-scientific-skills — 24점, T0
- LabClaw — 20점, T0
- SciAgent-Skills — 32점, T0
- OpenClaw-Medical-Skills — 22점, T0
- 결과 의미
- 10개 중 8개는 신뢰 미성립.
- 1개는 일부 구조 존재. 그러나 여전히 부족.
- 1개는 가장 나았음. 그러나 파일럿 최소선 미달.
- T3 이상 0개. 즉, 감독된 파일럿 최소 기준 통과 저장소 없음.
6. 반복되는 패턴 문제점
- 주장 과함
- 검증 약함
- 추적성 부족
- 실패 경계 약함
- README와 실행 현실 불일치
- 거버넌스 부재
- 재현성 부족
- 라이선스·책임·운영 경계 불명확
- 임상 인접 범위를 말하지만 책임 구조 취약
- CI는 과학 검증보다 문법·형식 검증 위주.
- 목업·플레이스홀더가 실제 기능처럼 보이는 사례 확인.
- 로컬 설계는 좋아 보여도 배포 기본값은 위험한 경우 반복.
7. 최종 결론
- 이 보고서는 Bio-AI 모든 오픈소스 “쓸모없다”를 말하는 것 아님.
- 핵심은 유능해 보이는 것과 신뢰 가능함은 다르다는 점을 강조
- 병목은 모델 능력만이 아니라 검증, 추척, 책임, 거버넌스의 부재가 더 큰 문제
- 더 정확히는 주장과 출력의 재현 가능, 경계 명확, 기관 검토 가능하도록 구조 개선해야 Bio-AI가 신뢰 가능한 시스템이 될 수 있음
8 . 한줄 요약
- Bio-AI의 문제는 능력 부족보다, 검증·거버넌스 부족이 가장 큰 문제