2026 Bio-AI 오픈소스 감사 보고서: 10개를 점검해보니, "대부분은 돌아가지만 믿기 어려웠다."

flamehaven01 · 2026-03-25T20:37:20+09:00

전체 요지 이 보고서는 2026년 3월 기준, 가시성이 높은 Bio-AI 및 인접 과학 자동화 저장소 10개를 감사한 결과를 정리 무작위 선정 아닌 GitHub star. 기술적 논의 빈도. 실제 생태계 노출도 기준으로 선정. 감사는 2단계 방식으로 진행, 1단계는 기술적 코드 검수: Repo 구조·엔트리포인트·실행, 2단계는 STEM-AI v1.0.4 점수화로 문서 무결성, 코드·테스트·거버넌스 평가 등을 실시 결론: 대부분은 실행 가능. 그러나 신뢰 가능 수준은 아님. 가버넌스의 부재는 Bio-AI의 한계를 보여줌 1. Bio-AI 2026 현재상황 LLM 기반 Bio-AI 도구 급증. agent, skills, automation wrapper hype도 빠르게 확산. 겉보기 성능과 유용성은 커짐. 그러나 검증 장치 부족. 책임 소재 불분명. 신약 개발 등 고위험 영역에서는 특히 위험. 결론적으로, 능력의 확산 속도보다 검증과 거버넌스가 훨씬 뒤처져 있음. 2. 감사 대상 대상 10개 선정. 기준은 가시성. 영향력. 실제 노출도. 논의 빈도. 중심. Biomni AI-Scientist CellAgent ClawBio LabClaw claude-scientific-skills SciAgent-Skills BioAgents BioClaw OpenClaw-Medical-Skills 3. 감사 방식 감사는 2단계로 진행. 1단계. Technical Code Audit 저장소 구조 확인. 엔트리포인트 확인. 오케스트레이션 레이어 확인. 실행 경로 추적. 출력 경로 확인. 핵심 파일 직접 점검. README 주장과 실제 코드 비교. 즉, “무엇을 한다고 쓰여 있는가”보다 “실제로 무엇을 하는가” 중심으로 확인. 2단계. STEM-AI v1.0.4 점수화 S1 평가 진행. README와 문서 무결성 확인. S3 평가 진행. 코드 실체 확인. 테스트 확인. 변경 규율 확인. 생물학적 무결성 장치 확인. 즉, 인상평 아님. 구조 확인 후 점수화 진행. 감사 원칙 전체 저장소 완전 동적 재현 전부 수행 아님. 대신 핵심 주장과 직접 연결된 부분 중심으로 감사 진행. 위험·모순 큰 부분은 심화 검토 진행. 중요 원칙: README보다 실행 표면 우선. 문서와 코드 충돌 시, 문서가 아니라 실행 기준으로 판단. 즉, 이 감사는 재현 벤치마크 보다 구조 진단에 더 가까움. 4. 점수화로 등급 T0: 신뢰 미성립. 실행되더라도 신뢰 가능한 시스템으로 보기 어려움. T1: 일부 구조는 있으나 여전히 신뢰 부족. 탐색·참고 수준. T2: 의미 있는 진전은 있으나 감독된 파일럿에 넣기엔 아직 부족. T3: 감독된 파일럿 검토가 가능한 최소 기준. T4: 더 높은 결과 책임 환경과의 연결을 검토할 수 있는 수준. 보고서는 T3를 감독된 파일럿의 최소선으로, T4를 더 높은 결과 책임 환경 연결의 최소선으로 선정 5. 결과 개별 레포 결과 AI-Scientist — 48점, T1 Biomni — 17점, T0 BioAgents — 30점, T0 BioClaw — 29점, T0 CellAgent — 15점, T0 ClawBio — 63점, T2 claude-scientific-skills — 24점, T0 LabClaw — 20점, T0 SciAgent-Skills — 32점, T0 OpenClaw-Medical-Skills — 22점, T0 결과 의미 10개 중 8개는 신뢰 미성립. 1개는 일부 구조 존재. 그러나 여전히 부족. 1개는 가장 나았음. 그러나 파일럿 최소선 미달. T3 이상 0개. 즉, 감독된 파일럿 최소 기준 통과 저장소 없음. 6. 반복되는 패턴 문제점 주장 과함 검증 약함 추적성 부족 실패 경계 약함 README와 실행 현실 불일치 거버넌스 부재 재현성 부족 라이선스·책임·운영 경계 불명확 임상 인접 범위를 말하지만 책임 구조 취약 CI는 과학 검증보다 문법·형식 검증 위주. 목업·플레이스홀더가 실제 기능처럼 보이는 사례 확인. 로컬 설계는 좋아 보여도 배포 기본값은 위험한 경우 반복. 7. 최종 결론 이 보고서는 Bio-AI 모든 오픈소스 “쓸모없다”를 말하는 것 아님. 핵심은 유능해 보이는 것과 신뢰 가능함은 다르다는 점을 강조 병목은 모델 능력만이 아니라 검증, 추척, 책임, 거버넌스의 부재가 더 큰 문제 더 정확히는 주장과 출력의 재현 가능, 경계 명확, 기관 검토 가능하도록 구조 개선해야 Bio-AI가 신뢰 가능한 시스템이 될 수 있음 8 . 한줄 요약 Bio-AI의 문제는 능력 부족보다, 검증·거버넌스 부족이 가장 큰 문제

(flamehaven.space)

2P by flamehaven01 3달전 | ★ favorite | 댓글과 토론

전체 요지

이 보고서는 2026년 3월 기준, 가시성이 높은 Bio-AI 및 인접 과학 자동화 저장소 10개를 감사한 결과를 정리
무작위 선정 아닌 GitHub star. 기술적 논의 빈도. 실제 생태계 노출도 기준으로 선정.
감사는 2단계 방식으로 진행, 1단계는 기술적 코드 검수: Repo 구조·엔트리포인트·실행, 2단계는 STEM-AI v1.0.4 점수화로 문서 무결성, 코드·테스트·거버넌스 평가 등을 실시
결론: 대부분은 실행 가능. 그러나 신뢰 가능 수준은 아님. 가버넌스의 부재는 Bio-AI의 한계를 보여줌

1. Bio-AI 2026 현재상황

LLM 기반 Bio-AI 도구 급증.
agent, skills, automation wrapper hype도 빠르게 확산.
겉보기 성능과 유용성은 커짐.
그러나 검증 장치 부족.
책임 소재 불분명.
신약 개발 등 고위험 영역에서는 특히 위험.
결론적으로, 능력의 확산 속도보다 검증과 거버넌스가 훨씬 뒤처져 있음.

2. 감사 대상

대상 10개 선정.
기준은 가시성. 영향력. 실제 노출도. 논의 빈도. 중심.
- Biomni
- AI-Scientist
- CellAgent
- ClawBio
- LabClaw
- claude-scientific-skills
- SciAgent-Skills
- BioAgents
- BioClaw
- OpenClaw-Medical-Skills

3. 감사 방식

감사는 2단계로 진행.
1단계. Technical Code Audit
- 저장소 구조 확인.
- 엔트리포인트 확인.
- 오케스트레이션 레이어 확인.
- 실행 경로 추적.
- 출력 경로 확인.
- 핵심 파일 직접 점검.
- README 주장과 실제 코드 비교.
- 즉, “무엇을 한다고 쓰여 있는가”보다 “실제로 무엇을 하는가” 중심으로 확인.
2단계. STEM-AI v1.0.4 점수화
- S1 평가 진행.
- README와 문서 무결성 확인.
- S3 평가 진행.
- 코드 실체 확인. 테스트 확인. 변경 규율 확인. 생물학적 무결성 장치 확인.
- 즉, 인상평 아님. 구조 확인 후 점수화 진행.
감사 원칙
- 전체 저장소 완전 동적 재현 전부 수행 아님.
- 대신 핵심 주장과 직접 연결된 부분 중심으로 감사 진행.
- 위험·모순 큰 부분은 심화 검토 진행.
- 중요 원칙: README보다 실행 표면 우선. 문서와 코드 충돌 시, 문서가 아니라 실행 기준으로 판단.
- 즉, 이 감사는 재현 벤치마크 보다 구조 진단에 더 가까움.

4. 점수화로 등급

T0: 신뢰 미성립. 실행되더라도 신뢰 가능한 시스템으로 보기 어려움.
T1: 일부 구조는 있으나 여전히 신뢰 부족. 탐색·참고 수준.
T2: 의미 있는 진전은 있으나 감독된 파일럿에 넣기엔 아직 부족.
T3: 감독된 파일럿 검토가 가능한 최소 기준.
T4: 더 높은 결과 책임 환경과의 연결을 검토할 수 있는 수준.
보고서는 T3를 감독된 파일럿의 최소선으로, T4를 더 높은 결과 책임 환경 연결의 최소선으로 선정

5. 결과

개별 레포 결과
- AI-Scientist — 48점, T1
- Biomni — 17점, T0
- BioAgents — 30점, T0
- BioClaw — 29점, T0
- CellAgent — 15점, T0
- ClawBio — 63점, T2
- claude-scientific-skills — 24점, T0
- LabClaw — 20점, T0
- SciAgent-Skills — 32점, T0
- OpenClaw-Medical-Skills — 22점, T0
결과 의미
- 10개 중 8개는 신뢰 미성립.
- 1개는 일부 구조 존재. 그러나 여전히 부족.
- 1개는 가장 나았음. 그러나 파일럿 최소선 미달.
- T3 이상 0개. 즉, 감독된 파일럿 최소 기준 통과 저장소 없음.

6. 반복되는 패턴 문제점

주장 과함
검증 약함
추적성 부족
실패 경계 약함
README와 실행 현실 불일치
거버넌스 부재
재현성 부족
라이선스·책임·운영 경계 불명확
임상 인접 범위를 말하지만 책임 구조 취약
CI는 과학 검증보다 문법·형식 검증 위주.
목업·플레이스홀더가 실제 기능처럼 보이는 사례 확인.
로컬 설계는 좋아 보여도 배포 기본값은 위험한 경우 반복.

7. 최종 결론

이 보고서는 Bio-AI 모든 오픈소스 “쓸모없다”를 말하는 것 아님.
핵심은 유능해 보이는 것과 신뢰 가능함은 다르다는 점을 강조
병목은 모델 능력만이 아니라 검증, 추척, 책임, 거버넌스의 부재가 더 큰 문제
더 정확히는 주장과 출력의 재현 가능, 경계 명확, 기관 검토 가능하도록 구조 개선해야 Bio-AI가 신뢰 가능한 시스템이 될 수 있음

8 . 한줄 요약

Bio-AI의 문제는 능력 부족보다, 검증·거버넌스 부족이 가장 큰 문제