TL;DR

ProofBench는 기호 수학(SymPy/Pyodide)과 AI 의미 분석(멀티 LLM 합의)을 결합한 차세대 AI 하이브리드 벤치마크 및 증명 검증 시스템입니다.

증명의 논리적 구조의미적 타당성을 동시에 평가해, ‘겉보기에 맞는’ 논증을 탐지하고 Logic Integrity Index (LII) 로 정량화합니다.


🎯 왜 만들었나

전통적 증명 검증기는

  • 형식 논리 기반이라 너무 엄격하고 비실용적이거나,
  • 문법 수준에서 멈춰 의미적 오류를 잡지 못하며,
  • 계산 비용이 높아 실시간 피드백이 어려운 문제가 있습니다.

ProofBench는 “70% 기호 + 30% 의미” 하이브리드 접근으로 기호 검증의 엄밀함과 AI의 유연한 이해력을 결합한 AI 하이브리드 벤치마크 프레임워크입니다.


📊 ProofBench는 이런 질문을 검증합니다

  • “AI가 논리적 일관성을 이해할 수 있는가?”
  • “증명 구조를 그래프 기반으로 시각화하면 오류 패턴이 보이는가?”
  • “의미 기반 평가는 얼마나 신뢰할 수 있는가?
  • “기호·의미 결합형 벤치마크가 교육·연구·AI 평가에 유용한가?”

🧩 AI 하이브리드 벤치마크 지표

  • LII (Logic Integrity Index): 논리적 무결성의 핵심 척도
  • Coherence Variance: 다중 모델 간 일치도
  • Symbolic Pass Rate: 수학적 정합성 비율
  • Semantic Stability: 문맥 일관성 유지율

이 수치들은 추후 AI 모델의 “논리력·일관성·의미 해석력” 평가용 공통 기준으로 발전 가능합니다.


🔍 아키텍처 개요

  • Symbolic Layer — SymPy를 Pyodide로 실행해 브라우저 내에서 결정적 검증
  • Semantic Layer — 여러 LLM의 응답을 합의(consensus) 기반으로 평가
  • Hybrid Orchestrator — 70/30 기본 가중치(조정 가능), 최종 스코어 산출
  • LII Engine — 논리 무결성 지수 + 신뢰구간 계산
  • Justification Analyzer — 의존성 그래프 + 사이클 탐지
  • Feedback Generator — 자연어 기반 단계별 평가 리포트 생성

⚙️ 핵심 기능 (v3.7.2)

  • 하이브리드 검증 엔진: 브라우저 내 Pyodide로 SymPy 실행 + 멀티 LLM 합의 기반 의미 분석
  • LII (Logic Integrity Index): 0–100 점수와 95% 신뢰구간으로 논리 일관성 정량화
  • Justification Graph: 증명 간 의존 관계 시각화 및 순환 논증 자동 탐지
  • Consensus Manager: 여러 모델 간 일치도를 계산하고 코히어런스 기반 평균 스코어 산출
  • Natural Feedback Generator: 각 단계별 오류·이유를 자연어로 피드백
  • UI / Dashboard: 증명 단계별 결과, 그래프 뷰, 리포트, LII 점수 시각화
  • Docker 원클릭 실행: docker run 한 줄로 바로 사용 가능
docker run -p 3000:80 ghcr.io/flamehaven/proofbench:latest  
# → http://localhost:3000  
  

🧱 한계

  • 의미 계층은 복잡한 언어적 함정에 영향을 받음 (기호 계층이 완충)
  • LII는 공식 증명서(cert)가 아니라 품질 지표
  • 저사양 기기에서 Pyodide 초기 구동 비용 존재

⚡ 피드백 받고 싶은 점

  • 70/30 기본 가중치가 합리적인가? (adaptive weight 필요 여부)
  • LII + 신뢰구간이 교육·연구용 벤치마크로 유의미한가?
  • 순환 논증 탐지가 실제 수학/논리 과제에서 유용한가?
  • 브라우저(Pyodide) 성능 병목 지점 개선 아이디어?
  • “보기엔 맞지만 틀린” 증명 샘플 제보 환영 🧩

🗺️ 로드맵

  • 섹션별 가변 가중치(adaptive weighting)
  • 다양한 증명 포맷 지원 (Lean, Coq, Markdown 수식 등)
  • LII + 그래프 기반 리포트 내보내기 템플릿 강화
  • 레드팀 벤치 구성 (“그럴듯하지만 틀린” 증명 집합 공개)

🔗 링크


✍️ 개발 코멘트

ProofBench는 AI가 “정답”이 아니라 “정당성” 을 이해할 수 있는지를 시험하기 위한 도구로, 논리 구조, 의미 일관성, 설명 가능성을 하나의 벤치마크로 통합합니다.

이건 단순한 검증기가 아니라 — AI의 사고력을 측정하는 새로운 실험대가 되어 줄 것입니다.