Hacker News 의견
  • "재실행 가능성" 결과에 대한 의견:

    • 재실행 가능성은 의미론적 정확성을 측정하는 중요한 방법임. 디컴파일된 결과물을 다시 컴파일하고 테스트 케이스를 실행하여 프로그램 로직과 동작이 보존되었는지 평가함. 재컴파일 가능성과 재실행 가능성은 문법 복구와 의미 보존을 나타내며, 이는 사용 가능하고 견고한 디컴파일에 필수적임.
  • 디컴파일된 결과의 신뢰성에 대한 질문:

    • 디컴파일된 결과가 신뢰할 수 있는지에 대한 진지한 질문임. 재컴파일로 인해 다른 기계 코드가 생성될 수 있으며, 특히 코드의 핵심 부분일 수 있는 새로운 구조물을 식별하기 어려울 수 있음. 생성적으로 실행할 때 LLM이 특정 섹션에 대한 신뢰도를 보고하는 방법이 있는지 궁금함. 인간의 확인이 필요할 것으로 보임.
  • LLM 미세조정에 대한 우수한 사용 사례:

    • 공개된 C 코드에서 입력/출력 쌍의 대규모 데이터셋을 쉽게 생성할 수 있기 때문에 LLM 미세조정에 대한 훌륭한 사용 사례임.
  • 개발자 기반 디컴파일 모듈 훈련에 대한 관심:

    • 특정 개발자가 작업한 애플리케이션을 기반으로 디컴파일 모듈을 훈련할 수 있는지 여부가 흥미로움. 예를 들어, Super Mario 64와 Zelda 64는 완전히 디컴파일되었으며, 다른 N64 게임들도 진행 중임. 이러한 개발자가 작업한 다른 게임을 더 쉽게 디컴파일할 수 있는지 궁금함.
  • 디컴파일러의 이상적인 사용 사례와 데이터셋 생성에 대한 관심:

    • 이상적인 디컴파일러는 독점 소스 코드를 제거할 것임. 공개적으로 사용 가능한 C 코드의 풍부함으로 인해 ASM과 소스 코드의 쌍으로 이루어진 데이터셋을 쉽게 만들 수 있음.
  • 개인이 진행 중인 LLM 기반 디컴파일러 프로젝트에 대한 소개:

    • Python 바이트코드를 위한 LLM 기반 디컴파일러를 개발 중임. 이 연구 방향에 대해 일하는 사람들이 많지 않지만, 긴 주의 컨텍스트가 가능해지면서 흥미로울 수 있다고 생각함. 협력할 팀을 알고 있다면 협력에 관심이 있음.
  • AI 기반 접근법과 비교 없는 벤치마크에 대한 우려:

    • 다양한 접근법을 보는 것은 멋지지만, IDA Pro와 같은 비 AI 기반 접근법과의 비교 없이는 벤치마크가 의미 없을 수 있음. 이 모델이 보안 논문의 메트릭에서 어떻게 성능을 보이는지 보는 것이 흥미로울 것임.
  • 재컴파일 가능성과 재실행 가능성 점수의 큰 차이에 대한 관심:

    • GTP4는 재컴파일 가능성(문법적으로 정확함)에서 8x%를 달성했지만, 재실행 가능성(개념적으로 정확함)에서는 형편없는 1x%를 기록함으로써, 그것의 과도한 모방 능력을 다시 한번 보여줌.
  • LLM이 아닌 다른 디컴파일러와의 비교에 대한 궁금증:

    • IDA, Binja 등과 같은 비 LLM 디컴파일러와의 비교는 어떻게 되는지 궁금함. 다른 LLM과의 비교만 보임.
  • 6b 모델이 33b 모델보다 우수한 성능을 보인 것에 대한 호기심:

    • 6b 모델이 33b 모델보다 더 나은 성능을 보이는 것이 흥미로움. 33b 모델이 더 많은 훈련 데이터가 필요한 것인지 궁금함. 33b 모델은 약 100만 개의 C 프로그램으로 사전 훈련되었지만, DeepSeek-Coder는 2조 개의 토큰으로 훈련되었으며, 이는 몇 단계 더 많은 데이터임.