2P by GN⁺ 16시간전 | ★ favorite | 댓글 1개
  • 컴퓨터 비전의 기초를 이미지 처리와 머신러닝 관점에서 다룬 입문 및 중급자를 위한 책임
  • 핵심 개념에 집중하기 위해 각 챕터를 짧고 명확하게 구성함
  • 딥러닝 혁명 이후 변화와 고전적 아이디어의 재구성 과정을 책 집필 경험과 함께 설명함
  • 15개 파트로 이미지 처리, 신경망, 생성 모델, 시퀀스 처리, 씬 이해 등 컴퓨터 비전 전반의 주제 다룸
  • 최신 연구 동향이나 특정 응용보다는 필수 이론과 직관 구축에 초점을 맞춘 구조임

서문

  • 모든 픽셀에게 헌정함

이 책에 대하여

  • 이 책은 컴퓨터 비전의 핵심 주제들을 이미지 처리와 머신러닝의 시각에서 다룸
  • 독자의 직관을 개발하기 위해 다양한 시각화 자료를 포함함
  • 주요 독자층은 컴퓨터 비전에 입문하는 학부 및 대학원생이지만, 경험 많은 실무자에게도 유용함
  • 원래는 방대한 내용을 목표로 했으나, 컴퓨터 비전 분야의 방대함 때문에 각 장을 5페이지 이내로 제한하여 핵심 개념에 집중함
  • 짧은 책을 쓰겠다는 목표였지만 결국 분량이 많아진 경험을 솔직하게 공유함

책 집필의 과정

  • 집필 시작 시 가졌던 의도와 실제 과정의 비선형성을 데이터로 보여주며, 완성까지 10년 이상 소요됨
  • 집필 과정 중 딥러닝 혁명(2012년) 이 일어나 전통적 방법과 현대적 접근법의 융합 과정이 진행됨
  • 초기 딥러닝의 인기로 인해 이전의 아이디어들이 잠시 잊혔으나, 시간이 지나면서 본질적 개념들이 재조명됨
  • 집필 여정이 힘들었지만, 직접 다양한 예제와 실험을 하며 많은 배움을 얻었다고 언급함
  • 컴퓨터 비전 및 AI 분야의 주요 사건들이 책 집필 시점과 함께 변화했음을 시각적으로 보여줌

책의 구조

  • 컴퓨터 비전 분야는 지난 10여 년간 급격한 발전을 겪었으며, 현재 방식이 과거와 전혀 다른 듯 보이지만 역사적 연속성을 강조함
  • 책 전체적으로 통일된 주제와 시각, 그리고 다양한 관점의 중요성을 반복적으로 다룸
  • 책은 15개 파트로 구성되며, 각 파트가 컴퓨터 비전의 일관된 주제에 집중함

각 파트 소개

  • Part I: 컴퓨터 비전 문제에 대한 동기 부여와 사회적 맥락, 수학적 기초 소개
  • Part II: 이미지 생성 과정
  • Part III: 이미지 예시를 통한 머신러닝 기초 개념 설명
  • Part IV: 신호 및 이미지 처리 입문
  • Part V: 유용한 선형 필터(가우시안 커널, 이진 필터, 이미지 도함수, 라플라시안, 시간 필터) 및 응용
  • Part VI: 멀티스케일 이미지 표현
  • Part VII: 컴퓨터 비전을 위한 신경망(합성곱 신경망, 순환 신경망, 트랜스포머)
  • Part VIII: 이미지의 통계적 모델과 그래프 모델
  • Part IX: 생성 모델표현 학습(벡터 임베딩 등) 중심의 현대적 접근
  • Part X: 학습 기반 비전 시스템 구축 시 발생하는 도전 과제
  • Part XI: 3D 구조 재구성을 위한 기하학적 도구
  • Part XII: 시퀀스 처리 및 모션 측정
  • Part XIII: 씬 이해 및 객체 검출
  • Part XIV: 주니어 연구원을 위한 프레젠테이션, 논문 작성, 효과적인 연구 마인드에 대한 조언
  • Part XV: Part I에서 제시한 문제를 책에서 다룬 다양한 방법론으로 해결 시도

다루지 않는 내용

  • 최신 컴퓨터 비전 최신 동향이나 다양한 실용적 응용 분야(형상 분석, 객체 추적, 동작 분석, 얼굴 인식 등)는 다루지 않음
  • 이런 세부 응용은 학회 논문이나 전문 서적 참고가 더 효과적임

감사의 글

  • 다양한 컴퓨터 비전 교육과 연구에 영향을 준 교수진·학생·동료들에게 감사를 표함
  • 여러 학회의 강의 자료와 실험, 챕터별 지원, 표지 디자인 등 다양한 협력에 대한 구체적 감사 언급
  • 각 저자가 가족 및 가까운 지인에게도 지속적 지원에 대해 감사를 표함

인용 정보

  • 도서를 인용할 때 사용할 수 있는 BibTeX 양식을 제공함

강사진을 위한 리소스

  • 도서 인쇄본은 MIT Press에서 구매 가능함
  • 책과 연계된 강의 슬라이드를 온라인으로 제공함

참고 문헌

  • 컴퓨터 비전, 머신러닝, 신호처리, 기하학, 시각 과학 등 관련 주요 고전 및 최신 서적 리스트 제공
Hacker News 의견
  • "On Research, Writing and Speaking"이라는 책에 흥미로운 부분이 있음. "이거 힘들어 보이네." 맞음. 더 이상 똑똑함만으로는 승부 나지 않음. 대학원에서는 열심히 노력하는 사람이 앞서 나감이라는 이야기 공유

    • 정말 통찰력 있는 이야기임. 어느 순간부터는 지식만으로는 충분하지 않음이라는 사실을 모두가 실감함. 많은 사람이 대학 진학하며 이런 벽을 느낌. 하지만 대학에서는 학습 범위가 정해져 있어 어떻게든 실력으로 버틸 수 있음. 반면 박사 과정은 학습량에 제한이 없음. 정해진 독서 분량도, “시험 범위 외”라는 것도 없음. 공부, 실험, 논문 읽기 등 할 수 있는 만큼 무제한으로 해야 함. 단순히 똑똑한 걸로 끝나지 않고, 소프트 스킬이나 네트워크, 커뮤니티 맥락까지 파악 필요. 커뮤니티 사람들과 회의, 식사, 네트워킹 하며 연락 유지. 혼자 동기 부여해 마감과 루틴 관리 필요. 공식적인 수업, 시험으로 주어지는 동기와 달리, 스스로 관리해야만 함. 기준이 애매하고, 기대치는 무한대임. 이전과 달리 거절 당하는 경험도 있을 수 있음. 박사 과정은 누구에게나 한계에 도전하게 하는 힘든 시기임. 목적이 단순히 졸업이라면 대충 넘길 수도 있겠지만, 보통 학계 진로를 꿈꾸는 학생은 더 큰 목표를 가지기 마련임
  • 최근 2년간의 기술 변화로 인해 머신러닝, 특히 컴퓨터 비전 분야의 기존 내용이 여전히 유효한지 현업에 있는 사람이 코멘트 요청

    • 여전히 매우 유효. 최신 기법들도 근본적으로는 같은 기초 위에서 쌓아진 발전. 오히려 기본 개념, 전통적 알고리즘을 더 많이 읽어두는 것이 바람직. Hough transform, canny edge, sift, Harris corner 등 클래식 기법을 잘 알아야 진정한 전문가라 할 수 있음. 뜨는 기술 키워드만 외우고 API만 붙여쓰는 개발자들과 구별되는 실력의 차이 발생

    • 아직도 GPU 가속이 어려운 시스템 등에서는 "클래식" 컴퓨터 비전 기법이 필수적임. 나는 리소스 제한된 환경에서 Simultaneous localization and mapping 문제를 해결하는 실무자. Structure from Motion 장 꼭 읽어볼 예정

  • "Writing this book" 부분이 LLM이 원고 2/3를 작성한 것처럼 보일 수도 있음. 실제로 LLM이 쓸 게 많아져서 책 내용이 늘었다는 의미일 것 같으니 명확히 하는 게 좋겠다는 의견

    • 나는 그렇게 읽지 않음. 실제로 ChatGPT가 등장한 뒤에 책의 1/3 이하만 작성된 것으로 보임. 오히려 ML/AI 분야의 주요 이벤트를 그래프에 표시한 느낌
  • 컴퓨터 비전 분야에서 또다른 좋은 책으로는 아래 책 추천

    Computer Vision, Fifth Edition
    E.R. Davies
    Academic Press
    ISBN-13 978-0128092842
    
    • 또 다른 주요 교재로는 Szeliski의 "Computer Vision 2nd Ed" (2022) 추천 https://szeliski.org/Book/. Forsyth & Ponce 책도 좋지만 다소 오래됨. 3D에 관심 있으면 여전히 Hartley & Zisserman의 Multiple View Geometry가 클래식
  • 이 책이 무료로 공개된 게 믿기지 않을 정도라며 극찬

    • 진짜 맞는 말임. 혹시 PDF로 다운로드할 수 있는 방법 찾았는지 궁금. 공부할 때 개인적으로 노트나 참고 자료 남기기가 꼭 필요하다고 생각함

    • 머신러닝, 컴퓨터 비전, 로보틱스 커뮤니티는 교재를 무료로 온라인 공개하는 문화가 대단함. 이 분야 최고 수준 교재도 무료로 온라인에서 구할 수 있음. 타 분야에서는 미국 교수들이 최신판을 구입하라고 요구해 높은 비용 들지만, 이 분야는 저개발국이나 전 세계 누구에게나 최고의 자료를 개방함. 강의 자료와 동영상도 같이 많이 공개

  • 머신 비전에 관한 좋은 책 추천 요청. 효과적인 머신 비전뿐 아니라 컴퓨터 비전의 핵심은 카메라, 광학, 조명 선택에 있다고 봄. 입력 이미지 품질이 좋지 않으면 출력도 나빠질 수밖에 없다고 생각함

    • 실제로 이런 요소들이 차이를 만들어낸 사례나 사용 예시를 공유해줄 수 있는지 궁금