Ask HN: LLM들의 소음에 묻히지 않는 ML 분야의 동향은 무엇인가?

대형 언어 모델(LLMs)의 소음에 묻혀 들리지 않는 기계학습(ML) 및 데이터 과학 분야에서는 여러 가지 흥미로운 일들이 발생하고 있음
Cynthia Rudin은 설명 가능한 인공지능(AI)에 대한 뛰어난 연구를 지속적으로 발표하고 있음
최근 몇 달 동안의 흥미로운 프로젝트들:
- 몇 장의 이미지로부터 3D 장면 재구성: NAVER LABS Europe
- 가우시안 아바타: Gaussian Avatars
- 재조명 가능한 가우시안 코덱: Relightable Gaussian Codec
- 모든 것을 추적: Co-Tracker, Omnimotion
- 모든 것을 분할: Segment Anything by Facebook Research
- 우수한 인간 자세 추정 모델: Yolov8, Google의 MediaPipe 모델
- 사실적인 TTS: XTTS-v2 by Coqui on Hugging Face, Bark TTS
- 우수한 STT: 대부분 Whisper 기반
- 기계 번역: 예를 들어 Meta의 SeamlessM4T
- Meta의 R&D에서 나오는 많은 결과물에 대한 감탄
NeRFS에 대한 설명:
- 3D 그래픽스를 근본적으로 재고하는 것으로, 텍스처가 있는 다각형 대신 빛나는 반투명한 구체들을 배치하는 방식
- 구체들의 위치와 색상은 정확한 다각도 카메라 샷과 포즈를 통해 신경망에 의해 학습되며, GPU에서 레이 트레이싱을 통해 렌더링 가능
- 장면들은 사진에서 생성되었기 때문에 완전히 사실적이지만, 탐험도 가능
- 이론적으로 이러한 장면들을 애니메이션화할 수 있지만, 실제로 어떻게 하는지는 여전히 연구 문제
- Nanite+photogrammetry와 같은 최적화된 다각형 기반 시스템보다 더 나을지 여부는 미지수
차량에서 도로의 비디오를 촬영하여 3D 장면을 만들 수 있는 도구에 대한 질문:
- 도로 주변 풍경에 초점을 맞추고, 여러 각도에서 여러 번 운전할 수 있으며, 처리 시간이 많이 걸려도 괜찮음
- 레이싱 시뮬레이터에서 사용할 지역 도로를 만들고자 함
기하학적 딥러닝에 대한 관심:
- 데이터의 알려진 대칭성을 존중하도록 원칙적으로 모델을 설계하는 방법
- ConvNets는 그들의 변환 동등성으로 유명하지만, 다른 대칭 그룹에 대한 최근 예시들도 존재
- 특정 대칭성을 자동으로 발견하거나 식별할 수 있는지에 대한 질문도 있음
UW-Madison의 ML+X 커뮤니티가 주최하는 기계 학습 마라톤 소개:
- Kaggle에서 경쟁으로 특집될 약 12주간의 여름 이벤트
- 기계 학습 도구를 함께 배우고 적용하여 실제 데이터셋에 대한 혁신적인 해결책을 찾는 기회
- 다양한 도전 과제가 있으며, 초보자와 고급 실무자 모두에게 적합
- 참가자, 프로젝트 조언자, 이벤트 주최자가 주간 또는 격주로 모여 팁을 공유하고 짧은 데모/토론을 진행
- 기술 향상과 커뮤니티 구축의 내재적 보상 외에도 우승 팀에게는 현금 상금이 주어짐
LLMs의 사촌 격인 Vision-Language-Action (VLA) 모델 RT-2 소개:
- 텍스트와 비전 데이터 외에도 로봇 동작 데이터를 "또 다른 언어"로 포함하여 로봇의 움직임 동작을 출력하는 토큰으로 사용
SAM 계열의 컴퓨터 비전 모델들이 많은 인간 주석 서비스와 도구들을 어느 정도 불필요하게 만들었다는 의견:
- 비전 데이터의 자동 라벨링을 상대적으로 고품질로 달성 가능
arXiv에서 관심 있는 특정 주제에 대한 최신 연구를 얻기 위해 Scholars.io를 출시한 경험 공유:
- 관심 없는 연구를 필터링할 수 있어서 다른 사람들이 LLM 외의 연구 활동을 찾는 데 도움이 되기를 희망
2024년에도 ML을 계속 배우는 것이 가치가 있는지에 대한 질문과 개인적인 직관에 대한 언급:
- xgboost를 사용한 부수적인 프로젝트에 대한 작업 경험 공유
- ML이 여전히 가치가 있다고 느끼지만 확신할 수 없음

Ask HN: LLM들의 소음에 묻히지 않는 ML 분야의 동향은 무엇인가?

함께 보면 좋은 글 β

댓글과 토론