# Ask HN: LLM들의 소음에 묻히지 않는 ML 분야의 동향은 무엇인가?

> Clean Markdown view of GeekNews topic #14047. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=14047](https://news.hada.io/topic?id=14047)
- GeekNews Markdown: [https://news.hada.io/topic/14047.md](https://news.hada.io/topic/14047.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-03-29T10:03:35+09:00
- Updated: 2024-03-29T10:03:35+09:00
- Original source: [news.ycombinator.com](https://news.ycombinator.com/item?id=39848847)
- Points: 19
- Comments: 0

## Topic Body

- 대형 언어 모델(LLMs)의 소음에 묻혀 들리지 않는 기계학습(ML) 및 데이터 과학 분야에서는 여러 가지 흥미로운 일들이 발생하고 있음  
- Cynthia Rudin은 설명 가능한 인공지능(AI)에 대한 뛰어난 연구를 지속적으로 발표하고 있음  
- 최근 몇 달 동안의 흥미로운 프로젝트들:  
  - 몇 장의 이미지로부터 3D 장면 재구성: [NAVER LABS Europe](https://dust3r.europe.naverlabs.com/)  
  - 가우시안 아바타: [Gaussian Avatars](https://shenhanqian.github.io/gaussian-avatars)  
  - 재조명 가능한 가우시안 코덱: [Relightable Gaussian Codec](https://shunsukesaito.github.io/rgca/)  
  - 모든 것을 추적: [Co-Tracker](https://co-tracker.github.io/), [Omnimotion](https://omnimotion.github.io/)  
  - 모든 것을 분할: [Segment Anything by Facebook Research](https://github.com/facebookresearch/segment-anything)  
  - 우수한 인간 자세 추정 모델: Yolov8, Google의 MediaPipe 모델  
  - 사실적인 TTS: [XTTS-v2 by Coqui on Hugging Face](https://huggingface.co/coqui/XTTS-v2), Bark TTS  
  - 우수한 STT: 대부분 Whisper 기반  
  - 기계 번역: 예를 들어 Meta의 SeamlessM4T  
  - Meta의 R&D에서 나오는 많은 결과물에 대한 감탄  
- NeRFS에 대한 설명:  
  - 3D 그래픽스를 근본적으로 재고하는 것으로, 텍스처가 있는 다각형 대신 빛나는 반투명한 구체들을 배치하는 방식  
  - 구체들의 위치와 색상은 정확한 다각도 카메라 샷과 포즈를 통해 신경망에 의해 학습되며, GPU에서 레이 트레이싱을 통해 렌더링 가능  
  - 장면들은 사진에서 생성되었기 때문에 완전히 사실적이지만, 탐험도 가능  
  - 이론적으로 이러한 장면들을 애니메이션화할 수 있지만, 실제로 어떻게 하는지는 여전히 연구 문제  
  - Nanite+photogrammetry와 같은 최적화된 다각형 기반 시스템보다 더 나을지 여부는 미지수  
- 차량에서 도로의 비디오를 촬영하여 3D 장면을 만들 수 있는 도구에 대한 질문:  
  - 도로 주변 풍경에 초점을 맞추고, 여러 각도에서 여러 번 운전할 수 있으며, 처리 시간이 많이 걸려도 괜찮음  
  - 레이싱 시뮬레이터에서 사용할 지역 도로를 만들고자 함  
- 기하학적 딥러닝에 대한 관심:  
  - 데이터의 알려진 대칭성을 존중하도록 원칙적으로 모델을 설계하는 방법  
  - ConvNets는 그들의 변환 동등성으로 유명하지만, 다른 대칭 그룹에 대한 최근 예시들도 존재  
  - 특정 대칭성을 자동으로 발견하거나 식별할 수 있는지에 대한 질문도 있음  
- UW-Madison의 ML+X 커뮤니티가 주최하는 기계 학습 마라톤 소개:  
  - Kaggle에서 경쟁으로 특집될 약 12주간의 여름 이벤트  
  - 기계 학습 도구를 함께 배우고 적용하여 실제 데이터셋에 대한 혁신적인 해결책을 찾는 기회  
  - 다양한 도전 과제가 있으며, 초보자와 고급 실무자 모두에게 적합  
  - 참가자, 프로젝트 조언자, 이벤트 주최자가 주간 또는 격주로 모여 팁을 공유하고 짧은 데모/토론을 진행  
  - 기술 향상과 커뮤니티 구축의 내재적 보상 외에도 우승 팀에게는 현금 상금이 주어짐  
- LLMs의 사촌 격인 Vision-Language-Action (VLA) 모델 RT-2 소개:  
  - 텍스트와 비전 데이터 외에도 로봇 동작 데이터를 "또 다른 언어"로 포함하여 로봇의 움직임 동작을 출력하는 토큰으로 사용  
- SAM 계열의 컴퓨터 비전 모델들이 많은 인간 주석 서비스와 도구들을 어느 정도 불필요하게 만들었다는 의견:  
  - 비전 데이터의 자동 라벨링을 상대적으로 고품질로 달성 가능  
- arXiv에서 관심 있는 특정 주제에 대한 최신 연구를 얻기 위해 [Scholars.io](https://app.scholars.io)를 출시한 경험 공유:  
  - 관심 없는 연구를 필터링할 수 있어서 다른 사람들이 LLM 외의 연구 활동을 찾는 데 도움이 되기를 희망  
- 2024년에도 ML을 계속 배우는 것이 가치가 있는지에 대한 질문과 개인적인 직관에 대한 언급:  
  - xgboost를 사용한 부수적인 프로젝트에 대한 작업 경험 공유  
  - ML이 여전히 가치가 있다고 느끼지만 확신할 수 없음

## Comments


_No public comments on this page._