예전 프로젝트가 떠오름
우리는 FANG 기업에서 수천 개의 복잡한 딥러닝 기반 시계열 이상 탐지기를 통계적(비모수, 반모수) 공정 제어 모델로 성공적으로 교체했음
새 모델은 학습 파라미터 수가 3~4자릿수나 적고, 3~4명 팀이 수천 개 스트림을 관리할 수 있을 정도의 단순함을 가짐
딥러닝 모델은 디버깅과 해석이 불투명해서 관리가 너무 힘들었음
작은 팀이라면 여전히 통계 기반 접근을 강력히 추천함
다만 정치적 이유로 이런 선택이 커리어상 좋은 선택은 아닐 수도 있음. 거대한 베팅을 한 사람들은 반대 증거가 드러나는 걸 싫어함
정말 멋진 경험 공유에 감사함
이런 이유로 나는 요즘의 AI 과열 분위기에 회의적임
많은 경우 기존의 고전적 방법이 훨씬 안정적이고 효율적인데, 기업들이 굳이 복잡하고 불안정한 방법을 택하는 게 이해되지 않음
나의 첫 커리어 전환도 비슷했음
회사는 학회용으로 멋진 ML 모델을 자랑했지만, 실제 운영자들은 정확도와 해석성 부족으로 불만이 많았음
그래서 운영자들이 실제로 쓰던 간단한 수학적 규칙을 기반으로 새로 코드를 짜서 훨씬 좋은 결과를 얻었음
반도체 업계의 머신비전 엔지니어로서, 딥러닝과 AI의 과대광고를 많이 봐왔음
OCR에는 잘 맞지만 분류 작업에는 효과가 떨어짐
좋은 조명과 전통적 컴퓨터 비전 기법에 집중하면 더 나은 결과를 얻는 경우가 많음
기술 도입의 정치적 문제도 공감함. 그래서 나는 딥러닝과 전통적 비전을 결합한 하이브리드 접근을 주로 제안함
딥러닝이 헷갈리는 이유는, 학습할 만한 신호량이 부족한데 파라미터 수가 너무 많음
대부분의 파라미터가 불안정하거나 서로 상관되어 있을 것 같음
혹시 Matrix Profile 같은 것도 썼는지 궁금함. 만약 그랬다면 그것도 교체했는지 알고 싶음
나는 예전에 Lean Six Sigma Green Belt 자격증을 따고, Minitab으로 투자은행 백오피스 프로세스의 통계적 공정 제어 프로젝트를 했었음
요즘은 아무도 Minitab을 기억 못 하는 것 같음. 다들 Python만 쓰니까
나도 2018년쯤 Minitab으로 Six Sigma Green Belt를 땄음
지금도 업데이트되고 있고, Python 인터페이스도 있음 → mtbpy 패키지
예전 Minitab은 SPC 툴박스가 정말 훌륭했음
오픈소스 도구들은 x-bar/S/R까지만 지원하고, 다변량 분석 같은 고급 기능은 부족했음
임상 데이터처럼 작은 데이터셋에서는 여전히 고전 통계학이 핵심임
메타데이터 수집과 정합이 어렵고, 희귀 질환 연구에서는 머신러닝이나 회귀조차 힘든 경우가 많음
현실 세계의 데이터는 절대 깨끗하지 않음
대부분의 시간은 데이터 품질 관리에 쓰임
이상치는 측정 오류나 공정 변화 때문일 수 있고, 이를 이해하려면 공정 자체에 대한 직관이 필요함
그래서 빠른 시각화와 탐색이 가능한 성숙한 도구가 중요함
직접 코드로 SPC Cpk 차트를 만드는 건 비효율적임
Hacker News 의견
예전 프로젝트가 떠오름
우리는 FANG 기업에서 수천 개의 복잡한 딥러닝 기반 시계열 이상 탐지기를 통계적(비모수, 반모수) 공정 제어 모델로 성공적으로 교체했음
새 모델은 학습 파라미터 수가 3~4자릿수나 적고, 3~4명 팀이 수천 개 스트림을 관리할 수 있을 정도의 단순함을 가짐
딥러닝 모델은 디버깅과 해석이 불투명해서 관리가 너무 힘들었음
작은 팀이라면 여전히 통계 기반 접근을 강력히 추천함
다만 정치적 이유로 이런 선택이 커리어상 좋은 선택은 아닐 수도 있음. 거대한 베팅을 한 사람들은 반대 증거가 드러나는 걸 싫어함
이런 이유로 나는 요즘의 AI 과열 분위기에 회의적임
많은 경우 기존의 고전적 방법이 훨씬 안정적이고 효율적인데, 기업들이 굳이 복잡하고 불안정한 방법을 택하는 게 이해되지 않음
회사는 학회용으로 멋진 ML 모델을 자랑했지만, 실제 운영자들은 정확도와 해석성 부족으로 불만이 많았음
그래서 운영자들이 실제로 쓰던 간단한 수학적 규칙을 기반으로 새로 코드를 짜서 훨씬 좋은 결과를 얻었음
OCR에는 잘 맞지만 분류 작업에는 효과가 떨어짐
좋은 조명과 전통적 컴퓨터 비전 기법에 집중하면 더 나은 결과를 얻는 경우가 많음
기술 도입의 정치적 문제도 공감함. 그래서 나는 딥러닝과 전통적 비전을 결합한 하이브리드 접근을 주로 제안함
대부분의 파라미터가 불안정하거나 서로 상관되어 있을 것 같음
나는 예전에 Lean Six Sigma Green Belt 자격증을 따고, Minitab으로 투자은행 백오피스 프로세스의 통계적 공정 제어 프로젝트를 했었음
요즘은 아무도 Minitab을 기억 못 하는 것 같음. 다들 Python만 쓰니까
지금도 업데이트되고 있고, Python 인터페이스도 있음 → mtbpy 패키지
오픈소스 도구들은 x-bar/S/R까지만 지원하고, 다변량 분석 같은 고급 기능은 부족했음
SPC 초보자를 위해 몇 년 전에 실무 가이드를 썼음
참고가 될 수 있음 → Statistical Process Control: A Practitioner’s Guide
임상 데이터처럼 작은 데이터셋에서는 여전히 고전 통계학이 핵심임
메타데이터 수집과 정합이 어렵고, 희귀 질환 연구에서는 머신러닝이나 회귀조차 힘든 경우가 많음
현실 세계의 데이터는 절대 깨끗하지 않음
대부분의 시간은 데이터 품질 관리에 쓰임
이상치는 측정 오류나 공정 변화 때문일 수 있고, 이를 이해하려면 공정 자체에 대한 직관이 필요함
그래서 빠른 시각화와 탐색이 가능한 성숙한 도구가 중요함
직접 코드로 SPC Cpk 차트를 만드는 건 비효율적임
SPC는 정말 훌륭한 도구임
복잡한 다른 툴셋보다 훨씬 단순하고 잘 작동함
오타가 많음
페이지의 디자인과 분위기가 정말 마음에 듦