GN⁺: 친구는 친구가 형편없는 그래프를 만들지 않도록 돕습니다
(github.com/cxli233)데이터 시각화의 좋고 나쁜 예
- 데이터 시각화에 대한 의견이 담긴 에세이로 좋은 시각화와 나쁜 시각화에 대한 예시와 설명을 포함
평균 분리를 위한 막대 그래프 만들기 금지
- 평균 분리 그래프는 과학 출판물에서 흔히 볼 수 있으나, 분포와 표준편차가 비슷한 두 그룹이 실제로 같은지 표현하는 데 막대 그래프는 적합하지 않음.
- 막대 그래프를 사용하기 전에 몇 가지를 확인해야 함을 강조함.
소규모 샘플 크기에 대한 바이올린 플롯 만들기 금지
- 소규모 샘플에서는 분포와 사분위수가 크게 달라질 수 있으므로 바이올린 플롯이 의미가 없음.
- 샘플 크기가 50 이상일 때 분포가 안정화됨을 실험을 통해 확인함.
단방향 데이터에 양방향 색상 척도 사용 금지
- 단방향 데이터에 양방향 색상 척도를 사용하는 것은 데이터 시각화에서 큰 실수임.
- 색상 척도는 의미 있는 특별한 값들을 나타내야 함.
다중 요인 실험 결과를 막대 그래프로 표현 금지
- 다중 요인 실험 결과를 효과적으로 전달하기 위해서는 요인별 그룹화/구분에 대한 신중한 설계가 필요함.
행과 열의 재배열 없이 히트맵 만들기 금지
- 히트맵은 행과 열의 순서를 고려하여 효과적으로 만들어야 함.
- 클러스터링을 통해 행과 열을 재배열할 수 있으나, 이것이 유일한 방법은 아님.
이상치를 확인하지 않고 히트맵 만들기 금지
- 히트맵에서 이상치를 확인하지 않으면 데이터의 해석에 큰 영향을 줄 수 있음.
각 요인 수준에서 데이터 범위 확인을 잊지 말 것
- 다중 요인 실험에서 응답 변수의 범위가 요인 수준에 따라 크게 달라질 수 있음.
다양한 레이아웃 시도 없이 네트워크 그래프 만들기 금지
- 네트워크 그래프의 외형은 그 효과성을 결정짓는 중요한 요소임.
- 레이아웃 변경을 통해 네트워크 그래프의 해석을 용이하게 할 수 있음.
위치 기반 시각화와 길이 기반 시각화 혼동 금지
- 위치 기반 시각화와 길이 기반 시각화를 혼동하면 오해를 불러일으킬 수 있음.
- 막대 그래프에서 0 기반으로 하지 않는 것은 데이터 시각화에서 큰 실수임.
파이 차트 만들기 금지
- 파이 차트는 각도와 면적을 읽는 데 인간이 능숙하지 않기 때문에 비판받음.
- 데이터를 길이로 표현하고자 한다면, 도넛 차트를 풀어서 쌓은 막대 그래프를 만드는 것이 더 낫음.
동심원 도넛 차트 만들기 금지
- 동심원 도넛 차트는 외부 링의 호 길이가 내부 링보다 훨씬 길기 때문에 데이터를 잘못 표현할 수 있음.
- 간단하고 효과적인 대안은 도넛 차트를 풀어서 쌓은 막대 그래프를 만드는 것임.
빨강/녹색 및 무지개 색상 척도 사용 금지
- 적록색맹을 고려하여 색맹 친화적이고 회색조에서도 정보를 잘 보존하는 색상 척도를 사용해야 함.
쌓은 막대 그래프 재배열을 잊지 말 것
- 많은 샘플과 클래스가 있는 경우, 쌓은 막대 그래프의 순서를 최적화하여 효과적으로 만들어야 함.
GN⁺의 의견
이 글에서 가장 중요한 것은 데이터 시각화를 할 때 흔히 저지르는 실수들과 그것들을 피하는 방법에 대한 인식을 높이는 것임. 데이터 시각화는 복잡한 정보를 이해하기 쉽게 전달하는 강력한 도구이지만, 잘못 사용되면 오해를 불러일으킬 수 있음. 이 글은 데이터를 정확하고 명확하게 전달하고자 하는 모든 이들에게 흥미롭고 유익한 지침을 제공함.
Hacker News 의견
- 일부 그래프들은 데이터 포인트의 부족이나 의심스러운 분포를 숨기기 위해 의도적으로 선택될 수 있음을 나타내는 의견.
- 히트맵에서 이상치를 최대로 설정하지 않는 것은 비디오 게임 통계 시각화에서 흔한 문제로, 실제 온도 문제를 진단하는 데 거의 쓸모없는 경우가 많음.
- 그래프의 축이 0부터 시작하지 않는다고 해서 반드시 오해의 소지가 있는 것은 아니며, 이러한 주장에 대해 실망한 경험을 공유하는 의견.
- 데이터 시각화에서 흔히 발생하는 실수에 대한 좋은 개요로, 동료들과 공유하고 싶다는 의견과 함께 인간 인식에 관한 연구를 바탕으로 한 자료 추천.
- 데이터 시각화에 대한 추가적인 참고 자료로 1983년에 출판된 에드워드 투프트의 "The Visual Display of Quantitative Information" 추천.
- 데이터 시각화의 많은 교훈이 새로운 것이 아니며, 1939년에 출판된 윌라드 C. 브린턴의 "Graphic presentation"을 참고할 것을 제안하는 의견.
- 단방향 데이터에 양방향 색상 스케일을 사용하지 말 것을 권장하는 "친구들은 친구에게 양방향 색상 스케일 사용을 허락하지 않는다"는 조언.
- 바이올린 플롯에 대한 부정적인 견해와 함께, 바이올린 플롯이 존재하지 않아야 한다는 내용의 비디오 링크 공유.
- 데이터를 보는 인간의 방식에 대한 연구를 바탕으로 한 여러 아이디어를 통합한 강연 "How Humans See Data"에 대한 소개.
- 데이터 유형을 분류하고 각 유형에 가장 적합한 그래프/차트 스타일을 선택하는 방법을 설명하는 가이드에 대한 언급과 그 가이드를 북마크하지 않은 것에 대한 아쉬움을 표현하는 의견.