Description
정확성과 심미성을 모두 갖춘 데이터 시각화의 바이블!
통계적 본질에 근거해 데이터 분석 결과를 효율적으로 전달하는 데이터 시각화에 대한 모든 것!
데이터 시각화는 예술이자 과학이다. 과학적으로 정확하면서 미적으로 흉하지 않아야 하며, 또한 미적으로 탁월하면서도 과학적으로 오류를 용납하지 않는 결과물을 만들어야 한다. 데이터 시각화는 무엇보다도 데이터를 정확하게 전달해야 한다. 데이터 분석 결과를 정보 왜곡 없이 사실 그대로, 그리고 보는 사람에게 인지적 부담 없이 쉽고 명확하게 전달하는 '그래프와 차트, 도표' 제작 방법에 대한 기본 원리와 실전 응용에 대해 자세히 설명한다. 데이터 과학자, 디자이너, 마케터, 컨설턴트, 학생, 교수, 의사, 기자, 직장인, 기업 대표 등 누구나 할 것 없이 정확하고 올바른 정보 전달에 관심 있는 이라면 누구나 참고해서 읽어야 할 책이다.
[이 책의 구성]
이 책은 3부로 구성된다. 1부 '데이터, 시각화로 날개를 달다'에서는 막대 그래프, 산점도, 파이 차트 같은 도표와 차트 유형을 설명한다. 특히 시각화의 과학적 원리에 중점을 둔다. 세상에 존재하는 모든 시각화 방식을 백과사전처럼 나열하기보다는, 발표 자료에 많이 나오거나 도표를 직접 만들 때 유용한 핵심적인 시각적 효과들을 소개한다. 1부에서는 시각화하려는 데이터의 유형이 아니라 전하고자 하는 메시지의 유형에 따라, 시각화를 분류해 설명한다.
2부 '그래프 디자인의 원칙'에서는 도표들을 결합할 때 생기는 여러 디자인 문제를 다룬다. 데이터 시각화의 미적 측면에 가장 중점을 두지만, 물론 그게 전부는 아니다. 주어진 데이터셋에 알맞은 유형의 도표나 차트를 선택했다면 색상, 기호, 글씨 크기 같은 시각적 요소를 보기 좋게 구성해야 한다. 그래야 뜻이 명료하게 전달되고 보기에도 좋은 결과물이 나온다. 2부의 각 장에서는 그동안 내가 실무에서 거듭 겪어왔던 여러 문제를 다룬다.
3부 '시각화 레벨업 노하우'에서는 1부나 2부에 부합하지 않는 그 밖의 주제들을 다룬다. 이미지와 그래프를 저장할 때 주로 선택하는 파일 형식, 시각화 소프트웨어 선택 기준, 문서 전체의 맥락을 고려한 그래프 배치 방법을 설명한다.
이 책은 논리적인 순서로 전개되지만 각 장이 독립적인 내용으로 구성되어 있으므로 첫 장부터 차례대로 읽지 않아도 된다. 자유롭게 페이지를 건너뛰면서 그때그때 관심 있는 부분이나 고민 중인 주제를 다루는 부분을 찾아 읽자. 한 번에 끝까지 읽기보다 항상 곁에 두고 조금씩 읽으면서, 시각화 도표를 만들 때마다 책에 나오는 개념을 몇 가지씩 시도해보고, 다음번에는 다른 개념이 나오는 장을 읽거나 예전에 읽었던 장을 복습하는 편이 이 책을 더 알차게 활용하는 방법이다. 예전에 읽었던 장을 몇 달 뒤 다시 읽으면 같은 내용에서도 다른 깨달음을 얻을 수도 있다.
이 책에 나오는 시각화 도표는 대부분 R의 지지플롯2(ggplot2) 패키지로 만들었다. 그러나 책 자체는 R 언어에 국한되지 않고 시각화 도표 제작에 통용되는 원칙을 다룬다. 무슨 소프트웨어를 사용했는지는 부수적인 요소일 뿐이다. 이 책에 나오는 도표는 어떤 시각화 소프트웨어를 사용해서든 만들 수 있다. 다만 지지플롯2나 비슷한 패키지들에는 다른 시각화 라이브러리에 비해 이 책에 쓰인 기능들이 훨씬 편리하게 구현되어 있다. 무엇보다도 이 책은 R 언어 학습서가 아니므로 코드나 프로그래밍 기술을 설명하지 않는다. 따라서 코딩보다는 도표 자체의 개념에 집중하자. 시각화 도표 만드는 방법이 궁금하다면 깃허브(https://github.com/clauswilke/dataviz)에서 이 책의 소스 코드를 확인할 수 있다. 또한 관련한 패키지 설치환경과 방법은 이 책의 도서 정보 페이지(https://www.onlybook.co.kr/entry/dataviz)에서 찾아볼 수 있다.
[이 책의 주요 특징]
■ 색상을 활용해 데이터를 강조, 구별, 표현하기 위한 기본 개념
■ 중요한 정보를 다양한 방식으로 표현하는 바람직한 기호화 방법
■ 데이터 시각화의 단골 유형을 보여주는 풍부한 그림 자료
■ 좋은 그래프와 나쁜 그래프에 대한 다양한 예시
■ 문서나 보고서에서 이야기를 효율적으로 전달하는 차트 활용법
[이 책의 독자 대상]
데이터 과학자, 데이터 분석가, 디자이너, 마케터, 컨설턴트, 학생, 교수, 의사, 기자, 직장인, 기업 대표 등 누구나 할 것 없이, 정확하고 올바른 정보 전달에 관심 있는 이라면 누구나
[감수의 글]
데이터 시각화 과정에서 두 가지 원칙을 지켜야 한다. 하나는 사실의 왜곡이 없어야 하는 것이고 다른 하나는 보는 사람이 인지적인 부담 없이 쉽고 명확하게 시각화 결과물을 이해할 수 있어야 한다는 점이다. 그런데 실제 업무에서 이런 원칙을 지키는 것은 쉽지 않다. 데이터의 특징이나 분석 결과물은 숫자인데 이를 시각적 요소로 변환하는 과정에서 필연적으로 질적인 변화가 발생하기 때문이다. 마치 애니메이션과 실사물의 차이처럼 내용과 주제는 같지만 표현하는 방식이 완전히 달라지는 것이다.
이 책의 독특함과 효용성은 숫자를 시각적 요소로 변환하는 과정에서 핵심적인 고려 사항을 구체적이고도 명확하게 제시하고 있다는 점이다. 예를 들어 분석 결과는 두 그룹의 평균 값의 비교일 수도 있고, 비율의 비교일 수도 있으며, 시간에 따른 추세의 변화일 수도 있고 심지어는 확률의 불확실성마저 분석 결과의 하나로서 시각화의 대상일 수 있다. 이렇게 다양한 분석 결과를 왜곡 없이 효과적으로 전달하기 위해 차트의 모든 구성 요소, 즉 축, 스케일, 차트 모양, 기호, 색상, 그래프 면적 등이 어떻게 서로 조화롭게 조직되어야 하는지 잘 정리되어 있어서 감수 작업을 하면서도 데이터 시각화에 대해 체계적으로 다시 한번 정리할 수 있는 유익한 계기가 되었다.