베스트셀러 《신은 주사위 놀이를 하지 않는다》저자의 후속작!
경제학자 팀 하포드, 앨런튜링연구소장 《네이처》 등 강력 추천!
우리가 ‘모르는’ 데이터는
왜 ‘아는’ 데이터보다 치명적인가?
“‘주어진 것’을 당연하게 받아들이는 위험에 눈을 뜨게 해주는 책.
‘가짜 뉴스’와 데이터의 폭발적 증가가 불가분의 관계인 이 시대에 모든 사람의 필독서다.”
_에이드리언 스미스, 앨런튜링연구소 소장
“데이비드 핸드는 통계라는 세계의 어두운 한구석에 밝은 빛을 비춘다.”
_팀 하포드, 경제학자, 《파이낸셜타임스》 수석 칼럼니스트
보이지 않는 데이터의 세계에서 올바른 결정을 내리기 위한 실용적 가이드
이른바 빅데이터 시대, 우리는 의사결정을 잘하는 데 필요한 정보는 다 가지고 있다고 생각하기 쉽다. 하지만 사실 우리가 가진 데이터가 ‘온전했던’ 적은 없었다. 손에 쥔 데이터는 빙산의 일각일지도 모른다. 우주의 상당 부분이 보이지는 않아도 엄연히 존재하는 암흑물질로 이루어져 있듯이, 정보의 우주 역시 우리가 위험천만하게 간과할 수 있는 ‘다크 데이터’로 가득하다.
영국 왕립통계학회장을 역임했으며 대영제국 훈장을 수여한 세계적인 통계학자 데이비드 핸드는 신작 《다크 데이터》에서 보이지 않는 데이터의 세계를 향한 흥미진진한 여정으로 우리를 인도한다.
의료 통계, 금융상품 설계, 인구조사, 실험 설계에서
금융사기 감지, 투자 예측, 질병 진단, 개인정보 보호까지
‘다크 데이터’의 함정을 피하고 위험을 기회로 만드는 법
《다크 데이터》는 우리가 누락된 데이터를 알아차리지 못하게 되는 과정들, 그리고 그로 인해 우리가 어떻게 잘못되고 위험하고 심지어 파국에 이를 수도 있는 결론과 행위에 이르게 되는지 다각도에서 탐사한다. 우주왕복선 챌린저호 폭발사고부터 복잡한 금융사기와 AI 알고리즘까지, 현실에서 만날 수 있는 다양한 사례를 면밀하게 파고든다. 데이비드 핸드는 우리가 다크 데이터를 분별하고 제어하는 법을 익힐 수 있도록, 세상에 존재하는 ‘다크 데이터’의 유형과 그것들이 발생하는 상황들에 대해 현실적인 분류법을 제시한다. 이로써 우리는 ‘우리가 모르는 것들’이 초래하는 문제들에 대해 경각심을 가질 뿐만 아니라, 다크 데이터를 이용해서 더 깊은 이해와 더 나은 결정을 하게 된다.
누락된 데이터의 바다에서
‘다크 데이터’를 만나다
개인의 삶에서든 전문분야에서든 우리는 무언가 결정할 때면 대개 어떤 형태로든 데이터를 가지고 시작한다. 그런데 우리는 미래를 알고 싶어하면서도 미래가 과거와 크게 다르지 않다고 추정하는 등의 무모한 판단을 무심코 계속하는 경향이 있다. 하지만 손에 쥔 데이터는 전부가 아니다. 빅데이터의 모멘텀이 점점 가속됨에 따라 우리가 놓치고 있는 다크 데이터의 위험성도 커지고 있다.
우리에게 없거나 우리가 모르는 데이터를 저자는 물리학의 ‘암흑물질dark matter’에 빗대어 ‘다크 데이터’라 부른다. 우리는 그 사실을 알 수도, 모를 수도 있다. ‘다크 데이터’는 쉽게 말해 ‘우리가 갖고 있지 않은’ 데이터다. 다크 데이터는 어디서든 생겨나며 모든 곳에 있다. 그리고 다크 데이터의 정의상 가장 큰 위험은 우리가 그 존재를 모를 수 있다는 점이다. 다크 데이터는 언제 어떻게 생겨나서 작동하며, 어느 순간에 우리의 뒤통수를 치는가? 다크 데이터를 역이용하여 틀리지 않고 이기는 결정을 내릴 방법은 없는가? 세계적인 통계학자 데이비드 핸드는 데이터 폭증의 시대에 더욱 ‘다크 데이터 관점’이 중요함을 역설하며, 어디에든 존재하는 다크 데이터의 속성과 그 원인 및 결과를 망라해나간다.
이 책은 우리가 ‘갖고 있지 않은’ 데이터를 다룬다. 그러니까 우리가 지금 갖고 싶거나, 이전에 가지고 싶었거나, 또는 가진 줄 알지만 실제로는 갖고 있지 ‘않은’ 데이터에 관한 책이다. (중략) 볼 수 없는 데이터는 우리를 잘못된 길로 이끌 잠재력이 있으며, 앞으로 살펴보겠지만 때로는 파국을 초래하기도 한다. 그런 일이 어떻게 그리고 왜 생기는지 알려주겠다. 또 파국을 어떻게 막을지, 파국을 피하려면 무엇을 찾아야 할지도 알려주겠다. 그다음에는 어쩌면 놀랍게도, 다크 데이터를 역이용하여 종래의 데이터 분석 방식을 어떻게 뒤집을 수 있는지도 알려주겠다. 다시 말해 (우리가 충분히 현명하다는 전제하에) 어떻게 하면 데이터를 숨기는 것이 더 깊은 지혜, 더 나은 결정, 더 나은 행동의 선택으로 이어질 수 있는지도 알아보자. _서문에서
세계적 통계학자 데이비드 핸드,
‘다크 데이터’를 간파하고 활용하는 법을 말하다
데이비드 핸드는 왕립통계학회 회장을 역임하고 대영제국 훈장을 받은 통계학계의 세계적인 권위자다. 그는 금융, 건강, 약학, 의료 분야 및 정부를 위해 대량의 데이터를 분석해오면서 오랜 세월에 걸쳐 ‘다크 데이터’의 정체에 눈을 떴다. 《다크 데이터》는 그 정수를 모은 것으로, 데이비드 핸드는 ‘누락된 데이터’ 분야의 전문가이자 선구자라 해도 과언이 아니다.
전작 《신은 주사위 놀이를 하지 않는다: 로또부터 진화까지, 우연한 일들의 법칙》에서 핸드는 ‘일어날 가능성이 거의 없는 사건들’의 법칙을 다뤄 세상의 시선을 끌었다. 이번 책에서는 전작의 맥을 이어 의료?제약?행정?사회정책?금융?제조업 등 각 분야의 다크 데이터 현상에 다가간다. ‘우리가 모른다는 것을 아는 데이터’와 ‘우리가 모른다는 것조차 모르는 데이터’들을 대상으로 삼아, 빅데이터 시대 문제 해결의 본질적 맹점을 확인하고 보완한다.
문제들의 근본적 해결책은, 데이터의 우주 속 알려지지 않은 어두운 영역들이 우리의 인식을 어떻게 왜곡하는지 파악하는 것이다. 그러면서 ‘데이터가 불완전할 수도 있다’는 것을 인식하지 못한다면, 또 무언가를 측정하는 것이 곧 모든 것을 측정하는 것을 뜻하지는 않으며 측정 절차와 측정 대상은 미묘하고도 비뚤어진 방식으로 상호작용할 수 있다는 것을 인식하지 못한다면, 우리는 지금 세상에 무슨 일이 벌어지고 있는지에 대해 심각한 오해만 얻을 것이라고 경고한다.
다크 데이터는 언제 어디서나 작동한다
우리에게는 ‘다크 데이터 관점’이 필요하다
데이터는 현실을 표상해주지만, 마치 캐리커처로 그린 만화와도 같다. 우리는 마치 만화가 사람의 얼굴이나 행동의 주요 특징을 포착하듯 데이터가 현실의 중요한 특징들을 포착하기를 바라지만, 누구도 그걸 보장해주지는 않는다. 실제로 데이터는 중요한 많은 것들을 쉽사리 빠뜨리고, 잘못된 결론과 끔찍한 의사결정을 낳곤 한다. 무시된 정보나 데이터는 회사나 경제를 무너뜨리고 인명을 앗아갈 수도 있다. 이 책은 마치 데이터의 세계를 둘러싸고 쫓고 쫓기는 추리소설처럼 현실 속 생생한 사례들을 심도 있게 해석해준다.
★ ‘다크 데이터’는 우리 주변 어디서나 작동하고 있다 ★
• 도로 침하나 재해 상황을 신고하는 스마트폰 앱이 놓친 것은?
• 챌린저호 폭발 사고에서 파국적인 결과를 낳은 다크 데이터의 정체는?
• 기존 대출 데이터로 미래 고객의 심사 모형을 설계할 때 만날 수 있는 문제는?
• 규제의 빈틈, 정보 비대칭 등을 이용하려는 시도는 어떤 현상을 낳는가?
• 나날이 진화하는 사기의 세계에서 데이터는 어떻게 숨겨지고 왜곡되어왔나?
• 학생들의 학점 인플레이션이 일어나는 원인에는 어떤 다크 데이터가 존재하는가?
• 반증 가능성과 자기수정이 본질인 과학은 과연 ‘재현 가능성’의 위기를 맞이했나?
‘서툰 범죄자들은 경찰에 잘 잡히지만, 진짜 영악한 사기꾼들은 발각되지 않고 빠져나가니까 결국 수많은 범죄자가 잡히지 않고 있는 것 아닌가?’ ‘증세가 뚜렷하지 않은 환자가 적절한 치료 타이밍을 놓치기 쉬운