1. 기존의 예측값(prior, 사전확률)에 새로운 정보가 더해져 새로운 예측값(posterior, 사후 확률)이 나온다. 다음 단계에서는 사후확률이 사전확률 역할을 하고 여기에 다시 새로운 정보가 더해져 좀 더 정확해진 새로운 예측값을 만들어 낸다. 이 과정을 반복하는 것이 베이지안 방법론의 근간이다. 베이즈 정리에서는 이렇게 데이터가 많으면 많을수록 찾고자 하는 값을 예측하는 정확도가 올라간다. 바로 여기가 빅데이터가 베이즈 정리와 만나는 지점이다. 네이트 실버는 첫 장 ‘들어가며’ 부분에서 폴 크루그먼의 이야기를 들어 1970년대는 ‘극단적으로 적은 자료’에 어마어마하게 많은 이론이 적용된 시기였다고 말한다. 하지만 빅데이터 시대는 자료가 부족하지 않다. 아니 오히려 과잉일 만큼 넘쳐난다. 따라서 이 책 전체를 관통하고 있는 메시지는 빅데이터 시대에 ‘베이지안’ 접근법이 보다 유용하다는 것이다. 베이지안 통계학은 흔히 조건부 확률이라고 불리며 제 2차 세계 대전 때 독일군 암호를 풀고, 아군이 쏜 대포가 어디에 떨어질 지 예측하거나 전투에 내 보낸 전투기가 추락할 위험도 등을 측정하는데 활용되면서 그 유용성을 인정받기 시작했고 인터넷과 빅데이터 분야에서는 전통적인 피셔리안(Fisherian) 통계학보다 폭넓게 쓰이고 있다고 한다.

2. 베이지안 접근방식에 따르면 데이터에서 추출된 신호들은 예측값을 점점 더 진리, 참 쪽으로 접근시켜 나간다. 이에 비해서 소음은 예측값을 진리값 쪽으로 접근시켜 가는데 도움이 되지 않는다. 그런데 이러한 데이터는 반드시 그것을 해석하는 사람에 의해 매개된다. 바로 이 지점에서 해석자의 편견, 탐욕과 공포, over fitting, 정치적 입장, 인간이 기본적으로 가지고 있는 패턴 인식 능력 등이 개입된다. 이러한 개입이 네이트 실버가 이야기하는 ‘객관적’ 의미로 개입되면 신호는 신호로, 소음은 소음으로 처리되기 때문에 별 문제가 되지 않는다. 그런데 그러한 bias가 잘못 작용하여 ‘주관적’으로 개입되면 신호가 소음으로, 소음이 신호로 둔갑한다. 이렇게 되면 베이지안 접근방식이 아무리 파워풀한 도구(tool)라고 해도 ‘빅데이터’는 아무것도 아니다. 오히려 진리와 참값의 반대 방향으로 예측을 밀어가는 부작용을 낳게 된다.

3. 네이트 실버의 이야기를 종합하면 베이지안 모델을 통해 불확실성을 다루는 예측을 할 때 제일 먼저 해야 할 것은 자신이 얼마나 알고 있는지를 고백하는 것이다(사전확률 부분). 그리고 예측할 수 있는 것(신호)과 없는 것(소음)을 구분하는 지혜가 필요하고, 자신의 모르는 부분을 부단한 시행착오를 통해 보완, 발전시켜 나가려는 노력(사후확률 부분)을 경주해야 한다. 이렇게 보면 베이지안 접근방법은 예측 방법론을 넘어 세상을 사는 인생관까지 될 수 있다.