본문 바로가기
읽어볼만한 글

(서평) 벌거벗은 통계학 1

by 보통의 작가 2021. 3. 25.

어떤 행동이든 목적의식이 있을 때 인간은 집중하고 몰입한다. 그런 의미에서  통계학은 어디에 어떻게 쓰일까’로 시작하는 이 책의 시작은 충분히 매력을 지니고 있다. 어렵고 따분할 수 있는 통계학에 '어디에'라는 목적의식을 밝혀줌으로써 독자로 하여금 흥미를 불러일으키고 있기 때문이다.

 

우리 삶 속 모든 결정이 철저한 분석에 따라 이뤄지는 것은 아니다. 하물며 합리적 인간을 강조하는 경제학조차 '만족가설' 이라는 이론을 통해 현실의 인간이 직관에 의존해 의사결정을 하고 있음을 인정하고 있지 않은가? 직관에 의한 결정이 설득력을 잃을 수록 데이터의 중요성은 커진다.

 

데이터는 궁극적으로 의미있는 결론의 토대가 될 실마리와 패턴을 만들어 낸다. 즉 인간은 완전정보 하에 의사를 결정하지 않지만 가장 합리적인 결정을 위해 '데이터'를 필요로 하고 그 데이터를 분석하는 일이야 말로 제대로 된 의사결정을 위한 필요조건임을 설명하고 있다. 1장에서는 이러한 데이터의 중요성과 함께 그 데이터를 통해 이뤄지는 분석을 구체적으로 '회귀분석'이라는 용어로 자연스럽게 이끌어 나간다. 우리는 통계적 분석을 통해 자신이 분석코자 하는 변수 간의 연관성을 도출하고자 한다. 그러면서도 회귀분석이란 그 연관성이 존재한다는 것만을 말할 뿐 '왜' 그 연관성이 존재하는지에 대한 의미까지 설명해 내지는 못함을 못 박고 있다.

 

데이터와 회귀분석을 인간이 행위 할 수 있는 만능의 도구가 아니라 올바른 결정과 판단을 내릴 수 있는 근거로서의 역할로 한정하면서 오히려 통계가 지닌 무궁한 힘을 강조하고 있는 것이다. 1장은 이처럼 통계학이 지닌 목적의식을 밝혀줌으로써 독자로 하여금 어렵게 다가오던 통계학에 매몰되지 않고, 그 통계학으로 '무엇'을 할 수 있을지에 대해 끊임없이 고민하게 만드는 작업을 충실히 수행하고 있다.

 

제2장은 본격적으로 통계의 기본 개념에 대해 알기 쉬운 예시와 함께 설명해주고 있다. '왜' 중앙값을 이용해야 되는지에 대한 의미를 서술해주는 부분이 인상깊다. 요컨대 이탈값이 존재하는 집단의 특성을 파악하는 경우에는 평균값보다 중앙값을 이용하는 것이 더욱 적절하다는 것이다. 평균은 중심권에서 멀리 떨어져 있는 이탈값에 의해 왜곡되기 쉽기 때문이다.

 

중앙값은 집단의 분포를 반으로 나눴을때 나타나는 지점을 의미한다. 따라서 이탈값이 없는 분포에서는 중앙값과 평균이 비슷할 것이라는 점도 알 수 있다. 하지만 특정한 이탈값이 존재하는 경우에는 그 집단의 속성을 파악하는데 평균값은 적지 않은 왜곡을 가져올 수 있으므로 중앙값이 오히려 바람직한 지표가 될 수 있다

 

그렇다면 왜 중앙값이나 평균값의 개념을 알고 있어야만 하는가? 우리는 수많은 의사결정의 대부분이 '비교'다. 따라서 어떻게 비교해야 하는지의 '기준' 역시 매우 중요하다. 어떤 기준을 설정하는지에 따라 정반대의 결론이 도출될 수 있기 때문이다. 평균값으로는 월등히 수리횟수가 많은 프린터가 중앙값을 적용했을 경우에는 이탈값이 배제됨으로써 오히려 수리횟수가 줄어들 수 있음을 보여준다. 즉 평균값에 근거한 공장운영의 개선방안 자체를 뒤집는 결과를 가져오는 것이다. 이처럼 통계가 우리의 의사결정에서 멀리 떨어진 개념이 아니라 올바른 의사결정을 위한 하나의 기준이 되어줄 수 있다는 점을 파악할 수 있다.

 

통계는 결과가 아니라 과정이다. 기술통계를 통해 어떤 관찰값이 나머지 관찰값과의 비교를 통해 그 위치를 알 수 있고, 그 위치는 곧 우리의 의사결정을 위한 하나의 기준이 될 수 있다.

댓글