본문 바로가기
읽어볼만한 글

(서평) 벌거벗은 통계학 2

by 보통의 작가 2021. 3. 27.

3 숫자의 함정, 사실을 왜곡하는 아주 교묘한 거짓말들

 

이 책은 통계가 주는 객관성 이면에 존재하는 사실 왜곡에 대해 경고하고 있다. 어느 시점을 고려했는지에 따라 혹은 절대값과 상대값에 따라 두 비교대상에 대한 평가는 정반대로 갈릴 수 있음을 보여준다. 통계의 명증함 그 자체가 사실을 왜곡하는 유용한 수단이 될 수 있다는 점이다. 

 

통계의 정밀성은 확실하다는 그릇된 인식을 줌으로써 은연중에 혹은 다분히 의도적으로 부정확함을 감출 수 있다. 실생활에서 주장의 근거로서 객관적 수치를 제시하는 것만으로도 우리는 그 진술을 맹목적으로 신뢰하는 경우가 많다. 소위 '팩트(fact)'라는 표현으로 수치를 제시하는 그 자체만으로 많은 선동이 이뤄지고 있음을 볼 수 있다.

 

또한 앞서 설명했던 중앙값과 평균값이 불순한 의도에 활용될 수 있음을 지적한다. 중요한 것은 이러한 수치들이 '틀린'것이 아니라는 점이다. 화자의 머릿속 에서 창조된 수치가 아니라 어떤 기준을 어떤 방식으로 측정하는지에 따라 달라지는 수치를 입맛에 맞게 활용하기 때문에 치밀하게 내면을 들여다보지 않으면 잘못된 판단이나 선동에 휘말릴 가능성이 높은 것이다.

 

평균값에 따르면 미국시민은 세제감면 혜택을 많이 받고 있다고 평가되지만 사실은 매우 큰 이탈값으로 인해 전반적인 평균이 상승했을 뿐 대다수 미국시민들에게 돌아가는 세제감면 혜택은 미미하다는 예시는 이를 잘 보여준다.

 

이것이 바로 통계의 역설이라 할 수 있다. 통계의 핵심은 관심사에 대해 의미 있는 관점을 제시하는데 있지만 바로 그점이 수치만을 무비판적으로 받아들여 잘못된 행동으로 이어지게 만들 수 있다. 통계학은 통계수치를 만들어 내는 자만이 아니라 그 통계를 접하고 의사결정의 기준으로 삼는 행위자에게도 매우 필요한 학문이다.

 

요컨대 수치화가 지닌 상징성에 매몰되어선 안되며 수치화하고자 하는 대상이 정말 관리하고자 하는 대상과 일치하는지 분명하고 비판적으로 따져봐야한다는 것이다. 어떤 근거로 통계수치가 창출되는지의 통계학 개념과 논리에 대해 알 필요가 있다. 사악한 동기에 의해 이뤄진 통계수치의 이면을 간파하고 정직하고 올바른 통계수치를 창출하고 해석해 내는 것이 우리 의사결정에서 매우 중요함을 이 책은 강조하고 있다.

 

제 4장 넷플릭스는 내가 좋아하는 영화를 어떻게 찾아낼까?

4장은 회귀분석에 내재된 논리적 문제를 변수간 연관성을 나타내는 상관계수라는 개념으로 설명한다. 상관관계는 두 가지 현상이 서로 관련되어 있는 정도를 측정하는 개념을 말한다. 언뜻 상관관계와 함께 설명되어야 할 개념으로서 인과관계가 떠오른다. 상관관계가 변수 간 변화의 연동성 그 자체에만 초점을 뒀다면 인과관계란 그 변화의 연동성 내에 독립변수와 종속변수가 존재하여 변화의 선후관계가 매우 중요해지는 개념을 의미한다.

 

많은 사람들이 착각하는 것 중 하나가 상관관계가 존재하면 인과관계가 반드시 성립할 것이라는 점이다. 통계의 맹점 중 하나다. 통계 도구로서 상관관계가 가진 장점은 두 변수 간 연관성을 상관계수라는 단 하나의 기술 통계로 압축해서 표현할 수 있다는 점이지 그 상관계수 자체로 사회현상의 인과관계를 밝힐 수는 없다. 따라서 회귀분석으로 매우 높은 상관관계를 지닌 결과를 도출 했다고 그것이 곧 어떤 변수가 다른 변수의 원인이나 결과로 확답 지을 수 없다.

 

인과관계와 상관관계의 구분만 제대로 한다면 상관관계 분석은 매우 유용한 의사결정 수단으로 활용될 수 있다. 사용자의 과거 패턴을 분석해 미래 수요를 예측한다는 것은 매우 기초적인 상관관계 분석이다. 이러한 데이터베이스를 활용한 상관관계 분석이 올바로 활용되면 개인의 수요예측을 넘어 사회적 현상의 원인을 파악하거나 테러의 위협 혹은 재난재해의 예측과 같이 매우 유용하고 필요한 정보를 산출하는 강력한 도구가 될 수 있는 것이다.

 

통계의 힘은 개별 존재만으로는 의미가 희석될 수 있는 데이터 간의 상관관계를 분석해 내는 강력한 수단이 된다는 있다. 상관관계와 인과관계의 명증한 구분이 있어야 각각의 힘을 제대로 활용할 수 있다. 상관관계가 인과관계를 내포하지 않음을 명심해야 한다는 것이다. 두 변수가 양의 상관관계 또는 음의 상관관계에 있다고 해서 한 변수에서 일어난 변화가 반드시 다른 변수를 변화시키는 것은 아니라는 점을 명심해야 하는 것이다.

댓글