본문 바로가기
읽어볼만한 글

(서평) 슈퍼크런처

by 보통의 작가 2021. 4. 14.

‘슈퍼크런처’는 통계라는 이름이 주는 거부감을 딛고 통계가 우리 생활에 얼마나 밀접하게 관련되어 있고, 또 우리의 삶을 얼마나 윤택하게 만들 수 있는가를 다양한 사례를 통해 배울 수 있게 해주는 책이다. 통계가 무엇인지를 알기 이전에 통계를 통해 무엇을 할 수 있는지를 먼저 알게 되면 통계에 더욱 몰입할 수 있는 것이다.

 

통계는 우리 생활 곳곳에서 이미 활용되어 왔으며, 와인의 품질을 판가름 하는 것에서부터 정부가 정책을 결정하는 것에까지 널리 퍼져 있음을 알 수 있다. 통계는 새롭지 않으면서 새롭다. 통계는 개인이나 조직, 혹은 정부가 이전부터 익숙하게 해왔던 사고과정에 내재되어 있는 사고의 틀이라고 볼 수 있다.

 

명시적으로 인식하지 못하지만 통계적 기법을 활용하여 의사결정을 내려온 것이다. 통계는 그러한 의사결정 과정을 방대한 데이터를 통해 객관적이고 명시적으로 드러내는 작업에 다름 아닌 것이다. 통계는 새로운 의사결정의 틀을 제시한다. 새로운 서비스를 제공하거나 제품의 선호도를 조사하는 등의 과정에서 기존의 데이터는 미래의 상황을 예측하는 가장 핵심적인 수단이 될 수 있는 것이다. 인터넷과 컴퓨터의 발전으로 방대한 양의 데이터를 축적하고, 또 빠른속도로 회귀분석을 실시할 수 있게 되면서 통계를 통한 분석결과의 신뢰성 역시 커지고 있다.

 

통계기법을 정확하게 이해하는 것도 중요하지만, 사소하게 여겨왔던 데이터가 집단의사결정의  중요한 자원이 될 수 있다는 사실을 인식하는 것 역시 중요하다. 정치적 행동에 있어서도 데이터와 데이터는 일련의 연결고리를 가지고 있기 때문에 당장의 사소한 행동이라 여겨졌던 행동들 역시 향후의 중요한 집단 의사결정의 변수가 될 수 있음을 인식한다면 사람들의 행동에도 중요한 변화를 가져오는 시발점이 될 수 있을 것이기 때문이다.

 

슈퍼크런처는 이러한 통계의 힘을 알기 쉬운 사례를 통해 설명하면서 우리가 왜 통계를 제대로 이해해야 하는지를 끊임없이 독자들에게 알려주고 있다. 단순히 통계를 어떻게 분석해야 하는지 보다 통계가 왜 중요한지를 사람들이 인식하는 것 그 자체에서부터 통계의 가치가 증가하게 될 것이다.

 

이 책은 통계학을 이용하여 대규모 데이터세트에서 숨겨진 정보를 뽑아내는 사람을 슈퍼크런처로 소개하며 시작한다. 날씨 데이터를 이용해 전혀 무관하리라 여겨졌던 와인의 품질을 예측한 사례는 매우 흥미롭게 통계가 지닌 힘을 잘 설명하고 있다. 날씨와 와인품질간의 상관관계를 이끌어 내는 데이터의 힘은 이후의 다른 사례들을 통해서도 드러나듯, 통계는 우리 삶속 의사결정에 지대한 영향을 미칠 수 있음을 알 수 있다.

 

서비스를 제공하는 입장에서는 우리의 모든 행동들이 마케팅 데이터로 활용 가능하다. 이전과 같으면 쉽게 소비될 수 없었던 아이템들이 통계기법을 활용한 마케팅을 통해 소비되는 롱테일 효과를 가져올 수 있기 때문이다. 데이터 기법을 통해 고객들이 과거에는 찾기 힘들었던 틈새시장까지 공략할 수 있게 되는 것이다.

 

넷플릭스의 경우 총 5만개의 영화 가운데 90% 이상이 최소한 한달에 한 번씩은 대여된다. 랩소디 닷컴 또한 이와 유사한 선호시세 틈 덕분에 보유곡 1백만 곡 가운데 최소한 한 달에 한번씩 이용되는 곡이 90%가 넘는다. 사실상 데이터가 새로운 수요를 창출하고 있다고 말할 수 있게 되는 것이다.

물론 이러한 필터링은 이면도 존재한다. 개인맞춤 서비스는 우리가 원하는 부분만의 정보를 취득할 수 있는 편의를 가지는 대신 대중의 공통적인 경험은 잠식되는 결과로 귀결될 수 있다. 관심도 없는 사회문제를 다룬 성가신 기사들에 눈길 한번 주지 않고 자신의 의사에 따라 신문을 읽게 된다고 볼 수 도 있다. 그러한 필터링 자체가 개인의 주체적 의사에 기인한 것이 아니라 데이터의 확률적 알고리즘에 따라 이뤄짐으로써 피동적 의사결정이 이뤄질 수 있다는 모순을 지적하고 있는 것이다. 과거의 의사결정에 드러난 데이터가 미래의 의사결정을 지배하게 되는, 게다가 그 결정이 자신의 주체적 의지보다는 알고리즘에 의해 이뤄질 수 있다는 위험성 역시 인지해야 된다. 또한 지극히 개인적인 영역으로 여겨져 온 부분에까지 이러한 데이터 마이닝과 분석이 침투하게 되는 순간 프라이버시의 취약성은 더욱 커질 수 있음을 저자는 강조한다.

 

모든 데이터는 연결되어 있다. 인간의 일련의 행동들이 상관관계를 지니고 이뤄지는 것처럼 그 결과물인 데이터 역시 연결될 수 밖에 없다. 이러한 데이터의 연결성은 범죄자를 추적하는데 매우 유용한 수단이 될 수 있다. 하지만 그 역시 개인의 일거수 일투족을 분석하는 수단으로의 오남용 문제도 존재함으로써 개인의 프라이버시 침해 혹은 데이터에만 매몰되어 잘못된 예측으로 귀결되는 것 역시 나타날 수 있음을 인식해야 한다.

 

슈퍼크런처가 주는 첫 인상은 통계를 다루는 사람들의 비상한 머리와 비범한 능력에 기반한 어떤 설명이 이뤄질꺼라는 것이었다. ‘슈퍼’라는 단어가 주는 고정관념이 작용한 것이었을지도 모르겠다. 하지만 슈퍼크런처를 읽을수록 느끼는 것은 사소한 것에서 시작하는 매우 정교하고도 단순한 룰이 바로 통계라는 생각이었다. 통계는 기본적으로 중립적이다. 데이터 그 자체는 어떠한 결정도 담고 있지 않다. 그 데이터를 활용하여 관계를 설정하고, 합리적인 범위에서 가설을 설정했을 때 현상을 설명함과 동시에 미래를 예측하는 비범한 능력이 나오는 것이다. 오늘 날씨를 보고 5년 뒤 와인의 품질을 판단한다는 것은 어쩌면 허무맹랑한 소리일 수 있다. 하지만 데이터에 기반 한 연결고리를 이해하고 나면 이것보다 더 명확한 예측이 있을 수 없다는 생각을 들게 만든다. 통계는 바로 이러한 힘을 가진 도구인 것이다.

 

그러나 이러한 힘은 양날의 검을 가짐을 항상 인식해야 함도 알 수 있었다. 이미 서술했듯 데이터는 중립적이다. 따라서 그 데이터를 사용하여 연결고리를 설정하는 인간의 주관적 가치관이 개입될 수 밖에 없는데, 편향적인 사고에 기초하여 회귀분석을 설정할 경우에는 동일한 데이터를 가지고도 완전히 상반된 결론에 도달할 수 있기 때문이다. 동일한 설문조사 결과를 가지고도 대통령의 당선을 다르게 예측한 사례 역시 한 예이다. 통계가 상당히 신뢰성있는 예측을 해 오면서 사람들은 통계 그 자체를 맹신하는 결과, 통계를 거친 결과에 대해서도 무비판적으로 수용하는 경향이 존재한다. 따라서 누군가는 잘못된 가설을 정당화하는 수단으로 통계를 오용 할 수도 있는 것이다. 결론적으로 말해 여전히 통계를 분석하는 인간의 판단이 중요해짐을 알 수 있다. 통계가 주는 힘이 커질수록 이러한 맹신을 경계하고 합리적인 범위에서 검증하는 단계 역시 중요시해야 될 것임을 알 수 있다.

 

어쨌든 슈퍼크런처와 같은 책을 통해 통계분석은 점차 대중화될 것이다. 중요한 것은 통계분석을 할 수 있고 없고의 문제를 넘어서게 된다는 점일 것이다. 더 다양하고 풍부한 통계분석의 장을 슈퍼크런처는 혁명이라 명명하는 것처럼 어떻게 통계분석을 실시해야 할지에 대해서는 앞으로도 많은 고민과 성찰이 필요함을 알 수 있었다. 사소해 보였던 데이터가 중요한 의사결정의 자원이 될 수 있음을 알게 되었을 때 단순히 그 데이터를 활용한 통계분석의 가능성을 가늠해 보는 것 이상으로 우리는 앞으로의 행동과 의사결정 하나하나가 유의미한 변수가 될 수 있음을 인식하게 됨을 배울 수 있었다. 또한 학문적인 의미로는 보다 다양한 시각에서 어떤 현상을 분석하고, 그 분석에 바탕하여 해결이 필요한 문제에 대해서도 창의적인 발상의 토대가 마련될 수 있음을 배울 수 있었다. 인터넷을 통한 데이터의 무한한 집적 가능성과 컴퓨터의 기술발전이 보다 나은 방향으로의 의사결정을 이끌어내는 수단이라면, 보다 합리적인 가설에 바탕한 사회현상의 인과관계를 규명해 내기 위한 노력 역시 경주해야 함을 느낄 수 있었다.

 

'읽어볼만한 글' 카테고리의 다른 글

구독경제 2(전호겸 저)  (0) 2021.04.17
구독경제 1 (전호겸 저)  (0) 2021.04.14
상상하지 말라 2(송길영 저)  (0) 2021.04.13
상상하지 말라 1 (송길영 저)  (0) 2021.04.10
(서평) 2030 축의전환 - 3  (0) 2021.04.08

댓글