수학에서의 ‘Function’을 우리나라에서는 ‘함수函數’라고 합니다. 일본은 ‘관수関数’라고 사용하고 있습니다. 원래 함수라고 적었다가 상용한자에 포함되어 있지 않아 1950년 이후부터 동일한 음인 “관関”으로 변환하여 적었다고 합니다. 한국과 일본 모두 중국어 번역을 그대로 들여온 것이긴 하지만 지금 우리가 이해하는 Function의 의미를 생각해보면 함수보다는 관수가 더 어울리는 한자 같습니다.
이렇게 학문적인 분야에서 영어 단어가 주는 의미를 한글이 아닌 한자로 번역되면서 더 이해하기 어려워 지는 경우가 있습니다. 영어를 배우는 시간이 한자를 배우는 시간보다 많은 현실이라 더욱 그럴 수도 있습니다. 한자음을 그대로 한글로 표기한 단어의 의미를 이해하기는 어렵습니다. 동음이의어도 잘못된 이해를 하게 하는 원인 입니다.
예를 들어 평균, 분산, 표준편차와 같이 데이터의 어떤 비슷한 특징을 요약하여 대표하는 값을 찾는 방법이 있습니다. 이런 통계방법을 우리는 기술 통계라고 합니다. 여기서 사용되는 ‘기술’이라는 단어, 이해가 바로 되시나요? 통계학에서의 기술 통계를 영어로 적으면 ‘Descriptive Statistics’ 입니다. 그렇다면 이제 기술을 뜻하는 한자가 바로 떠오르시나요? 기술하면 처음 떠오르는 단어가 아마도 ‘技術’ 일 것 입니다. 누구도 처음 부터 ‘記述’ 이라고 생각하지 않을 것 같습니다.
통계학이 어려운 것이 아니라 익숙하지 않은 용어의 나열 때문에 어렵다고 느껴지는 건 아닐까요? 분명 이점이 한 몫한다고 생각합니다.
벌거벗은 통계학 복잡한 세상을 꿰뚫는 수학적 통찰력
찰스 윌런 저/김명철 역 | 책읽는수요일 | 2013년 10월 25일 | 원제 : Naked Statistics
이 책은 통계학을 소개하는 책 입니다. 책이 두껍긴 하지만 입문서 입니다. 최소한의 수학적 지식을 가진 사람이 이해할 수 있도록 쓰여져 있습니다. 책을 읽어가면서 쉬운 내용에서 조금씩 난이도를 더해 갑니다. 하지만, 통계학을 소개하는 것으로 그치는 것은 아닙니다. 여러가지 생각을 하게 합니다. 통계학을 통해 사회의 문제를 확인하고 해결하기 위한 사고의 중요성을 일깨워 줍니다. 엉터리 통계를 찾아내는 방법이 필요하다고 하고, 뉴스에 나오는 숫자의 의미를 생각하게 합니다. 그보다는 특히, 주요 통계 용어를 한글과 영어로 병기하여 표기하였습니다.
숫자가 너무 많이 나왔다는 건 나도 알고 있다. 어쩌면 이 책을 방구석으로 집어 던졌을지도 모르겠다. 아직 던지지 않았거나 다시가서 책을 집어왔다면, 두 집단의 신뢰구간이 겹치지 않는다는 점을 알아챘을 것이다.(중략)
이 책을 또 다시 방구석으로 집어 던질까 봐 관련 수식은 부록에 수록했다. 하지만 직관적으로는 매우 쉽다.276쪽
책은 총 13장으로 되어 있습니다. 특이하게 중간에 5½장을 두고 있습니다. 각 장은 우리가 궁금해 하는 질문들로 제목을 정했습니다. 그 제목에 해당하는 통계 수법들을 소개하고 있습니다. 그리고, 그 통계를 잘못 사용했을 때 일어날 수 있는 현상들도 같이 이야기 합니다. 최상의 상황을 가정한 통계적 분석이 ‘진실’을 온전히 밝혀내는 경우가 매우 드물다는 것을 전제로 합니다. 결정적인 정답보다는 불완전한 데이터를 토대로 특정 상황에 적용되는 판단이라는 것입니다.
1장에서는 통계학이 필요한 이유를 알려 줍니다. 2장은 기술 통계를 말합니다. 평균, 중앙값, 절대수치와 상대수치, 표준편차, 분산, 정규분포, 퍼센트, 지수 등 입니다. 3장은 기술 통계의 함정을 이야기 합니다. 분석을 잘못하였을 경우도 있고, 조작을 했을 경우도 있다는 것에 대한 사례를 들어 문제를 같이 고민하게 합니다. 책 뒷부분도 이런 식입니다. 통계학 내용을 소개하고, 그 다음은 사례를 들어 통계학을 잘못 사용할 때의 문제를 들춰내는 식입니다.
4장은 상관관계와 상관계수를 5장과 6장은 확률을 다룹니다. 7장은 표본조사를 설명하면서 Data의 중요성을 이야기 합니다. 좋은 Data를 구하는 것이 보기보다 어렵다고 합니다. 8장은 중심극한정리를 꺼냅니다. 표본을 대상으로 한 표본집단평균, 표본오차 같은 내용입니다. 9장은 귀무가설과 대립가설, 긍정 오류와 부정 오류를 설명합니다. 10장은 신뢰구간, 신뢰도를 여론조사 사례를 들어 이야기 합니다. 11장은 회귀분석 입니다. 최소제곱법, 잔차, 종속변수, 설명변수, t-분포, p-값에 대한 내용도 나옵니다. 12장은 회귀분석의 문제점을 한장에 할당하였습니다. ‘기적의 만병통치약도 복용법을 지키지 않으면 듣지 않는 법’382쪽이라고 하며, 회귀분석을 올바르게 사용해야 한다고 강조합니다. 13장은 프로그램 평가 방법을 알려줍니다. 맺음말에서는 통계로 답할수 있는 다섯가지 질문을 하고, 통계학을 현명하게 사용하길 바라는 당부가 있습니다.
책의 저자는 찰스 월런 입니다. 다트머스 대학 록펠러 센터 선입 정책 연구원이자 경제학과 공공정책 교수 입니다. 본인은 이렇게 이야기 합니다. ‘나는 통계학자도 아니고 연구원도 아니고, 단지 다른 사람의 흥미롭고 중요한 연구를 해석하고 독자들에게 전달하는 사람일 뿐이다.’429쪽 즉, 수학자가 쓴 통계학 책이 아닙니다. 그래서 많은 부분에서 이해하기 쉽도록 고민했을 것 같다는 생각을 해봅니다. 저자의 첫 책이기도 합니다. 단, 그 수준은 세계 13개국에 변역, 출간된 최고의 통계학 입문서로 소개되고 있습니다.
수학을 포기했거나 거부감이 있는 사람들도 책의 내용을 이해하는데 어려움은 없습니다. 그리고, 통계를 올바르게 이용하는 방법을 알려주고 충분히 고민하게 만드는 책입니다. 요즘 Hot 한 기술인 빅데이터, 머신러닝, A.I 모두 수학적 지식이 필요합니다. 통계학은 기본입니다. 통계학에 대한 입문서 한권을 골라, 두고두고 읽어볼 책이 필요하다면 이 책을 사는 것을 권해드립니다. 아마 후회는 하지 않을 것입니다.
- 직관은 수학을 비롯한 세세한 기술적 지식들을 더욱 이해하기 쉽게 해주지만, 반대로 수학이나 기술적 지식들이 직관적 통찰력을 높여주는 것은 아니다.(page 12)
- 기술 통계학은 단순화시키기 위해 존재하며, 이는 항상 얼마간의 뉘앙스 혹은 세부 사항의 상실을 수반하게 된다. 숫자를 갖고 일하는 사람이라면 이러한 사실을 깨달을 필요가 있다.(page 28)
- 중요한 점은 상관관계가 인과관계를 내포하지 않는다는 사실이다. 두 변수가 양의 상관관계 또는 음의 상관관계에 있다고 해서, 한 변수에서 일어난 변화가 반드시 다른 변수를 변화시킨다는 뜻은 아니다.(page 124)
- 여론조사 기관과 시장조사 기업들은 다양한 인구 집단에서 어떻게 해야 비용면에서 가장 효율적인 방법으로 질 좋은 표본을 추출할 수 있을 지를 놓고 씨름한다. 우선은 몇 가지 중요한 점을 이해해야 한다. ① 표본의 대표성은 엄청나게 중요하다. 표본이 모집단을 잘 대표해야 통계학이 보유한 많은 강력한 도구를 사용할 수 있다. ② 질 좋은 표본을 구하는 일은 생각보다 어렵다. ③ 터무니없는 통계의 대부분은 좋은 통계 방법을 형편없는 표본 집단에 적용해서이지 그 반대가 아니다. ④ 표본 크기는 중요하며, 클수록 좋다.(page 205)
- 좋은 단서는 도움이 된다.
좋은 데이터도 마찬가지다. 하지만 우선 좋은 데이터를 구하는 작업을 해야 하는데, 그것은 보기보다 훨씬 어려운 일이다.(page 226) - 지금은 통계적 추론으로 중요한 문제를 다룰 때에는 데이터를 이용해야 한다. 신약이 심장 질환 치료에 효과가 있을까? 휴대전화가 뇌종양을 유발할까? 통계가 이런 질문에 명백히 답을 줄 수 있다는 말이 아니라는 데 주의해야 한다. 대신 통계적 추론은 무엇이 가능성 있는 답이고 무엇이 그렇지 않은 답인지를 말해준다.(page 256)
- 통계적 추론은 데이터가 우리에게 단서를 제공하는 과정이며 이를 통해 우리는 의미 있는 결론을 도출할 수 있다. 이것이 우리가 바라는 결과이다! 통계학에서 중요한 것은 대량의 정밀한 수학 계산이 아니라 주요 사회 현상에 대한 통찰을 얻는 데 있다.(page 257)
- 회귀분석은 다른 변인을 통제한 상태에서 우리가 알고자 하는 어떤 변수와 결과 사이의 연관관계를 수치로 나타낼 수 있게 해준다. 바꿔 말해 회귀분석을 사용하면 다른 변수에 의한 영향을 고정시킨 채 특정 업무 등 개별 변수가 결과에 미치는 영향을 분리해낼 수 있다.(page 323)
- 통계학에서 회귀분석은 무기로 치면 수소폭탄이다. 집에서든 사무실 책상 위에서든 대규모 데이터 집합과 컴퓨터만 있다면 누구나 연구자가 될 수 있다. 이 때 저지를 수 있는 실수로는 무엇이 있을까? 모든 곳에서 다 실수할 수 있다.(중략) 다른 통계 분석에서도 그랬듯이 영악한 사람들이 나쁜 목적을 가지고 이런 방법론적 허점을 악용하는 경우가 있기 때문이다.(page 365)
- 회귀분석은 변수의 관계가 선형일 때 사용하도록 만들어졌다.(중략) 회귀분석도 다른 도구와 마찬가지로 원래 목적에서 벗어날수록 성능이 떨어지고 위함도도 더 커진다.(page 368)
- 모든 프로그램 평가는 처리나 개입을 평가할 기준이 될 반사실적 상황을 제공하는 데 목적이 있다. 무작위 통제 실험의 경우 대조군이 반사실적 상황이 된다. 하지만 통제 실험이 불가능하거나 비윤리적인 경우에는 비슷한 반사실적 상황을 만들어줄 다른 방법을 찾아야 한다. 지식의 진보는 이런 재치 있는 방법을 찾아내는 일에 달려 있다.(page 406)