엑셀로 시작하는 데이터과학 실무

데이터 사용의 민주화

 

가장 이상적으로 데이터를 잘 활용하는 회사는 ‘데이터 분석가 혹은 사이언티스트가 없어도 데이터를 기반으로 의사결정을 효율적으로 내리는 문화가 존재하는 회사’입니다. 이러한 이상에 다가가기 위한 개념으로 데이터 사용의 민주화라는 말이 나왔습니다. 데이터 사용의 민주화를 가능하도록 하기 위해 많은 툴이 나옵니다. 코딩과 수학을 잘 몰라도 데이터 시각화 및 분석을 할 수 있다는 것입니다. 이러한 툴 중에 가장 쉽게 접할 수 있는 툴이 바로 엑셀입니다. 버전업을 하면서 많은 통계기능과 데이터 분석 기능이 추가되기도 합니다.

데이터 분석이라는 업무의 정확한 의미는 “데이터를 다양하게 활용하여 서비스에 도움이 되는 분석을 하는 것”이라고 합니다. 무작정 데이터가 있다고 분석을 하는 것이 아니라 서비스에 도움이 되는 분석을 해야 한다는 의미입니다. 세상 모든 업의 본질이 그렇습니다. 누군가에게 도움이 되어야 한다는 것에 방점이 있습니다.

아디디어가 떠올랐을 때 데이터를 활용하여 근거를 확인하는 일, 현재 처한 상황을 타개할 방법을 찾는 일, 앞으로 상황이 어떻게 벌어질지 예측하는 일 등이 우리가 데이터 분석을 하는 가장 큰 이유일 것입니다. 사고하는 방법만 이해한다면 이러한 것은 통계적 분석으로도 충분합니다. 엑셀로도 충분히 가능한 시나리오들이 많습니다.

 


엑셀로 시작하는 데이터과학 실무
하야마 히로시 저/최서희 역 | 영진닷컴 | 2021년 01월 07일

 

데이터 분석을 위해 처음해야 하는 것은 분석의 목적을 정하는 것 입니다. 목적이 명확해야 원하고자 하는 결과를 얻을 수 있습니다. 분명해진 목적에 맞는 데이터를 찾고, 그 데이터의 규칙과 형식을 파악하는 것이 두번째가 될 수 있습니다.

목적이 정해지고, 그 목적에 맞는 데이터를 확인했다면 이제는 가공 방법을 선택해야 됩니다. 전체적인 이미지를 보려할 때, 데이터를 요약할 때, 두 집단의 규모를 비교할 때, 위치나 범위를 알고 싶을 때, 시간의 변화를 바탕으로 예측할 때 등등에 따라 달라집니다. 분석 업무를 할 때 목적에 맞는 적합한 표와 그래프가 다양한 이유가 바로 여기에 있습니다.

이 책은 데이터를 가지고 할 수 있는 데이터 가공방법과 시각화, 여러가지 통계 기법으로 데이터 분석 하는 것을 엑셀이라는 툴로 진행합니다. 데이터 분석의 목적으로 회사의 매출을 높이기 위한 많은 분석 기법을 보여줍니다. 그리고, 분석과정에서 사용하는 엑셀의 통계 함수가 나오게 된 수학적 이론도 같이 알려줍니다. 함수와 동일한 결과를 이끌어 내는 과정을 수식을 통해 단계별로 보여주는 과정이 많습니다. 그러한 예들을 통해 통계를 위한 수학적 기초도 다시 확인할 수 있습니다. 한마디로 하자면 데이터 분석이라는 업무의 감을 알려주고, 누구나 쉽게 진입할 수 있도록 하는 입문서 입니다.

의미를 알지 못할 때는 수식으로 표현하면 어렵게만 느껴지지만, 그 의미를 안다면 (분산은) 각 데이터 – 평균값의 제곱을 전부 더해서 데이터의 개수로 나눈 것이라고 일일이 말하는 번거로움에서 벗어나 간단히 기호로 표현할 수 있게 됩니다. 수식은 이야기를 어렵게 하기 위한 것이 아니라 쉽게 하기 위한 것입니다.84쪽

시각화의 대표적인 히스토그램에서 부터 시작합니다. 기술통계인 평균값, 중앙값, 표준편자, 분산을 통해 경쟁상대와의 차이를 비교하는 방법을 두 번째로 알려줍니다. 데이터 형식과 규칙을 이해하고 대략적인 이미지를 파악한 본격적인 분석으로 들어가는 실무의 순서와 동일한 구성입니다.

이후 부터는 다양한 방법의 분석 방법을 소개하고 있습니다. 순위, 편차치, ABC분석은 현재 처한 우리 회사의 위치를 아는 방법으로 소개됩니다. 문제 해결의 실마리를 얻기 위해서는 상관관계, 회귀분석을 해야 하며, 트렌드를 통해 미래를 예측하기 위해서는 시계열 분석의 방법이 있습니다. 수치의 차이가 정말 의미가 있는지 확인하기 위해서 평균값 차이 검정, 분산 차이 검정을 해야 합니다. 예측에 도움이 되는 것이 어떤 요인인지 판별하기 위해서는 독립성 검정, 상관 검정, 중회귀분석 검정의 방법이 있다는 것도 알려줍니다. 이 모든 것을 엑셀이라는 툴로 설명하고 있습니다.

책의 제일 마지막에는 용어집을 별도로 두고 있어 다시 한번 정리하는데 도움이 됩니다.

편차의 곱의 합을 데이터의 건수로 나눈 것은 편차의 곲의 평균값을 구하는 것과 같습니다. 즉, 양쪽의 변수가 같은 방향으로 움직이고 있는가, 반대 방향으로 움직이고 있는가의 평균값입니다.
게다가 표준편차로 나누는 건 값을 표준화하여 -1~1의 범위에 넣기 위해서입니다. 어떤가요? CORREL 함수만으로 상관계수를 구할 수 있지만, 계산 방법과 그 의미를 생각하면 왜 1에 가까우면 양의 상관관계이고 -1에 가까우면 음읭 상관관계인지를 이해할 수 있을 것입니다.144쪽

요즘 화두가 되는 것 중 하나가 데이터 기반 의사결정입니다. 선입견이나 편견에 현혹되지 말고 데이터가 말해주는 사실 기반으로 세상올 봐야 된다는 것입니다. 이런 관점에서 다양한 분석 방법을 통해 도출한 분석 결과가 왜곡이 되어서도 안됩니다. 현재 가지고 있는 데이터만 가지고도 신중한 절차를 통해 제대로 분석해야 한다는 마음가짐도 필요합니다. 이러한 통계의 함정에 대해서도 책에서 소개를 하고 있습니다.

컴퓨터라는 것이 수식 계산을 위해 만들어졌습니다. 많은 계산이 필요했기 때문에 그러한 기계가 필요했던 것입니다. 처음엔 분명 특수한 목적이 계산만 하는 것으로 많은 제약이 있었습니다. 하지만 이후 컴퓨터 성능은 계속 발전해 왔습니다. 고성능의 컴퓨터가 이제 다시 풀기 어려운 수학 계산을 푸는 시도로 이어집니다. 이러한 과정의 과도기가 요즘인 것 같습니다. 붐이 일고 있습니다. 대학의 컴퓨터 학과와 통계학과가 인기가 높다는 것이 사실을 말해줄 것입니다.

이렇게 많은 사람이 도전하다 보니 상식이 되고 있습니다. 사무업무 툴에도 고급 통계 함수가 기본적으로 탑재되는 것만 봐도 알 수 있습니다. 사고하는 방법만 이해할 수 있다면 툴이 문제가 되지 않는다는 것으로 해석할 수도 있습니다. 데이터 사용의 민주화 라는 말이 더 실감납니다. 상식이 되는 시대, 이러한 데이터 과학의 감을 빨리 익혀 실무에 다양하게 시도해보는 것이 필요합니다. 지금 바로 엑셀을 실행시켜 샘플 데이터인 실습파일을 불러오는 것, 그것이 바로 경쟁력을 높이는 지름길입니다.

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.