‘현재 가장 가치 있는 자원은 데이터’라고 영국의 경제지인 이코노미스트(The Economist)가 2017년 기사를 냅니다. 세상은 ‘발견의 시대’에서 ‘실행의 시대’로 바뀌었고, ‘전문지식의 시대’에서 ‘데이터의 시대’로 바꼈다는 것입니다. 빅 데이터라는 말이 일상처럼 사용되고 있습니다. 그럼 빅 데이터란 과연 데이터만을 말하는 것일까요? 위키디피아에서는 빅 데이터를 아래와 같이 정의하고 있습니다.
빅 데이터(영어: big data)란 기존 데이터베이스 관리도구의 능력을 넘어서는 대량(수십 테라바이트)의 정형 또는 심지어 데이터베이스 형태가 아닌 비정형의 데이터 집합조차 포함한 데이터로부터 가치를 추출하고 결과를 분석하는 기술이다.
제일 마지막 단어, ‘기술’ 즉 단순히 크고 많고 다양하고 복잡한 데이터만을 말하는 것이 아니라 그 데이터를 다루는 기술에 방점이 있습니다. 데이터를 다루는 기술이다 보니 데이터 과학의 범위에 포함됩니다.
그림으로 배우는 데이터 과학
히사노 료헤이, 키와키 타이치 저/김성훈 역 | 영진닷컴 | 2019년 05월 10일
데이터 과학에는 빅 데이터, 데이터 분석, 머신러닝과 인공지능 등 많은 분야가 있습니다. 이러한 분야는 개별적으로 바라볼 수도 있지만 사다리처럼 하나하나 단계가 있다는 이야기도 합니다. 이런 이야기를 한 사람은 IBM의 Rob Thomas 입니다. 데이터 과학을 하기 위해서는 데이터가 필요하고 그 데이터가 인공지능을 위한 기초가 된다는 것입니다. 기초가 없으면 아무리 올라가려고 해도 오를 수 없습니다.
이러한 데이터 과학을 하는 사람을 우리는 데이터 과학자라고 합니다. 책에서는 데이터 과학자를 아래와 같이 정의합니다.
컴퓨팅 기술을 활용해 데이터 수집 및 처리, 동계학이나 머신러닝으로 분석, 의사 결정과 상품 개발까지 이어지는 일련의 흐름을 효과적으로 처리하는 기능을 가진 사람
추가해서 데이터 과학자를 비즈니스를 중시하는 ‘업무계열’과 구현을 중시하는 ‘IT계열’로 구별하고 있습니다. 이 책은 후자에 집중합니다. 기술적인 부분인 수학, 알고리즘, 하드웨어 지식, 소프트웨어 지식, 통계학, 머신러닝 등을 다루고 있습니다. 책의 원제를 살펴보면 대학 4년 동안 배운 수준의 데이터 과학을 10시간 만에 배울수 있는 것으로 되어 있습니다. 번역된 책의 표지에도 컴퓨터 구조부터 딥러닝까지 10시간 만에 배울 수 있는 것으로 표시를 하였습니다. 정말 ’10시간만 배우면 데이터 과학자가 될 수 있을까?’라는 의문을 해봅니다. 현재 전세계적으로 데이터 과학자가 부족하다는 기사를 많이 확인할 수 있는데 10시간 만에 배운다면 이런 기사 자체는 나오지 않을 것 입니다. 책은 10시간만에 배울 수 있다는 것이 아니라 데이터 과학을 위해 우리가 배워야 하는 내용들을 빠른 시간에 확인하고 개념을 잡을 수 있는 수준으로 정리한 책입니다. 한마디로 데이터 과학을 이미 배운 사람이 데이터 과학에서 중요하다고 생각되는 핵심을 간추려 정리한 노트라고 생각하면 될 것 같습니다. 그 정리 노트를 읽으면서 중요한 내용을 확인할 수 있습니다.
책은 데이터 과학의 많은 부분을 다루고 있습니다.총 5개 Part로 나눠져 있습니다. Part 1은 데이터 과학의 기본을 이야기 합니다. 데이터 과학의 정의 부터 시작해서 데이터 과학자의 역할, 데이터 수집 방법등에 대한 내용으로 채워져 있습니다. Part 2는 데이터 과학의 기초 기술을 말합니다. 컴퓨터의 구조부터 설명을 합니다. 반도체, CPU, RAM, GPU 등 하드웨어에 대한 내용을 소개하며, 이러한 것에 대한 기초지식도 필요하다고 강조합니다. 그리고 데이터 과학에 도움이 되는 프로그래밍 기초와 알고리즘, 데이터베이스 등을 정리하며 최적화 방법을 꺼냅니다. Part 3은 통계학과 머신러닝의 기초를 설명합니다. 과적합을 피하기 위한 모델의 선택, 회귀 문제와 앙상블 학습을 통한 주택가격을 분석하고 있습니다. 분류 문제, 비지도 학습 또한 빼놓지 않습니다. Part 4는 코퍼스와 네트워크 분석에 할애하고 있습니다. 확률모델과 커뮤니티 추출에 많이 활용되는 분석법입니다. Part 5는 딥러닝입니다. 신경망 기초에서 시작하여 딥러닝을 통한 순차 데이터 분석과 이미지 분석을 다루고 있습니다.
많은 것을 포함하다 보니 깊이는 얇습니다. 초보자는 한번 보고 이해하기 어려운 부분이 많습니다. 위에서도 말했듯이 핵심을 간추려 정리하다 보니 깊은 내용을 확인하기 위해서는 다른 책의 도움이 필요합니다. 저의 지식 수준으로는 데이터 과학의 핵심을 차지하는 이 책 뒷 부분은 분명 다른 책으로 공부를 한 후 읽어봐야 할 수준이 아닐까 생각해 봅니다. 다만, 책의 구성은 개념 자체를 두페이지내에서 설명하고 있습니다. 한쪽은 서술식으로 설명을 하고, 다른 한쪽은 그림 혹은 도식과 표로 표현하여 한눈에 들어오는 구성으로 되어 있습니다. 어느정도 지식을 갖춘 사람이 읽으면서 머리속에 담기 위한 방법으로는 상당히 깔끔하고 과학적인 구조로 편집한 것 같습니다. 그림으로 배운다는 의미가 바로 이런 의도일 것 입니다.
일반적으로 알고리즘은 ‘가장 빠르고 최대한 메모리 영역을 낭비하지 않는’ 방법을 선택해야만 합니다. 컴퓨터 과학에서는 처리에 걸리는 시간을 시간 복잡도, 필요한 메모리 영역을 공간 복잡도로 부릅니다.68쪽
데이터 과학은 계속 발전하고 있습니다. 컴퓨팅 파워의 발전과 함께 알고리즘의 개선도 이뤄지고 있습니다. 글로벌 기업 시가 총액 랭킹 상위 회사들은 모두 데이터를 수집하고 분석하고 활용하고 있습니다. 인공지능이 새로운 전기라면 빅 데이터는 발전기를 돌아가게 만드는 석유라는 표현을 많이 사용합니다. 빅 데이터를 가진 나라가 이제는 최대의 산유국이 되는 것입니다. 그렇다고 데이터만 많다고 되는 것은 아닙니다. 늘어나는 데이터 만큼이나 그 데이터에서 통찰을 얻을 수 있는 과정이 필요합니다. 그 과정에서 데이터 과학은 꼭 필요한 것입니다. 데이터 과학을 배우고자 하는 사람에게 이 책은 전반적인 내용을 확인하기에 좋은 책 같습니다.
딥러닝으로 무엇이든 할 수 있을 거라고 보는 것은 경솔한 생각입니다. ‘사고의 자동화’에 빠지지 않고, 기술이 만들어 내는 미래를 내다보고 싶다면 기술의 기초를 이해하는 것이 가장 빠른 지름길입니다.194쪽
IT분야에 종사하는 사람으로 영진이라는 이름은 낯이 익습니다. 이 책은 영진닷컴의 <그림으로 배우는~> 시리즈 중 하나입니다. ‘그림으로 배우는…’ 이라는 책의 제목을 가진 책들이 컴퓨터 서적에 많은 편입니다. 이런 책들은 왠지 그림이 많아 쉬울 것 같지만 전혀 그렇지 않을 때도 있습니다. 데이터 과학을 접하고 다시 한번 느끼게 됩니다.