"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."
올해 첫 리뷰 책으로 파이썬을 이용한 텍스트 분석 책을 선택 했다.
기존에 봤던 파이썬을 이용한 데이터 분석 책의 대부분은 수치 데이터에 대한 이야기 였다면
이번 책은 글에 대한 이야기 이다.
컴퓨터에서 수는 비교적 다루기 쉬운 데이터에 속하는 편이다.
오죽하면 컴퓨터는 글자도 내부적으로 숫자로 처리 할까....(2진수 밖에 못다루니 당연한 얘기지만...)
책은 총 13장으로 구성되어 있으며 제목에서와 같이 텍스트 데이터를 모으고, 정리하고, 필요에 맞게 가공하고 그 결과물에서 데이터가 말하고 싶어 하는 의미있는 무언가를 찾는 과정을 설명 하고 있다.
그 과정에서 웹사이트 크롤링 같은것도 잠시 다루고 있는데 요즘 여기저기서 크롤링에 대한 요구가 많아서 상당히 유용한듯 하다.
텍스트 데이터를 다루는 만큼 기존에 데이터 분석에서 사용했던 라이브러리들과는 다른 라이브러리들을 많이 사용하고 있다.
이 책에서 많이 등장하는 라이브러리는 아래 두 가지가 대표적인 것으로 보이는데 scikit-learn은 기계학습을 위한 라이브러리이고 spaCy는 자연언어 처리를 위한 라이브러리 이다.
아래는 각 라이브러리의 설명을 링크해 두었다.
- scikit-learn : https://ko.wikipedia.org/wiki/Scikit-learn
- spaCy : https://en.wikipedia.org/wiki/SpaCy
위와 같은 라이브러리를 이용하여 유엔총회의 일반 토의 내용이나 로이터 웹사이트의 기사, 자바 개발도구 버그 리포트 내용등을 가지고 텍스트 데이터를 정형화 하여 분석 하는 내용을 다루고 있다.
대부분이 머신러닝과 자연어어 처리 과정을 통하는 내용이어서 그 쪽 방면으로는 크게 경험이 없는 나로서는 역시 익숙하지 않음에서 오는 생소하고 재미있는 내용들이 많은 듯 했다.
특히나 자연언어 처리라고는...대학때 전공과목이 있기는 했지만, 그 당시에는 학부생이 접근해서 이해 하기엔 너무 난해한 내용이었고 요즘 chatGPT처럼 뭔가 직접 경험 해 볼 만한 서비스도 존재 하지 않았었다.
그러다 보니 책에서 소개하는 단어 가방 모델(bag of words model) 같은 내용은 따로 찾아 보지 않으면 어떤 내용인지 쉽게 와 닿지가 않았었다.(이제 책볼때 점점 검색 하는 내용이 많아 지는거 같다...늙어 가고 있단....ㅜㅜ)
전체적으로 평하자면, 전체적으로 내용도 좋고 많이 접하지 못했던 분야의 내용이라 재미도 있는 좋은 책인 것 같다.
보다보니 이 책도 O'Reilly 책인데, 개인적으로 O'Reilly 책이 실패한 적이 별로 없고 내용이나 구성이 나랑 잘 맞는거 같다는 생각이 든다.