이 책은 책의 정보를 전자책화 하여 빅데이터 분석을 가능하게 해준 구글의 ngram에 대한 것이다. ngram을 활용하여 어떻게 데이터를 분석하고, 더 나아가서 사회와 문화를 분석할 수 있는지를 잘 보여준다. 하지만 제작사가 구글이기 때문에 영어권 책 정보에 치우쳐져 있으며, ngram으로 우리나라 책들의 빅데이터 분석을 하는 것은 사실상 불가능하다. 따라서 우리나라 사회나 문화를 분석하기에는 적당하지 않은 툴이다.


ngram은 누구나 이용할 수 있다. (다만 구글에 로그인되어 있어야 하기 때문에 구글 ID는 있어야한다.)


https://books.google.com/ngrams


물론 누구나 공짜로 이용 가능한 서비스이기 때문에, 내가 영어권 데이터를 제대로 분석하고 해석해낼 능력만 있다면 아주 강력한 툴이지만, 대부분의 사람들은 그 방법을 모른다. 이 책은 일반적이고 포괄적이면서 흥미로운 정보들로 구글 ngram의 데이터를 분석하는 기초적인 방법을 제시한다. 물론 각자의 관심분야가 다르고 업무분야가 다르기 때문에 이 툴을 활용하여 어떻게 자기계발을 할지는 응용력이 필요하다.




책에 있는 통계를 그대로 제시하면 식상하기도 하지만, 저작권 침해 우려가 있으므로 책에는 제시되지 않은 통계 하나를 직접 가져와 봤다.


(첨부 - 정신장애 통계)


autism은 자폐증, schizo는 정신분열증(조현병) 이다. 가족구성원 중 한 명이 이들 병에 걸리기만 하면 가정파괴까지 될만한 아주 심각한 종류의 정신장애다. 사실 현대 사회에서 병의 심각성만 따져 봤을 땐 autism이 더 심각하다. 왜냐하면 조현병은 완치는 불가능에 가깝지만 증상을 잠재워서 사회에서 정상생활을 할 정도의 약이 개발되었다(약의 효과가 없는 환자도 많다는 게 함정이긴 하다). 하지만 자폐증은 증상을 완화시킬 약이 전혀 없다. 그럼에도 불구하고 조현병이 영어권 책들에서 훨씬 더 많이 거론되는 이유는 아무래도 조현병이 자폐증보다 훨씬 흔하기 때문으로 보여진다.




위에서 보다시피 구글의 엔그램은 통계자료만을 보여줄 뿐, 그에 대한 해석은 전혀 없다. 따라서 자료를 해석해서 활용하는 것은 사용자의 몫이다.


빅데이터의 중요성은 날로 커지고 있다. 특히 이런 빅데이터가 중요한 이유는 돈벌이에 활용될 수 있기 때문이다. 이런 빅데이터를 공짜로 분석할 수 있다는 것은 굉장한 축복이다. 여러분도 활용해 보시라. 이 책은 빅데이터 분석 입문자에게 상당한 도움이 될 만하다는 점에서 일독을 권한다.





저작자 표시 비영리 변경 금지
신고

댓글을 달아 주세요

티스토리 툴바