티스토리 뷰

자연어 처리 딥러닝 캠프 - 파이토치 편

대장고양이 2019. 8. 11. 16:05

- 지은이 : 김기현, - 출판사 : 한빛미디어, - 출판일: 2019-07-01

 

 

"자연어 딥러닝 분석이 이렇게 심오할(어려울) 줄이야."

책을 처음 읽기 시작하면서부터 가장 먼저 들기 시작한 생각이었다.

 

책을 읽기 전에는 데이터 분석에 있어서 자연어 처리는 데이터 칼럼 중 영화평이나 서평과 같은 이용자가 직접 입력한 값이 있는 경우 단어수를 세어본다거나 추출된 단어를 기반으로 긍정적인지 부정적인지 알아보는 감성 분석 정도로만 생각했었다.

물론 인공지능을 이용한 번역 등 자연어를 처리하는 분야들도 많이 있고 발전하고 있으나 데이터 분석을 전반적으로 공부하고 있는 나에게는 그저 feature값 중 하나를 처리하기 위한 도구일 뿐 그 이상도 그 이하도 아니었다.

하지만 이 책을 읽으면서 자연어 처리를 다시 생각하게 되었다.

 

책 초반에는 이미지나 음성에 비해 자연어 처리가 왜 어려운지, 그리고 한국어는 왜 더 어려운지에 대해 설명이 있는데, 딥러닝에 대한 이해가 없다고 하더라도 재미있게 읽을 수 있는 부분인 것 같다.

평소에도 외국인이 배우기에는 한국어는 참 어려운 언어라는 생각을 갖고 있었는데, 외국인뿐만 아니라 기계도 이해하기에도 참 어려운 언어를 운 좋게 모국어로 쓸 수 있어서 다행이란 생각까지 들었다.

 

 

책을 자연어 처리 딥러닝을 공부하기 위해 바로 활용하려면, 저자가 책의 특징을 설명할 때 이야기하는 것처럼, 파이썬, 확률과 통계, 딥러닝 기초, 머신러닝 기초 등에 대한 내용은 미리 선행하고 읽어보는 것이 좋을 것 같다.

어려운 개념들인데 기초수학에 관한 내용은 책의 앞부분에 약 20페이지 정도, 그리고 기타 머신러닝/딥러닝 개념들도 흐름에 필요한 정도로만 짧게 설명되어 있다. 처음에는 조금 아쉬운 감이 있었으나, 자연어 처리를 목적으로 책을 읽기 시작한 사람이라면, 이미 기초 선행 과목(?)들은 어느 정도 거치고 왔을 거라고 생각해보니 적절한 구성인 것 같다.

 

 

반면에 수집한 코퍼스(말뭉치)에서 불필요한 특수문자, 기호 등을 제거하기 위해 정규 표현식을 사용하여 정제하는 부분들은 꽤 상세히 설명되어 있어서 이 책만으로도 많은 도움이 될 것 같다.

 

자연어 처리를 전문가가 되기 위해서 이 책을 눈여겨보고 있는 사람이라면, 처음부터 끝까지 이 책을 이해할 수 있다면, 목적을 달성할 수 있다는 생각이 든다. 나처럼 데이터 분석할 때 문장으로 되어 있는 칼럼을 다루기 위해, 또는 그보다 조금 더 깊이 있는 내용이 궁금한 사람이라면 사전처럼 두고 필요할 때마다 부분 부분 찾아서 배우고 익히면 될 것 같다.

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함