본문 바로가기

Theory/DataScience

Colab에서 KoNLPy와 WordCloud 설정하기

Colab은 무료에 GPU등을 사용할 수 있어서 아마 많이들 사용하실 텐데요. Colab의 사용에서 자연어, 특히 한글 자연어 처리를 해보려는 분들이 처음에 겪는 문제는 아마도 그래프에서 한글 표현과 KoNLPy와 WordCloud의 설치일 겁니다. 오늘은 그것을 다뤄 보도록 하겠습니다.

먼저 Colab을 시작합니다. 구글 드라이브에서 새로만들기 후에 Google Colaboratory를 선택합니다.

일단, matplotlib에서 그림을 그릴때 한글을 적용해봅니다.

그러면 에러가 납니다. matplotlib의 기본 폰트가 한글을 지원하지 않기 때문입니다. jupyter notebook에서 matplotlib의 한글문제를 해결하는 방법을 다루기도 했었구요. 또 Colab에서 한글 문제를 다루는 법도 이야기를 했습니다. 이번에 다시 한글 이야기부터 하고 가도록 하겠습니다.

일단 한글이 되는 폰트인 나눔 폰트를 apt-get install 명령으로 설치합니다. colab에서 apt-get 명령처럼 os 레벨의 명령을 사용하려면 느낌표(!)를 앞에 달아주면 됩니다.

설치 완료후에 설치가 되었는지를 확인해보면 잘 나타납니다.

그리고 나서 한글 폰트를 적용합니다.

그리고 런타임 -> 런타임 다시 시작을 선택합니다. 이렇게 해도 설치된 폰트가 해제되지 않습니다. 런타임을 초기화하거나 몇 시간이 지나면 사라지지만 런타임 다시 시작을 하는 것은 괜찮습니다.

이제 다시 한글을 적용하는 코드를 실행하고 처음 에러가 났던 코드를 실행하면 한글이 그래프에 잘 표현되는 것을 알 수 있습니다.

혹시 화면이 흐린것이 마음에 걸리면 retina 설정을 해주면 됩니다.

이제 pip install 명령으로 konlpy와 wordcloud를 설치합니다.

이제 konlpy가 잘 동작하는지 확인해보겠습니다.

Okt 형태소 분석기로 육아휴직 관련 법안을 분석해봅니다.

그리고 최빈도순으로 단어의 빈도를 그려봅니다.

잘 나타나네요^^

이번에는 wordcloud를 테스트해봅니다.

역시 잘되네요^^ 이 과정은 모두 동영상으로도 볼 수 있습니다.


반응형