General-Info

R_KoNLP 워드클라우드(wordcloud) 코드

summerorange 2022. 7. 24. 22:58
반응형

현재 다시 KoNLP 보면서 형태소 뜯어보고 있는데 관련해서 한 번 다시 포스팅 끄적이면서 공유하면 좋을 것 같아서 작성합니당.

뭔가 공부나 연구하는 건 혼자하는 것보다 리뷰하면서 같이 하는 게 즐겁고... 나만 이런 공부의 쓴맛(과 어쩌면 단맛)을 맛볼 순 없지. 고통은 함께하면 어쩌면 줄어들 수도:->...

KoNLP. 는 맨 처음 설치할 때 상당히 구글링하면서 고생하면서 설치했습니다. Mac과 윈도우 둘 다 쓰는데 둘 다 설치가 쉽지 않았고, 자바도 설치하는 등. 여러 조건이 필요했습니당. 지금 R 버전 업데이트 올라왔는데. 새로 버전 업데이트 되었다고 바로 업데이트 하면 안되는 거 아시죠?ㅋㅋㅋ버전 다시 맞추기 싫어서 업뎃 최대한 미루는 중. 그리고 업뎃 된 거 KoNLP 왠지 작동 안될 거 같은 느낌적인 느낌 있음(22.07.24 기준)

R은 한 동안 잘 안 쓰다가 변덕스럽게 한 번 다시 실행해보고 싶어서 워드 클라우드와 형태소 다시 한 번 뜯어보고 있습니다. 

 

1) KoNLP 관련 공식 문서를 꼼꼼히.

관련 링크: https://github.com/haven-jeon/KoNLP/blob/master/etcs/KoNLP-API.md

해당 공식 문서를 보면 R에서 konlp를 쓸 수 있는 예제 코드들을 볼 수 있습니다. 다른 R과 관련해서 참고 자료 많지만 우선 만든 공식 문서, 공식 웹사이트에 직접 가는 게 더 빠르게 정보를 얻을 수 있습니다. 운 좋으면 개발자에게 해당 목적, 모티베이션, 등등을 알아보는 걸 좀 더 선호합니다.

KoNLP 깃허브 계정에 가서 품사 관련해서 어떻게 태그를 붙였는지 확인할 수 있습니다. 워드클라우드 만들 때 조사와 수식어는 떼고 주로 명사를 사용하니 Noun부분과 관련해서 눈으로 한 번 쓱 읽어보기. 읽으면서 국어 공부 역시 쉽지 않단 걸 느낌...ㅎ 안녕하쎄요우. 

2) 워드클라우드 코드

하단으로 쭉 내리니 워드클라우드 관련해서 예시로 제공한 코드가 있었습니당. 

해당 문서를 보니 다음과 같이 최인훈의 광장을 분석했길래 관련해서 한 번 분석을 해봤습니다. 그래도 실행되는지 확인

코드는 약간 조정해서 가지고 왔습니다. 하단의 코드 참조

#현재 경로 확인
getwd()
# 만약 경로 재설정한다면
setwd('/Users/Downloads')

#관련 라이브러리 호출
library(KoNLP)
library(RColorBrewer)
library(wordcloud)

#텍스트 파일 불러오기
f <- file('articleExample.txt', blocking=F)
#텍스트 파일 읽기
txtLines<- readLines(f)
#명사 추출
nouns<-sapply(txtLines, extractNoun, USE.NAMES = F)
#텍스트 파일은 닫기
close(f)
#해당 명사 카운트
wordcount<-table(unlist(nouns))

#그래프 색 설정
pal<-brewer.pal(12,"Set3")
pal<-pal[-c(1:2)]

#워드클라우드 코드 예시
wordcloud(names(wordcount), freq=wordcount, scale=c(6,0.3), min.freq=25, random.order = T, rot.per=.1, colors=pal, family='AppleGothic')

family='AppleGothic'을 넣지 않으면 맥에서는 글자가 깨지기 때문에 넣어주었고, 윈도우 환경에서는 제외하고 돌리면 됩니당.

 

3) 워드 클라우드 결과

다음과 같이 나옵니다. 글자 크기와 색깔 모두 다듬어주어야 할 것 같습니다. 관련한 포스팅은 추후에...

 

일단 오늘은 여기까지 끗!

반응형