install.packages("KoNLP") #형태소분석 라이브러리인 KoNLP(한글자연어처리패키지)를 설치
install.packages("wordcloud") #주어진 데이터를 WordCloud형태로 그리는 패키지 설치
Sys.setenv(JAVA HOME: \\Program Files\\Java\\jre1.8.0_211') #시스템 set environment
install.packages("rJava") #라브러리 호출시 에러발생하는데, 에러없이 불러들이기 위해서 운영체제에 맞는 rJava설치
install.packages("KoNLP")
library(KoNLP)
useSejongDic()#세종 한글사전 로딩
txt<-readLines("seoul1.txt", encoding = "UTF-8")
# 원문장 필요없으므로 F
data2<-sapply(txt, extractNoun, USE.NAMES = F )#단어집합
#sapply-결과를 벡터형태로 단순화해서 리턴
#extractNoun-명사를 추출하는 함수
# USE.NAMES= F가 없는경우, 명사뽑은 내용이 같이 나온다, 원문장 필요 없으므로 F
data2
#명사들을 하나의 1차원 벡터로 변환
#서울시, 숫자, -, 요청, 신청 등 과 같이 의미없는 단어 공백으로 대체
data3<-unlist(data2)
data3<-gsub('\\d+','', data3)
data3<-gsub('서울시','', data3)
data3<-gsub('-','', data3)
data3<-gsub('요청','', data3)
data3<-gsub('신청','', data3)
data3<-gsub(' ','', data3)
data3
#파일 저장해서 table로 불러들여서 공백제거하기
write(unlist(data3),"seoul2.txt")
data4<-read.table("seoul2.txt")
nrow(data4) #data4의 dataframe의 행의 수를 출력한다
#단어들이 몇번씩 나왔는지 횟수확인
wordcount<-table(data4)
wordcount
data5<-sort(wordcount, decreasing = T)#단어의 개수를 많이 나온순서대로 정렬해서 표현
head(data5,20) #data5에서 나온 단어 상위20개 단어만 나오게
'R programming' 카테고리의 다른 글
[R:04] 기초문법(함수) (0) | 2019.07.24 |
---|---|
[R:02]R에서 사용하는 데이터 타입 (0) | 2019.07.22 |
[R:01]데이터의 개념 및 R다운로드 방법 (0) | 2019.07.19 |