15
2015
03

R做文本挖掘:词云分析

在目前流行的文本挖掘中,词云(world cloud)是一个常用的对文本词汇频次进行表现的形式。一般通过文字字号的大小来表示词频的多少,还可以使用不同颜色加以区分。例如:

> library(wordcloud)
> library(tm)
> data(crude)
> crude <- tm_map(crude, removePunctuation)
> crude <- tm_map(crude, function(x)removeWords(x,stopwords()))
> tdm <- TermDocumentMatrix(crude)
> m <- as.matrix(tdm)
> v <- sort(rowSums(m),decreasing=TRUE)
> d <- data.frame(word = names(v),freq=v)
> wordcloud(d$word,d$freq,random.order=FALSE, colors=brewer.pal(8, "Dark2"))

可以得到如下的词云图


11.png

    其他的词云图可以类似去做。当然在实际中,前提是需要结合一些爬虫程序从网上抓取文字资料,然后去做词云分析和其他进一步的文本挖掘分析。


   ——摘自 方匡南 朱建平 姜叶飞 .《R数据分析-方法与案例详解》.电子工业出版社

« 上一篇 下一篇 »