使用R分析2016年进口食品化妆品不合格数据（一）

使用R分析2016年1-7月进口食品化妆品不合格数据（一）撸主换个工具玩耍下，这次使用R语言，分析2016年1-7月进口食品化妆品不合格数据，先做一下数据清洗并分析一下产地

上度娘，下载R软件，本软件为开源软件，安装包体积小且免费，赞一个

安装完毕后，桌面出现以下图表，即为安装成功：前往总局网站，点击下载前七个月进境不合格食品化妆品数据，一共7个表格，如下：合并表格，清洗出产地数据所在的列：清洗完成，工作就算完成一半了

下面，双击打开图表打开R软件，开始敲代码： 1 设置参数 setwd(“C:/Users/lgx/Desktop/R语言分析进口不合格食品化妆品/”) #设置工具空间 library(jiebaR) #加载分词包jiebaR，和python中的jieba包非常类似，使用隐马尔科夫模型，进行中文分词 engine<-worker() #根据默认参数建立分词引擎 2 读取数据 data<-read.table("C:/Users/lgx/Desktop/R语言分析进口不合格食品化妆品/产地一到七月.txt",sep="\t",header=F,colClasses="character") #读取txt文件 3 中文分词 words<-engine<=data$V1 #分词 words1<-unlist(words) words1<-words[words!=""] 4 过滤字符 words2<-words1[nchar(words1)>1 & nchar(words1)<20] #只要字符创长度介于2-20的词 5 输出词频 wordFreq50=sort(table(words2),decreasing=T)[1:50];wordFreq50 #输出前50个高频词 sort(table(words2),decreasing=T) #降序输出所有长度介于2-20的词 6 可视化 library(wordcloud) #加载包做词云图用 wordcloud(names(wordFreq50),wordFreq50,min.freq=2,random.order=F,random.color=T,colors = c(1:50)) 词云图： barplot(table(words2))#直方图直方图： pie(table(words2))#饼图饼图： 7 保存结果 ##保存sort(table(words2),decreasing=T)至txt文件 write.table(sort(table(words2),decreasing=T),"C:/Users/lgx/Desktop/R语言分析进口不合格食品化妆品/来源国及次数.txt") ##保存sort(table(words2),decreasing=T)至csv文件 write.table(sort(table(words2),decreasing=T),"C:/Users/lgx/Desktop/R语言分析进口不合格食品化妆品/来源国及次数.csv") 保存到本地后，点击查看：未完待续潜心大数据新闻，亮剑数据可视化

带您通过自然语言处理、机器学习、D3等大数据处理和可视化方法，玩转大数据新闻

长按二维码关注，数据挖掘实验室

数据挖掘实验室

获取

长按二维码关注，数据挖掘实验室

数据挖掘实验室

Related Posts

[PDF电子书] iOS开发之美 电子书下载 PDF下载

strong的Sass笔记

深入理解C++11：C++11新特性解析与应用 pdf扫描版[58MB] PDF 免费下载

发表回复

[PDF电子书] iOS开发之美电子书下载 PDF下载