使用R分析2016年1-7月进口食品化妆品 不合格数据(一) 撸主换个工具玩耍下,这次使用R语言,分析2016年1-7月进口食品化妆品不合格数据,先做一下数据清洗并分析一下产地

上度娘,下载R软件,本软件为开源软件,安装包体积小且免费,赞一个

安装完毕后,桌面出现以下图表,即为安装成功: 前往总局网站,点击下载前七个月进境不合格食品化妆品数据,一共7个表格,如下: 合并表格,清洗出产地数据所在的列: 清洗完成,工作就算完成一半了

下面,双击打开图表打开R软件,开始敲代码: 1 设置参数 setwd(“C:/Users/lgx/Desktop/R语言分析进口不合格食品化妆品/”) #设置工具空间 library(jiebaR) #加载分词包jiebaR,和python中的jieba包非常类似,使用隐马尔科夫模型,进行中文分词 engine<-worker() #根据默认参数建立分词引擎 2 读取数据 data<-read.table("C:/Users/lgx/Desktop/R语言分析进口不合格食品化妆品/产地一到七月.txt",sep="\t",header=F,colClasses="character") #读取txt文件 3 中文分词 words<-engine<=data$V1 #分词 words1<-unlist(words) words1<-words[words!=""] 4 过滤字符 words2<-words1[nchar(words1)>1 & nchar(words1)<20] #只要字符创长度介于2-20的词 5 输出词频 wordFreq50=sort(table(words2),decreasing=T)[1:50];wordFreq50 #输出前50个高频词 sort(table(words2),decreasing=T) #降序输出所有长度介于2-20的词 6 可视化 library(wordcloud) #加载包做词云图用 wordcloud(names(wordFreq50),wordFreq50,min.freq=2,random.order=F,random.color=T,colors = c(1:50)) 词云图: barplot(table(words2))#直方图 直方图: pie(table(words2))#饼图 饼图: 7 保存结果 ##保存sort(table(words2),decreasing=T)至txt文件 write.table(sort(table(words2),decreasing=T),"C:/Users/lgx/Desktop/R语言分析进口不合格食品化妆品/来源国及次数.txt") ##保存sort(table(words2),decreasing=T)至csv文件 write.table(sort(table(words2),decreasing=T),"C:/Users/lgx/Desktop/R语言分析进口不合格食品化妆品/来源国及次数.csv") 保存到本地后,点击查看: 未 完 待 续 潜心大数据新闻,亮剑数据可视化

带您通过自然语言处理、机器学习、D3等大数据处理和可视化方法,玩转大数据新闻

长按二维码关注,数据挖掘实验室

数据挖掘实验室



欢迎投稿 职场/创业方向. 邮箱wangfzcom(AT)163.com:王夫子社区 » 使用R分析2016年进口食品化妆品不合格数据(一)

点评 0

评论前必须登录!

登陆 注册