自己动手写网络爬虫(罗刚、王振东) PDF 扫描版[27M] PDF 免费下载

本书介绍了网络爬虫开发中的关键问题与java实现。主要包括从互联网获取信息与提取信息和对web信息挖掘等内容。本书在介绍基本原理的同时注重辅以具体代码实现来帮助读者加深理解,书中部分代码甚至可以直接使用。本书适用于有java程序设计基础的开发人员。同时也可以作为计算机相关专业本科生或研究生的参考教材。

目录:

第1篇 自己动手抓取数据
第1章 全面剖析网络爬虫
第2章 分布式爬虫
第3章 爬虫的“方方面面”
第2篇 自己动手抽取web内容
第4章 “处理”html页面
第5章 非html正文抽取
第6章 多媒体抽取
第7章 去掉网页中的“噪声”
第3篇 自己动手挖掘web数据
第8章 分析web图
第9章 去掉重复的“文档”
第10章 分类与聚类的应用

截图:


发表回复