ISBN/价格: | 978-7-121-31071-3:CNY79.00 |
---|---|
作品语种: | chi |
出版国别: | CN 110000 |
题名责任者项: | 网络爬虫全解析/.罗刚著 |
出版发行项: | 北京:,电子工业出版社:,2017 |
载体形态项: | xii, 429页:;+图:;+24cm |
提要文摘: | 本书介绍了如何开发网络爬虫。内容主要包括开发网络爬虫所需要的Java语法基础和网络爬虫的工作原理, 如何使用开源组件HttpClient和爬虫框架Crawler4j抓取网页信息, 以及针对抓取到的文本进行有效信息的提取。为了扩展抓取能力, 本书介绍了实现分布式网络爬虫的关键技术。另外, 本书介绍了从图像和语音等多媒体格式文件中提取文本信息, 以及如何使用大数据技术存储抓取到的信息。后, 以实战为例, 介绍了如何抓取微信和微博, 以及在电商、医药、金融等领域的案例应用。其中, 电商领域的应用介绍了使用网络爬虫抓取商品信息入库到网上商店的数据库表。医药领域的案例介绍了抓取PubMed医药论文库。金融领域的案例介绍了抓取股票信息, 以及从年报PDF文档中提取表格等。 |
题名主题: | 软件工具 程序设计 |
索书号: | TP311.561/L06 |
中图分类: | TP311.561 |
个人名称等同: | 罗刚 著 |
记录来源: | CN 湖北三新 20170421 |