ISBN/价格: | 978-7-121-40368-2:CNY99.00 |
---|---|
作品语种: | chi eng |
出版国别: | CN 110000 |
题名责任者项: | 深入大型数据集/.(美) John T. Wolohan著/.张若飞译 |
出版发行项: | 北京:,电子工业出版社:,2021 |
载体形态项: | xx, 300页:;+图:;+24cm |
提要文摘: | 本书共分3部分,主要介绍如何使用Python语言来处理大型数据集。第1部分介绍map和reduce编程风格,以及Python中基础的map和reduce函数,并介绍如何将对象持久化,通过惰性函数和并行函数来加快大型数据集的处理速度。第2部分介绍Hadoop和Spark框架,以及如何使用mrjob库来编写Hadoop作业,如何实现PageRank算法,如何使用Spark来实现决策树和随机森林的机器学习模型。第3部分重点介绍云计算和云存储的基础知识,包括如何通过boto3的Python库将文件上传到AWS S3服务,以及如何在AWS的EMR集群中运行分布式的Hadoop和Spark作业。 |
题名主题: | 软件工具 程序设计 |
索书号: | TP311.561/W62 |
中图分类: | TP311.561 |
个人名称等同: | 沃勒翰 著 |
个人名称次要: | 张若飞 译 |
记录来源: | CN 浙江省新华书店集团公司 20210224 |