图书馆

书目详细信息： 深入大型数据集:并行与分布化Python代码

ISBN/价格：	978-7-121-40368-2:CNY99.00
作品语种：	chi eng
出版国别：	CN 110000
题名责任者项：	深入大型数据集/.(美) John T. Wolohan著/.张若飞译
出版发行项：	北京:,电子工业出版社:,2021
载体形态项：	xx, 300页:;+图:;+24cm
提要文摘：	本书共分3部分，主要介绍如何使用Python语言来处理大型数据集。第1部分介绍map和reduce编程风格，以及Python中基础的map和reduce函数，并介绍如何将对象持久化，通过惰性函数和并行函数来加快大型数据集的处理速度。第2部分介绍Hadoop和Spark框架，以及如何使用mrjob库来编写Hadoop作业，如何实现PageRank算法，如何使用Spark来实现决策树和随机森林的机器学习模型。第3部分重点介绍云计算和云存储的基础知识，包括如何通过boto3的Python库将文件上传到AWS S3服务，以及如何在AWS的EMR集群中运行分布式的Hadoop和Spark作业。
题名主题：	软件工具程序设计
索书号：	TP311.561/W62
中图分类：	TP311.561
个人名称等同：	沃勒翰著
个人名称次要：	张若飞译
记录来源：	CN 浙江省新华书店集团公司 20210224

总体评分：（共0人）

我的评分：

收藏加入课程