422页《实用的全栈机器学习:构建可靠的、可重用的、可生产的全栈ML解决方案指南高清PDF已经打包好,获取步骤如下:
1,点击下方公众号 数据STUDIO 名片▲点击关注「数据STUDIO」回复 PML
注意⚠️ 是公众号『数据STUDIO』,非本号
https://bpbonline.com/products/practical-full-stack-machine-learning“实用全栈机器学习” 向数据专业人员介绍了构建完整数据科学项目所需的一组强大的开源工具和概念。这本书是用 Python 编写的,ML 解决方案是语言中立的,可以应用于各种软件语言和概念。
这本书涵盖了数据预处理、特征管理、选择最佳算法、模型性能优化、将 ML 模型公开为 API 端点以及扩展 ML API。它可以帮助您学习如何使用 cookiecutter 创建可重用的项目结构和模板。它解释了 DVC,以便您可以实施它并在 ML 项目中获得相同的好处。它还介绍了 DASK 以及如何使用它来为预处理数据任务创建可扩展的解决方案。KerasTuner 是一个易于使用、可扩展的超参数优化框架,解决了超参数搜索的痛点。它解释了集成技术,例如 bagging、stacking 和 boosting 方法以及 ML-ensemble 框架,以轻松有效地实现集成学习。
本书还介绍了如何使用 Airflow 自动执行 ETL 任务以进行数据准备。它探索了 MLflow,它允许您训练、重用和部署使用任何库创建的模型。它教授如何使用 fastAPI 将 ML 模型作为 API 端点公开和扩展。
本书的目的是向你介绍建立一个有效的数据科学管道所需的强大的开源工具和概念的集合,这样你就不必记住技巧,而只需记住正确的工具,根据经验,这样做要容易得多。
你可以选择手写不同的集合技术,也可以使用ML-Ensemble库。ML-Ensemble将Scikit-learn的高级API与低级计算图框架结合起来,以尽可能少的代码行数建立内存高效、最大限度并行化的集合网络。我们希望这能使本书的理念和目的深入人心。
由于本书是关于建立有效的管道和系统,我们围绕数据科学项目的常见步骤来组织书籍。这些步骤看起来像这样。
CRISM DM常见步骤CRISP DM或数据挖掘的跨行业标准流程是一种数据挖掘应用的流程方法。虽然也有其他方法论,但CRISP DM是流行的选择之一。你会发现很多数据挖掘工具都采用了该流程的变体,而没有对其进行任何归属。
CRISP DM的目标是为数据挖掘工作提供一个独立于行业的可重复过程。最近,CRISP DM已经开始慢慢地被搁置,但基本的基础知识仍然是强大和有用的。
本书各章是围绕CRISP DM的不同步骤松散地组织的。其目的是提供一个框架,对不同的工具和库进行分组。我们的大脑有一种神奇的能力,可以很容易地回忆起那些被分组/联系起来的东西。
数据科学项目在本质上是实验性的,你如何组织你的项目对实验的难易程度和速度有很大影响。机器学习模型是代码加数据,因此两者都需要妥善组织。开始工作不仅仅是组织你的项目,而且还要决定环境、框架、基线、目标指标和工作流程。在这一章中,我们将探讨一些概念、工具和想法,这将有助于把最好的一面展现出来。
数据收集和准备是值得信赖的机器学习/深度学习模型的基础。在这一步要花费相当多的精力。本章的重点是学习机器学习项目的数据分析和预处理方面的最佳实践和工具。
构建你的架构并不是使用最新的流行和病毒式的算法来构建你的模型,而是训练一个能够满足现实世界的期望和挑战的模型。本章的重点是学习关于算法选择、超参数初始化/调整和调试技术的最佳实践,以提高模型的性能。
Apache airflow是一个开源项目,用于以编程方式编写、安排和监控工作流。机器学习管道的关键好处是它为不同步骤提供了自动化。每个新的训练数据集都必须经过CRISP DM流程中列出的步骤。大多数团队要么是手动操作,要么是用胶带粘住这些步骤,使其变得非常脆弱。如果你的模型有用户,你就需要一个流水线。如果你仍然不相信,那么Chap-5将完成这项工作。本章的目的是温和地介绍Airflow。
我们中的大多数人都经历过运行别人的代码和模型的挫败感。库的依赖性、隐藏的配置和没有记录的设置步骤使得我们很难把别人的模型当成一个黑盒子。MLflow是一个开源项目,它可以帮助你用任何库来训练、重用和部署模型,并将它们打包成可复制的步骤,让其他数据科学家可以像 '黑盒子'一样使用,甚至不需要知道你在使用哪个库。本章的目的是向你介绍MLflow以及你如何在你的情况下使用它。
特征库可以被想象成一个特征的仓库。它是存储有记录的、有访问控制的特征的中央保险库。特征库是一个新兴的概念,目的是消除在将ML模型带到生产中的挑战。
本章的重点是通过一个名为feast的开源特征库来了解特征库。
本章的重点是学习我们如何将ML模型部署为API。我们将使用fastAPI,它是一个现代的、高性能的Python网络框架,非常适合构建RESTful API。fastAPI可以处理同步和异步请求,并且内置了对数据验证、JSON序列化、认证和授权的支持。作为奖励,你还会了解到Ray-serve。
422页《实用的全栈机器学习:构建可靠的、可重用的、可生产的全栈ML解决方案指南》高清PDF已经打包好,获取步骤如下:
1,点击下方公众号 数据STUDIO 名片注意⚠️ 是公众号『数据STUDIO』,非本号