422页新书《构建实用的全栈机器学习指南》pdf下载

大家好!
掌握 ML 流程,从管道开发到生产中的模型部署。构建可靠的、可重用的、可生产的全栈ML解决方案指南。
本书面向希望更加精通从头到尾开发 ML 应用程序的整个过程的数据科学家。了解机器学习和 Keras 编程的基础知识将是一项基本要求。

422页《实用的全栈机器学习:构建可靠的、可重用的、可生产的全栈ML解决方案指南高清PDF已经打包好,获取步骤如下:

1,点击下方公众号 数据STUDIO 名片
2,关注 数据STUDIO后,在消息后台回复 PML

▲点击关注「数据STUDIO」回复 PML

注意⚠️ 是公众号『数据STUDIO』,非本号

https://bpbonline.com/products/practical-full-stack-machine-learning

“实用全栈机器学习” 向数据专业人员介绍了构建完整数据科学项目所需的一组强大的开源工具和概念。这本书是用 Python 编写的,ML 解决方案是语言中立的,可以应用于各种软件语言和概念。

这本书涵盖了数据预处理、特征管理、选择最佳算法、模型性能优化、将 ML 模型公开为 API 端点以及扩展 ML API。它可以帮助您学习如何使用 cookiecutter 创建可重用的项目结构和模板。它解释了 DVC,以便您可以实施它并在 ML 项目中获得相同的好处。它还介绍了 DASK 以及如何使用它来为预处理数据任务创建可扩展的解决方案。KerasTuner 是一个易于使用、可扩展的超参数优化框架,解决了超参数搜索的痛点。它解释了集成技术,例如 bagging、stacking 和 boosting 方法以及 ML-ensemble 框架,以轻松有效地实现集成学习。

本书还介绍了如何使用 Airflow 自动执行 ETL 任务以进行数据准备。它探索了 MLflow,它允许您训练、重用和部署使用任何库创建的模型。它教授如何使用 fastAPI 将 ML 模型作为 API 端点公开和扩展。

你会学到什么

  • 了解如何创建可用于生产的可重用机器学习管道。
  • 使用 DASK 为预处理数据任务实施可扩展的解决方案。
  • 尝试集成技术,例如 Bagging、Stacking 和 Boosting 方法。
  • 了解如何使用 Airflow 自动执行 ETL 任务以进行数据准备。
  • 学习 MLflow 以训练、重新处理和部署使用任何库创建的模型。
  • cookiecutter、KerasTuner、DVC、fastAPI 等等方法

本书的目的是向你介绍建立一个有效的数据科学管道所需的强大的开源工具和概念的集合,这样你就不必记住技巧,而只需记住正确的工具,根据经验,这样做要容易得多。

你可以选择手写不同的集合技术,也可以使用ML-Ensemble库。ML-Ensemble将Scikit-learn的高级API与低级计算图框架结合起来,以尽可能少的代码行数建立内存高效、最大限度并行化的集合网络。我们希望这能使本书的理念和目的深入人心。

由于本书是关于建立有效的管道和系统,我们围绕数据科学项目的常见步骤来组织书籍。这些步骤看起来像这样。

CRISM DM常见步骤

CRISP DM或数据挖掘的跨行业标准流程是一种数据挖掘应用的流程方法。虽然也有其他方法论,但CRISP DM是流行的选择之一。你会发现很多数据挖掘工具都采用了该流程的变体,而没有对其进行任何归属。

CRISP DM的目标是为数据挖掘工作提供一个独立于行业的可重复过程。最近,CRISP DM已经开始慢慢地被搁置,但基本的基础知识仍然是强大和有用的。

主要特征

  • 主要关注特征工程、模型探索和优化、数据操作、ML 管道和扩展 ML API。
  • 以最高效率和最高性能涵盖每项数据科学任务的分步方法。
  • 访问高级数据工程和 ML 工具,例如 AirFlow、MLflow 和集成技术。

目录

本书各章是围绕CRISP DM的不同步骤松散地组织的。其目的是提供一个框架,对不同的工具和库进行分组。我们的大脑有一种神奇的能力,可以很容易地回忆起那些被分组/联系起来的东西。

  • 第一章:组织你的数据科学项目

数据科学项目在本质上是实验性的,你如何组织你的项目对实验的难易程度和速度有很大影响。机器学习模型是代码加数据,因此两者都需要妥善组织。开始工作不仅仅是组织你的项目,而且还要决定环境、框架、基线、目标指标和工作流程。在这一章中,我们将探讨一些概念、工具和想法,这将有助于把最好的一面展现出来。

  • 第二章:为数据科学项目准备你的数据

数据收集和准备是值得信赖的机器学习/深度学习模型的基础。在这一步要花费相当多的精力。本章的重点是学习机器学习项目的数据分析和预处理方面的最佳实践和工具。

  • 第三章:为你的数据科学项目建立你的架构

构建你的架构并不是使用最新的流行和病毒式的算法来构建你的模型,而是训练一个能够满足现实世界的期望和挑战的模型。本章的重点是学习关于算法选择、超参数初始化/调整和调试技术的最佳实践,以提高模型的性能。

  • 第四章:再见调度器,欢迎Airflow

Apache airflow是一个开源项目,用于以编程方式编写、安排和监控工作流。机器学习管道的关键好处是它为不同步骤提供了自动化。每个新的训练数据集都必须经过CRISP DM流程中列出的步骤。大多数团队要么是手动操作,要么是用胶带粘住这些步骤,使其变得非常脆弱。如果你的模型有用户,你就需要一个流水线。如果你仍然不相信,那么Chap-5将完成这项工作。本章的目的是温和地介绍Airflow。

  • 第五章:用MLflow管理ML Pipeline

我们中的大多数人都经历过运行别人的代码和模型的挫败感。库的依赖性、隐藏的配置和没有记录的设置步骤使得我们很难把别人的模型当成一个黑盒子。MLflow是一个开源项目,它可以帮助你用任何库来训练、重用和部署模型,并将它们打包成可复制的步骤,让其他数据科学家可以像 '黑盒子'一样使用,甚至不需要知道你在使用哪个库。本章的目的是向你介绍MLflow以及你如何在你的情况下使用它。

  • 第六章:ML的特征存储

特征库可以被想象成一个特征的仓库。它是存储有记录的、有访问控制的特征的中央保险库。特征库是一个新兴的概念,目的是消除在将ML模型带到生产中的挑战。

本章的重点是通过一个名为feast的开源特征库来了解特征库。

  • 第7章:将ML作为API服务

本章的重点是学习我们如何将ML模型部署为API。我们将使用fastAPI,它是一个现代的、高性能的Python网络框架,非常适合构建RESTful API。fastAPI可以处理同步和异步请求,并且内置了对数据验证、JSON序列化、认证和授权的支持。作为奖励,你还会了解到Ray-serve。

PDF 下载方方法

422页《实用的全栈机器学习:构建可靠的、可重用的、可生产的全栈ML解决方案指南》高清PDF已经打包好,获取步骤如下:

1,点击下方公众号 数据STUDIO 名片
2,关注 数据STUDIO后,在消息后台回复 PML▲点击关注「数据STUDIO」回复 PML

注意⚠️ 是公众号『数据STUDIO』,非本号

相关推荐

  • 大厂也是草台班子!
  • 超越AlphaFold3,OpenAI投资的AI生物初创发布Chai-1,分子结构预测新SOTA
  • 华为诺亚联合中科大发布工具调用模型ToolACE,效果持平GPT-4获开源第一
  • 「LLM」这个名字不好,Karpathy认为不准确、马斯克怒批太愚蠢
  • DeepMind又损大将,AI总监Nando de Freitas离职,曾领导开发Gato、Genie
  • 北大对齐团队独家解读:OpenAI o1开启「后训练」时代强化学习新范式
  • 极简机器人开发,助力高效部署生成式AI模型
  • 360视角:大模型幻觉问题及其解决方案的深度探索与实践
  • 阿里云盘惊现逆天 Bug,创建相册后可随意观看他人照片!
  • 历时两年半,我们 “搬家” 了!
  • KAN干翻MLP,开创神经网络新范式!一个数十年前数学定理,竟被MIT华人学者复活了
  • Nature:探秘世界最快超算的一天
  • 拯救OpenAI 1500亿估值,就靠o1了?全新Scaling Law终结奥特曼「非营利游戏」
  • 用上大模型,阴谋论不灵了!来自MIT最新研究丨Science封面
  • 打破波士顿动力空翻专利后,国产人形机器人左手拧螺丝,右手咖啡拉花
  • 陶哲轩提前实测满血版o1:能当研究生使唤
  • 这些python库操作excel太方便了!
  • 纯 CSS 实现在鱼缸中养一条鱼【附源码】
  • 文本挖掘实践再回顾:基于游记的事件演化序列抽取与图谱可视化展示
  • 老刘的RAG小课堂开始啦!从朴素RAG到KG增强RAG再到文档解析三阶段