【Python】盘点常见的AutoEDA工具库

在完成竞赛和数据挖掘的过程中,数据分析一直是非常耗时的一个环节,但也是必要的一个环节。

能否使用一个工具代替人来完成数据分析的过程呢,现有的AutoEDA工具可以一定程度上完成上述过程。本文将盘点常见的AutoEDA工具,欢迎收藏转发。

Pandas Profiling

https://pandas-profiling.github.io/pandas-profiling/docs/master/index.html

Pandas Profiling是款比较成熟的工具,可以直接传入DataFrame即可完成分析过程,将结果展示为HTML格式,同时分析功能也比较强大。

  • 功能:字段类型分析、变量分布分析、相关性分析、缺失值分析、重复行分析
  • 耗时:较少

AutoViz

https://github.com/AutoViML/AutoViz

AutoViz是款美观的数据分析工具,在进行可视化的同时将结果保存为图片格式。

  • 功能:相关性分析、数值变量箱线图、数值变量分布图
  • 耗时:较多

Dataprep

https://dataprep.ai/

Dataprep是款比较灵活也比较强大的工具,也是笔者最喜欢的。它可以指定列进行分析,同时也可以在Notebook中进行交互式分析。

  • 功能:字段类型分析、变量分布分析、相关性分析、缺失值分析、交互式分析。
  • 耗时:较多

SweetViz

https://github.com/fbdesignpro/sweetviz

SweetViz是款强大的数据分析工具,可以很好的分析训练集和测试集,以及目标标签与特征之间的关系。

  • 功能:数据集对比分析、字段类型分析、变量分布分析、目标变量分析
  • 耗时:中等

D-Tale

https://github.com/man-group/dtale

D-Tale是款功能最为强大的数据分析工具,对单变量的分析过程支持比较好。

  • 功能:字段类型分析、变量分布分析、相关性分析、缺失值分析、交互式分析。
  • 耗时:中等


往期精彩回顾



  • 交流群

欢迎加入机器学习爱好者微信群一起和同行交流,目前有机器学习交流群、博士群、博士申报交流、CV、NLP等微信群,请扫描下面的二维码加群,备注:”昵称-学校/公司-研究方向“,例如:”张小明-浙大-CV“。请勿在群内发送广告,否则会请出群,谢谢理解~(也可以加入机器学习交流qq群772479961


相关推荐

  • 一文揭秘 Vue3 组件库的优雅打包与细节
  • 超详细讲解H5移动端适配
  • 300元一年,QQ邮箱准备收费了
  • 今年这行情......我看大家还是多留一手准备吧 !
  • TimeGPT:时间序列预测的第一个基础模型
  • 深入理解 Spring 注解驱动配置与 XML 配置的融合与区别
  • 独家专访@爱可可-爱生活:如何做好科学研究(干货满满)
  • 七张图解锁Mybatis整体脉络,让你轻松拿捏面试官
  • 一套万能通用的异步处理方案
  • 一年私吞260余万元?程序员利用漏洞篡改ETC余额,已被刑拘
  • 小米 14 系列手机起售价 3999 元;新神经网络在语言归纳能力上接近人类;亚马逊推出人工智能图像生成功能|极客头条
  • 如何防止网站信息泄露(复制/水印/控制台)
  • 一文揭秘Vue3组件库的优雅打包与细节
  • 技术栈Vue全家桶,面某大厂被吊打的惨痛教训
  • (待会删)付费搞来的AI资源,低调浏览!!!
  • 《HelloGitHub》第 91 期
  • 得益于 WeakMap,新发布的 Vue 3.3.6 更快了
  • React Router初学者入门指南(2023版)
  • Spring的BeanFactory与FactoryBean的区别
  • RLHF模型普遍存在「阿谀奉承」,从Claude到GPT-4无一幸免