本帖最后由 hibigip 于 2024-8-30 11:18 编辑
Pandas 是进行数据处理和分析的流行的 python 库。
虽然对于初学者或那些喜欢更直观方法的人来说,快速学习它并不容易。
但 PandasGUI 提供了一个令人难以置信的解决方案:「一个具有图形用户界面的惊人库,可简化数据操作和可视化功能。」
本文将逐步安装它,并展示其可增强数据分析能力的卓越功能。
1. 开始使用 PandasGUI
要开始使用 PandasGUI,第一步是安装它。可以直接通过 pip 命令来进行安装。
[Shell] 纯文本查看 复制代码 pip install pandasgui
接下来引入它。
[] 纯文本查看 复制代码 import pandas as pd
import pandasg
最后一步是加载数据集以用于演示该库的功能。
你可以加载你选择的结构化数据集,也可以使用 PandasGUI 可用数据集。
在本文中,我们将使用 PandasGUI 库附带的泰坦尼克号数据集。
[Python] 纯文本查看 复制代码 from pandasgui.datasets import titanic
现在,我们准备启动 PandasGUI。只需调用 show() 函数,如下面的代码所示:
[Python] 纯文本查看 复制代码 pandasgui.show(titanic)
执行这些命令后,将打开一个新窗口以显示你上传的数据框。
2. PandasGUI 功能
用户界面非常简单。它由以下组件组成。我将在后面的小节中介绍它们。
- 查看和排序 DataFrame
- 重塑数据框
- 数据帧过滤
- 汇总统计
- 交互式绘图
查看和排序DataFrame
PandasGUI 的第一个功能是按升序和降序查看和排序 DataFrame。这是数据探索的重要一步,可以轻松完成,如下图所示:
重塑数据框
PandasGUI 提供了两种重塑数据框的方法,即 pivot 和 melts。
pivot 通过将值从一列移动到多列来转换数据框。
另一方面,「melt」 方法使你能够取消透视数据框,将多个列合并为一个列,同时将其他列保留为变量。
在下面的 gif 中,我们将使用 pivot 方法重塑泰坦尼克号数据框:
数据帧过滤
在许多情况下,你希望根据特定条件过滤数据集以进一步了解数据或从数据集中提取特定切片。
要首先使用 PandasGUI 对你的数据应用过滤器,你将转到过滤器部分并编写每个过滤器,然后应用它。
假设我们只想获得以下乘客:
- Sex == 'male'
- Pclass == '3'
- Survived ==1
- 30 < Age < 40
在下面的 gif 中,是将这四个过滤器应用于泰坦尼克号数据集的分步指南:
汇总统计
你还可以使用 PandasGUI 为 DataFrame 提供详细的统计概览。这将包括数据集每一列的均值、标准差、最小值和最大值。
交互式绘图
最后,PandasGUI 为你的数据集提供了强大的交互式绘图选项,其中包括:
- 直方图
- 散点图
- 线图
- 条形图
- 箱线图
- 小提琴绘图
- 3D散点图
- 热图
- 饼图
- 词云
在下图中,我们将为我们的数据集创建三个交互:饼图、条形图和词云。
本文重点介绍了 PandasGUI 的功能,这是一个强大的库,它向广泛使用的 Pandas 库添加了图形用户界面。
我们首先演示了它的安装,加载了一个示例数据集,并探索了过滤、排序和统计分析等功能。 |