用Python进行数据分析
本帖最后由 wmdczrs 于 2023-11-14 20:13 编辑用Pandas库进行统计分析所需要掌握得基础知识
1. 常见数据读取方法
a. 读/写不同数据源的数据
i. 读/写文本文件
1) 文本文件读取
a) # help(pd.read_csv)
b) # help(pd.read_table)
2) 文本文件写入
a) # help(musicdata.to_csv)
ii. 读/写Excel文件
1) Excel文件读取
2) Excel文件存储
iii. 读/写剪切板数据
2. DataFrame的常用属性与常用操作
a. DataFrame的常用属性
i. values,获取元素
ii. index,获取索引
iii. column,获取列名
iv. dtypes,获取类型
b. 查改增删DataFrame数据
i. DataFrame数据的基本查看方式
ii.DataFrame的loc、iloc访问方式
1) loc()方法是针对DataFrame索引名称的切片方法,如果传入的不是索引名称,那么切片操作将无法执行。
2) 利用loc()方法,能够实现所有单层索引切片操作。
i. iloc()方法接收的必须是行索引和列索引的位置。
iii. 更改DataFrame中的数据
iv. 为DataFrame新增数据
v. 删除某列或某行数据
i. 描述分析DataFrame数据
i. 频数分布表制作
ii. 频率直方图
iii. 频率(数)分布的特征
iv. 数据的分布类型
i. 对称分布
ii. 偏态分布
v. 集中趋势的描述
i. 算术均数(简称均数)
ii. 中位数
iii. 众数
vi. 离散趋势的描述
i. 全距(极差)
ii. 四分位数间距
iii. 方差
iv. 标准差
v. 变异系数
vii. 数值型特征的描述性统计
viii. 类别型特征的描述性统计
3. 时间序列数据的转换与处理方法
a. 转换时间字符串为标准时间
b. 提取时间序列数据信息
c. 加减时间数据
4. 掌握分组聚合的计算方法
a. groupby()方法拆分数据
b. agg()方法聚合数据
c. apply()方法聚合数据
5. 掌握透视表与交叉表的创建方法
a. 使用pivot_table()函数创建透视表
b. 使用crosstab函数创建交叉表
what is your question?
页:
[1]