读取csv文件提取指定列的数据

jia222 发表于 2023-9-22 10:08

import glob
import os
import pandas as pd

# 获取当前目录下所有CSV文件路径
csv_files = glob.glob("*.csv")

# 遍历每个CSV文件
for csv_file in csv_files:
# 获取CSV文件名（不包含扩展名）
file_name = os.path.splitext(csv_file)

# 读取CSV文件并提取第1列和第2列的数据
try:
   data = pd.read_csv(csv_file, encoding='utf-8')
except UnicodeDecodeError:
   try:
         data = pd.read_csv(csv_file, encoding='gbk')
   except:
         print(f"无法读取CSV文件：{csv_file}，请检查编码方式。")
         continue

m_column = data.iloc[:, 1]# 第2列的索引为1
am_column = data.iloc[:, 0]# 第1列的索引为0

# 创建一个新的DataFrame来保存提取的数据
new_data = pd.DataFrame({"手机号": am_column, "姓名": m_column})

# 去除重复数据，保持每行对应关系
new_data = new_data.drop_duplicates()

# 删除手机号为空的行
new_data = new_data.dropna(subset=["手机号"])

# 将数据保存到新的xlsx文件中，文件名与所读取的CSV文件名一致
output_file = f"{file_name}.xlsx"
new_data.to_excel(output_file, index=False)

print(f"已保存文件：{output_file}")

# 等待用户输入任意键后关闭窗口
input("按下任意键关闭窗口...")

很简单的东西,大佬请略过.

wangguang 发表于 2023-9-22 10:20

数据分析学的很厉害呀

xuanwu126 发表于 2023-9-22 10:35

学习一下，以后应该会用到

wapjsx 发表于 2023-9-22 11:17

求问，为什么不直接用 csv 库呢？

zhengsg5 发表于 2023-9-24 20:29

pandas感觉确实好用，数据处理非常方便！

HR741158 发表于 2023-9-26 17:50

学习了，收藏备用

greatzdl 发表于 2023-9-28 15:53

感觉这小代码还是比较实用哦

MAOSKE 发表于 2023-9-28 16:03

感谢分享！

页: [1]

吾爱破解 - 52pojie.cn's Archiver

读取csv文件提取指定列的数据