python对csv文件怎么进行数据清洗啊？

mymoon 发表于 2021-4-10 22:01

如图，这是我的csv文件的一部分，第一个NBSP前是用户名，我想作为一列。性别/地址那里我想拆分成两列。第二个NBSP后面有四列，四列中的第一列有的空缺，后三列没问题。然后我发现，df['user_id']的列不仅有用户名，因为长度不一，有的还会包括性别/地址什么的。我该怎么处理啊？头疼。。

H不讲武德 发表于 2021-4-10 22:19

santus36 发表于 2021-4-10 23:31

你这数据哪来的，问提供方要一份逗号分隔符位置对的不就行了

doublee 发表于 2021-4-11 00:45

你中间的NBSP是啥字符啊？如果可以的话，用正则表达式（re）处理一下，从第二个NBSP分为两段。前面可以继续用正则处理，后面用python根据逗号分割，然后根据分割后的段数，判断是否有空缺。最后再重新写入csv文件。关键是你这个字符很奇怪，我没见过，不知道能不能用re。

ymhld 发表于 2021-4-11 12:39

了解一下pandas

mymoon 发表于 2021-4-11 21:44

我来还愿了。我把csv文件转成xls文件，然后那个nbsp就没了。然后用excel的mid函数把其他列的性别/地址截过来，再用mid函数把性别地址分开，再用VBA编程用正则表达式把原来列的性别/地址替换成空。

页: [1]

吾爱破解 - 52pojie.cn's Archiver