python对csv文件怎么进行数据清洗啊?
如图,这是我的csv文件的一部分,第一个NBSP前是用户名,我想作为一列。性别/地址那里我想拆分成两列。第二个NBSP后面有四列,四列中的第一列有的空缺,后三列没问题。然后我发现,df['user_id']的列不仅有用户名,因为长度不一,有的还会包括性别/地址什么的。我该怎么处理啊?头疼。。 你这数据哪来的,问提供方要一份逗号分隔符位置对的不就行了 你中间的NBSP是啥字符啊?如果可以的话,用正则表达式(re)处理一下,从第二个NBSP分为两段。前面可以继续用正则处理,后面用python根据逗号分割,然后根据分割后的段数,判断是否有空缺。最后再重新写入csv文件。关键是你这个字符很奇怪,我没见过,不知道能不能用re。 了解一下pandas 我来还愿了。我把csv文件转成xls文件,然后那个nbsp就没了。然后用excel的mid函数把其他列的性别/地址截过来,再用mid函数把性别地址分开,再用VBA编程用正则表达式把原来列的性别/地址替换成空。
页:
[1]