double07 发表于 2021-11-17 11:01

python对文本内容计数,两个文本内容一样,计数结果不一样

本帖最后由 double07 于 2021-11-17 13:48 编辑

if __name__ == '__main__':
    f = open('./子链接.txt', 'r')   
    sl = f.readlines()
    old_lst = sl.split(',')
    new_lst = []
    for i in old_lst:
      if i not in new_lst:
            new_lst.append(i)
    print(len(new_lst))


用这段代码对文本内容计数,内容一样,结果不一样,问题出在哪儿?计数结果一个3626,另一个6056

没办法把txt文本传上来,只能看截图

文本链接:链接:https://pan.baidu.com/s/18VSepZ0wkC6tcaPLWqENVQ
提取码:az9m


kafei000 发表于 2021-11-17 11:20

你的结果不一样,说明内容不是一样的,把文件传出来。不然没得看

zxc9989 发表于 2021-11-17 11:26

应该是old_lst = sl.split(',')
sl这个位置有问题

aj.chen 发表于 2021-11-17 11:34

这俩文件的内容明显不一样啊。第一个多了很多引号

luxingyu329 发表于 2021-11-17 11:50

我觉得4 楼说的对, 你可以把文件上传到蓝奏云,放个链接上来嘛,再说了是可以上传附件的呀

无闻无问 发表于 2021-11-17 12:35

第4行?你是要处理所有行?还是只处理第一行?

茫茫狐 发表于 2021-11-17 13:06

这代码的第4行是取列表中的第一项,然后做逗号(,)分隔么
readlines()   :一次性读取整个文件内容,并按行返回到list,方便我们遍历

double07 发表于 2021-11-17 13:40

本帖最后由 double07 于 2021-11-17 13:57 编辑

luxingyu329 发表于 2021-11-17 11:50
我觉得4 楼说的对, 你可以把文件上传到蓝奏云,放个链接上来嘛,再说了是可以上传附件的呀
链接:https://pan.baidu.com/s/18VSepZ0wkC6tcaPLWqENVQ
提取码:az9m

luyers 发表于 2021-11-18 06:55

本帖最后由 luyers 于 2021-11-21 18:27 编辑

区域子链接 那个文件里面 每个链接都带引号的 而且域名后面是两个反斜杠 应该是拼接地址的时候弄的 可以考虑使用os.path.join()做地址拼接
new_lst=
new_lst=list(set(new_lst))
改成这样子应该就可以了

luyers 发表于 2021-11-18 06:58

本帖最后由 luyers 于 2021-11-21 18:29 编辑

。。。
页: [1] 2
查看完整版本: python对文本内容计数,两个文本内容一样,计数结果不一样