D.A. 发表于 2020-8-19 16:28

python使用北大开源分词工具pkuseg求助

想使用pkeseg分词工具,安装没问题,试过对字符串分词也ok
但是对文件分词的时候确报错了,求助大佬支援

import pkuseg
#txt = open('C:/Users/SNT-QXQ/Desktop/经营范围0.txt','r',encoding='gb18030',errors='ignore').read()
path ='C:/Users/SNT-QXQ/Desktop/经营范围0.txt'
txt = open(path, encoding='gb18030', errors='ignore').read()
out = 'C:/Users/SNT-QXQ/Desktop/cut.txt'
pkuseg.test(txt,out)


报错如下:
Traceback (most recent call last):
File "C:/Users/SNT-QXQ/AppData/Roaming/JetBrains/PyCharmCE2020.1/scratches/scratch_1.py", line 7, in <module>
    pkuseg.test(txt,out)
File "D:\Software\ANACONDA\lib\site-packages\pkuseg\__init__.py", line 551, in test
    input_file, output_file, nthread, model_name, user_dict, postag, verbose
File "D:\Software\ANACONDA\lib\site-packages\pkuseg\__init__.py", line 474, in _test_multi_proc
    if not os.path.exists(input_file):
File "D:\Software\ANACONDA\lib\genericpath.py", line 19, in exists
    os.stat(path)
ValueError: stat: path too long for Windows

WoShiXXX 发表于 2020-8-19 16:58

文件是用UTF-8编码的吗?不是就另存为,然后选UTF-8试试

从0开始的小小怪 发表于 2020-8-19 17:00

错误提示不是说了文件路径太长了吗

kof21411 发表于 2020-8-19 17:10

文件路径不要有中文
文件路径不要有中文
文件路径不要有中文

ycantwxf 发表于 2020-8-19 17:25

缩短文件的存放路径,然后把文件的中文名改成英文试试。

fanvalen 发表于 2020-8-19 21:13

我查了一下好像是你的路劲问题使用反斜杠/
py windows下要使用\
也就是c:\\user\\%username%\\desktop\\xxx.txt
每个分段符要\\不能\

D.A. 发表于 2020-8-20 08:59

kof21411 发表于 2020-8-19 17:10
文件路径不要有中文
文件路径不要有中文
文件路径不要有中文

改英文了,还是不行

D.A. 发表于 2020-8-20 09:02

fanvalen 发表于 2020-8-19 21:13
我查了一下好像是你的路劲问题使用反斜杠/
py windows下要使用\
也就是c:\%user\\%username%\\desktop\\x ...

试过了,还是不行欸

fanvalen 发表于 2020-8-20 11:39

D.A. 发表于 2020-8-20 09:02
试过了,还是不行欸

把你路劲改成c:\\0.txt和c:\\out.txt
又或者把文件复制到源代码目录下,使用.\0.txt和.\out.txt

fanvalen 发表于 2020-8-20 11:42

pkuseg.test(in.txt,out.txt,nthread=20)原本用法是这样,还有一个线程参数,不知道会不会因为没有所以参数错误
页: [1]
查看完整版本: python使用北大开源分词工具pkuseg求助