python使用北大开源分词工具pkuseg求助
想使用pkeseg分词工具,安装没问题,试过对字符串分词也ok但是对文件分词的时候确报错了,求助大佬支援
import pkuseg
#txt = open('C:/Users/SNT-QXQ/Desktop/经营范围0.txt','r',encoding='gb18030',errors='ignore').read()
path ='C:/Users/SNT-QXQ/Desktop/经营范围0.txt'
txt = open(path, encoding='gb18030', errors='ignore').read()
out = 'C:/Users/SNT-QXQ/Desktop/cut.txt'
pkuseg.test(txt,out)
报错如下:
Traceback (most recent call last):
File "C:/Users/SNT-QXQ/AppData/Roaming/JetBrains/PyCharmCE2020.1/scratches/scratch_1.py", line 7, in <module>
pkuseg.test(txt,out)
File "D:\Software\ANACONDA\lib\site-packages\pkuseg\__init__.py", line 551, in test
input_file, output_file, nthread, model_name, user_dict, postag, verbose
File "D:\Software\ANACONDA\lib\site-packages\pkuseg\__init__.py", line 474, in _test_multi_proc
if not os.path.exists(input_file):
File "D:\Software\ANACONDA\lib\genericpath.py", line 19, in exists
os.stat(path)
ValueError: stat: path too long for Windows
文件是用UTF-8编码的吗?不是就另存为,然后选UTF-8试试 错误提示不是说了文件路径太长了吗 文件路径不要有中文
文件路径不要有中文
文件路径不要有中文 缩短文件的存放路径,然后把文件的中文名改成英文试试。 我查了一下好像是你的路劲问题使用反斜杠/
py windows下要使用\
也就是c:\\user\\%username%\\desktop\\xxx.txt
每个分段符要\\不能\ kof21411 发表于 2020-8-19 17:10
文件路径不要有中文
文件路径不要有中文
文件路径不要有中文
改英文了,还是不行 fanvalen 发表于 2020-8-19 21:13
我查了一下好像是你的路劲问题使用反斜杠/
py windows下要使用\
也就是c:\%user\\%username%\\desktop\\x ...
试过了,还是不行欸 D.A. 发表于 2020-8-20 09:02
试过了,还是不行欸
把你路劲改成c:\\0.txt和c:\\out.txt
又或者把文件复制到源代码目录下,使用.\0.txt和.\out.txt
pkuseg.test(in.txt,out.txt,nthread=20)原本用法是这样,还有一个线程参数,不知道会不会因为没有所以参数错误
页:
[1]