吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 1475|回复: 9
收起左侧

[求助] python使用北大开源分词工具pkuseg求助

[复制链接]
D.A. 发表于 2020-8-19 16:28
想使用pkeseg分词工具,安装没问题,试过对字符串分词也ok
但是对文件分词的时候确报错了,求助大佬支援
[Python] 纯文本查看 复制代码
import pkuseg
#txt = open('C:/Users/SNT-QXQ/Desktop/经营范围0.txt','r',encoding='gb18030',errors='ignore').read()
path ='C:/Users/SNT-QXQ/Desktop/经营范围0.txt'
txt = open(path, encoding='gb18030', errors='ignore').read()
out = 'C:/Users/SNT-QXQ/Desktop/cut.txt'
pkuseg.test(txt,out)


报错如下:
Traceback (most recent call last):
  File "C:/Users/SNT-QXQ/AppData/Roaming/JetBrains/PyCharmCE2020.1/scratches/scratch_1.py", line 7, in <module>
    pkuseg.test(txt,out)
  File "D:\Software\ANACONDA\lib\site-packages\pkuseg\__init__.py", line 551, in test
    input_file, output_file, nthread, model_name, user_dict, postag, verbose
  File "D:\Software\ANACONDA\lib\site-packages\pkuseg\__init__.py", line 474, in _test_multi_proc
    if not os.path.exists(input_file):
  File "D:\Software\ANACONDA\lib\genericpath.py", line 19, in exists
    os.stat(path)
ValueError: stat: path too long for Windows

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

WoShiXXX 发表于 2020-8-19 16:58
文件是用UTF-8编码的吗?不是就另存为,然后选UTF-8试试
从0开始的小小怪 发表于 2020-8-19 17:00
kof21411 发表于 2020-8-19 17:10
文件路径不要有中文
文件路径不要有中文
文件路径不要有中文
ycantwxf 发表于 2020-8-19 17:25
缩短文件的存放路径,然后把文件的中文名改成英文试试。
fanvalen 发表于 2020-8-19 21:13
我查了一下好像是你的路劲问题使用反斜杠/
py windows下要使用\
也就是c:\\user\\%username%\\desktop\\xxx.txt
每个分段符要\\不能\
 楼主| D.A. 发表于 2020-8-20 08:59
kof21411 发表于 2020-8-19 17:10
文件路径不要有中文
文件路径不要有中文
文件路径不要有中文

改英文了,还是不行
 楼主| D.A. 发表于 2020-8-20 09:02
fanvalen 发表于 2020-8-19 21:13
我查了一下好像是你的路劲问题使用反斜杠/
py windows下要使用\
也就是c:\%user\\%username%\\desktop\\x ...

试过了,还是不行欸
fanvalen 发表于 2020-8-20 11:39
D.A. 发表于 2020-8-20 09:02
试过了,还是不行欸

把你路劲改成c:\\0.txt和c:\\out.txt
又或者把文件复制到源代码目录下,使用.\0.txt和.\out.txt
fanvalen 发表于 2020-8-20 11:42
pkuseg.test(in.txt,out.txt,nthread=20)原本用法是这样,还有一个线程参数,不知道会不会因为没有所以参数错误
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-26 13:37

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表