zhb1996 发表于 2020-11-24 11:26

python中文分词后我想给每个词加上数字,有没有神哥可以敲敲代码

本帖最后由 zhb1996 于 2020-11-24 12:58 编辑

我本来想用遍历,可是遍历完每行就不是一个文档,
成了
“链路45
由及45
实现45”
这种形式
分词数据我放网盘吧
这里附件还要币{:1_909:}
链接:https://pan.baidu.com/s/1ruFcbrggEvFTl1gTmZCLcQ
提取码:30ep
复制这段内容后打开百度网盘手机App,操作更方便哦

globlefaster 发表于 2020-11-24 12:25

按行进行读文件即可,不需要加数字,个人认为加数字没意义

如果加数字,则也是按行读,加完数据再按行写进去即可,readLine wirteLine

JiuRu 发表于 2020-11-24 12:39

谢谢你的分享

细水流长 发表于 2020-11-24 12:41

塞北的雪 发表于 2020-11-24 14:57

( |\n|$)
替换为
45 \1

xingzhui 发表于 2020-11-24 15:18

#python 3

import random
import re

with open('src.txt','r',encoding='utf-8') as src_f:
    lines = src_f.readlines()
    for line in lines:
      words = re.split(' ',line)
      num = random.randint(1,10)
      for word in words:
            # 处理末尾换行符
            if re.findall('.*\n',word) != []:
                result = re.findall('.*',word)+str(num)+'\n'
            else:
                result = word+str(num)+' '
            with open('dsc.txt','a',encoding='utf-8') as dsc_f:
                dsc_f.write(result )

xingzhui 发表于 2020-11-24 15:21

xingzhui 发表于 2020-11-24 15:18
#python 3

import random


链路 又及 实现 通信
你好 小明
小红 小刚 小六
耶稣 众神

链路4 又及4 实现4 通信4
你好10 小明10
小红6 小刚6 小六6
耶稣6 众神6

gongsui 发表于 2020-11-24 15:30

我有个思路不知道对不对。
将横竖转换一下,再用sublime插入列数据,再重新横竖换回来。

super谦 发表于 2020-11-24 17:03

不知道是不是这样,我也把我的写上来吧。
f = open(r'C:\Users\superqq\Downloads\分词数据1.txt', encoding='utf-8')
a = f.read()
f.close()

b =

c = " ".join(b)

f_w = open(r'C:\Users\superqq\Downloads\分词数据2.txt', 'w', encoding='utf-8')
f_w.write(c)
f_w.close()

zhb1996 发表于 2020-11-24 19:57

super谦 发表于 2020-11-24 17:03
不知道是不是这样,我也把我的写上来吧。
f = open(r'C:%users\superqq\Downloads\分词数据1.txt', encodi ...

非常感谢啊,我就是想这样搞:'(weeqw可算找到救星了,谢谢你啊{:1_893:}{:1_932:}
页: [1] 2
查看完整版本: python中文分词后我想给每个词加上数字,有没有神哥可以敲敲代码