python中文分词后我想给每个词加上数字，有没有神哥可以敲敲代码

zhb1996 发表于 2020-11-24 11:26

本帖最后由 zhb1996 于 2020-11-24 12:58 编辑

我本来想用遍历，可是遍历完每行就不是一个文档，
成了
“链路45
由及45
实现45”
这种形式
分词数据我放网盘吧
这里附件还要币{:1_909:}
链接：https://pan.baidu.com/s/1ruFcbrggEvFTl1gTmZCLcQ
提取码：30ep
复制这段内容后打开百度网盘手机App，操作更方便哦

globlefaster 发表于 2020-11-24 12:25

按行进行读文件即可，不需要加数字，个人认为加数字没意义

如果加数字，则也是按行读，加完数据再按行写进去即可，readLine wirteLine

JiuRu 发表于 2020-11-24 12:39

谢谢你的分享

细水流长 发表于 2020-11-24 12:41

塞北的雪 发表于 2020-11-24 14:57

( |\n|$)
替换为
45 \1

xingzhui 发表于 2020-11-24 15:18

#python 3

import random
import re

with open('src.txt','r',encoding='utf-8') as src_f:
lines = src_f.readlines()
for line in lines:
   words = re.split(' ',line)
   num = random.randint(1,10)
   for word in words:
         # 处理末尾换行符
         if re.findall('.*\n',word) != []:
            result = re.findall('.*',word)+str(num)+'\n'
         else:
            result = word+str(num)+' '
         with open('dsc.txt','a',encoding='utf-8') as dsc_f:
            dsc_f.write(result )

xingzhui 发表于 2020-11-24 15:21

xingzhui 发表于 2020-11-24 15:18
#python 3

import random

链路又及实现通信
你好小明
小红小刚小六
耶稣众神

链路4 又及4 实现4 通信4
你好10 小明10
小红6 小刚6 小六6
耶稣6 众神6

gongsui 发表于 2020-11-24 15:30

我有个思路不知道对不对。
将横竖转换一下，再用sublime插入列数据，再重新横竖换回来。

super谦 发表于 2020-11-24 17:03

不知道是不是这样，我也把我的写上来吧。
f = open(r'C:\Users\superqq\Downloads\分词数据1.txt', encoding='utf-8')
a = f.read()
f.close()

b =

c = " ".join(b)

f_w = open(r'C:\Users\superqq\Downloads\分词数据2.txt', 'w', encoding='utf-8')
f_w.write(c)
f_w.close()

zhb1996 发表于 2020-11-24 19:57

super谦发表于 2020-11-24 17:03
不知道是不是这样，我也把我的写上来吧。
f = open(r'C:%users\superqq\Downloads\分词数据1.txt', encodi ...

非常感谢啊，我就是想这样搞:'(weeqw可算找到救星了，谢谢你啊{:1_893:}{:1_932:}

页: [1] 2

吾爱破解 - 52pojie.cn's Archiver

python中文分词后我想给每个词加上数字，有没有神哥可以敲敲代码