吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 1358|回复: 12
收起左侧

[求助] python中文分词后我想给每个词加上数字,有没有神哥可以敲敲代码

[复制链接]
zhb1996 发表于 2020-11-24 11:26
本帖最后由 zhb1996 于 2020-11-24 12:58 编辑

我本来想用遍历,可是遍历完每行就不是一个文档,
成了
“链路45
由及45
实现45”
这种形式
分词数据我放网盘吧
这里附件还要币
链接:https://pan.baidu.com/s/1ruFcbrggEvFTl1gTmZCLcQ
提取码:30ep
复制这段内容后打开百度网盘手机App,操作更方便哦

分词数据

分词数据

这是分完词的文档,每一行代表一个文档

这是分完词的文档,每一行代表一个文档

我想做成下图这样的形式,就是每个词后边加上数字,但要保持每行一个代表一个文档,与原先相比就是多了个数 ...

我想做成下图这样的形式,就是每个词后边加上数字,但要保持每行一个代表一个文档,与原先相比就是多了个数 ...

分词数据1.txt

5.09 KB, 下载次数: 1, 下载积分: 吾爱币 -1 CB

我把分好的词放在这里了,哪个哥哥可以帮帮忙

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

globlefaster 发表于 2020-11-24 12:25
按行进行读文件即可,不需要加数字,个人认为加数字没意义

如果加数字,则也是按行读,加完数据再按行写进去即可,readLine wirteLine
JiuRu 发表于 2020-11-24 12:39
头像被屏蔽
细水流长 发表于 2020-11-24 12:41
塞北的雪 发表于 2020-11-24 14:57
[Plain Text] 纯文本查看 复制代码
( |\n|$)

替换为
[Plain Text] 纯文本查看 复制代码
45 \1
xingzhui 发表于 2020-11-24 15:18
#python 3

import random
import re

with open('src.txt','r',encoding='utf-8') as src_f:
    lines = src_f.readlines()
    for line in lines:
        words = re.split(' ',line)
        num = random.randint(1,10)
        for word in words:
            # 处理末尾换行符
            if re.findall('.*\n',word) != []:
                result = re.findall('.*',word)[0]+str(num)+'\n'
            else:
                result = word+str(num)+' '
            with open('dsc.txt','a',encoding='utf-8') as dsc_f:
                dsc_f.write(result )
xingzhui 发表于 2020-11-24 15:21
xingzhui 发表于 2020-11-24 15:18
#python 3

import random

链路 又及 实现 通信
你好 小明
小红 小刚 小六
耶稣 众神

链路4 又及4 实现4 通信4
你好10 小明10
小红6 小刚6 小六6
耶稣6 众神6
gongsui 发表于 2020-11-24 15:30
我有个思路不知道对不对。
将横竖转换一下,再用sublime插入列数据,再重新横竖换回来。
super谦 发表于 2020-11-24 17:03
不知道是不是这样,我也把我的写上来吧。
f = open(r'C:\Users\superqq\Downloads\分词数据1.txt', encoding='utf-8')
a = f.read()
f.close()

b = [i+'45' for i in a.split(' ')]

c = " ".join(b)

f_w = open(r'C:\Users\superqq\Downloads\分词数据2.txt', 'w', encoding='utf-8')
f_w.write(c)
f_w.close()

处理完是这样的

处理完是这样的

分词数据2.txt

6.45 KB, 下载次数: 0, 下载积分: 吾爱币 -1 CB

处理完保存后的文件

 楼主| zhb1996 发表于 2020-11-24 19:57
super谦 发表于 2020-11-24 17:03
不知道是不是这样,我也把我的写上来吧。
f = open(r'C:%users\superqq\Downloads\分词数据1.txt', encodi ...

非常感谢啊,我就是想这样搞可算找到救星了,谢谢你啊
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-26 10:38

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表