吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 1406|回复: 13
收起左侧

[求助] PYTHON 问一下这段文本如何获取!?

[复制链接]
hahawangzi 发表于 2020-6-5 14:59
url2 = "https://bbs.3dmgame.com/"
    headers = {
   
         'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36',
         #'Referer':"https://bbs.3dmgame.com"
         
        }
    r2 = requests.get(url2+page,headers=headers)
    table2 = BeautifulSoup(r2.text,'lxml')
    soup=table2.find('td',class_="t_f",id=re.compile("postmessage_\d+$"))
    for s in soup.text:
        if re.findall(".*游戏名称:(.*).*",s):
            print(re.findall(".*游戏名称:(.*).*",s))
下午Strong的文本 可以通过 遍历 dvi align=center 获得 ,但是 “战斗坦克2.。”这段在strong外面的文本 获取不了。
正则表达是也写不好 求教!!!!
网址是https://bbs.3dmgame.com/thread-6050453-1-1.html
捕获.JPG

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

Zeaf 发表于 2020-6-5 15:33
那里不还有个<br>吗
而且*后面加个?是不是好些,非贪婪模式
yuhan694 发表于 2020-6-5 15:39
[Python] 纯文本查看 复制代码
url = "https://bbs.3dmgame.com/thread-6050453-1-1.html"
headers={
"user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"
}
html = requests.get(url,headers=headers).text
html_new = etree.HTML(html)
details = html_new.xpath('//td[@id="postmessage_253791392"]/text()')
for detail in details:
    print(detail)


是想取这段吗 微信截图_20200605153929.png
xiaonaimaoya 发表于 2020-6-5 15:42
kof21411 发表于 2020-6-5 15:42
先用split("<br>")分割,遍历 再用split("</strong>")分割,就能分别获得 ”游戏名称“和”战斗坦克2xxxxx“
Vode 发表于 2020-6-5 15:47
这种解析xpath比较方便
天依飞扬 发表于 2020-6-5 15:54
xpath绝对是最方便的。
diyikuai 发表于 2020-6-5 15:56
路过学习一下,哈哈
明明很皮 发表于 2020-6-5 16:17
简单做了下
太空机器人.png
fanvalen 发表于 2020-6-5 21:52
单独用re 是因为他跨了行要在行结尾加上\s*才能继续匹配内容,<strong>游戏名称<\strong>\s*(.*)
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-26 15:50

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表