爬虫请教UBB代码

ok667 · 发表于 2023-8-8 01:00

import requests

url = 'http://www.dpxq.com/hldcg/search/view_u_1749080.html'
response = requests.get(url)
content = response.text

start_index = content.find('[DhtmlXQ]')
end_index = content.find('[/DhtmlXQ]') + len('[/DhtmlXQ]')
ubb_code = content[start_index:end_index]

with open('E:\\DPXQ\\ubb_code.txt', 'w', encoding='utf-8') as f:
f.write(ubb_code)

====================
以上代码本意是想实现：用python爬取网页http://www.dpxq.com/hldcg/search/view_u_1749080.html的源代码中，从[DhtmlXQ]开始，到[/DhtmlXQ]结束的UBB代码，并保存到本地E盘DPXQ文件夹里。

请教代码问题出在什么地方？如何修改？

Stuzar · 发表于 2023-8-8 11:04

本帖最后由 Stuzar 于 2023-8-8 11:05 编辑

加个headers应该就可以

[Python] 纯文本查看 复制代码

import requests
url = 'http://www.dpxq.com/hldcg/search/view_u_1749080.html'
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:109.0) Gecko/20100101 Firefox/116.0'
}
response = requests.get(url,headers=headers)
content = response.text

start_index = content.find('[DhtmlXQ]')
end_index = content.find('[/DhtmlXQ]') + len('[/DhtmlXQ]')
ubb_code = content[start_index:end_index]

with open('E:\\DPXQ\\ubb_code.txt', 'w', encoding='utf-8') as f:
    f.write(ubb_code)

milu1123 · 发表于 2023-8-8 11:05

没有明白你想要修改的是什么

大白baymax · 发表于 2023-8-8 11:10

二楼说的已经很明了了，加个headers，模拟浏览器发送请求就可以了。

ufo0033 · 发表于 2023-8-8 11:34

[Python] 纯文本查看 复制代码

url = 'http://www.dpxq.com/hldcg/search/view_u_1749080.html'
headers = {
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7",
    "Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6",
    "Cache-Control": "no-cache",
    "Connection": "keep-alive",
    "Pragma": "no-cache",
    "Upgrade-Insecure-Requests": "1",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36 Edg/115.0.1901.183"
}
response = requests.get(url,headers=headers)

中间修改下

zhangrun2024 · 发表于 2023-8-8 12:56

请求头加上headers，把浏览器useragent加上应该模拟浏览器爬取应该可以，如果不行就要逆向

zhuxiangyu1024 · 发表于 2023-8-8 13:21

前面楼层已经说完了，但是我还是要建议一下，提问要描述问题，不能让人来找问题。比如，假如你这请求没有header返回了500，你描述一下其他人可能都不需要试一下代码都能猜到大概的原因。

ok667 · 发表于 2023-8-8 13:36

Stuzar 发表于 2023-8-8 11:04
加个headers应该就可以

谢谢解答，但是运行后，ubb_code.txt还是0k

ok667 · 发表于 2023-8-8 13:38

ufo0033 发表于 2023-8-8 11:34
[mw_shl_code=python,true]url = 'http://www.dpxq.com/hldcg/search/view_u_1749080.html'
headers = {
...

谢谢解答，但是运行后，ubb_code.txt还是0k

ok667 · 发表于 2023-8-8 13:39

zhangrun2024 发表于 2023-8-8 12:56
请求头加上headers，把浏览器useragent加上应该模拟浏览器爬取应该可以，如果不行就要逆向

逆向还不懂

帐号		自动登录	找回密码
密码			注册[Register]

[求助] 爬虫请教UBB代码