用python3爬取52破解网的帖子列表
## 背景本来高高兴兴的写了详细的步骤,点错了就没有了,反正只是个记录我就直接上源吧,精品区为例子,我平时只看精品区。
## 源码
```
import requests
from lxml import etree
x = 1
whileint(x) != 0:
x = int(input("要看第几页,关闭输入0:"))
if x == 0:
print("结束浏览")
exit()
url = 'https://www.52pojie.cn/forum-16-'+ str(x)+'.html'
req = requests.get(url=url)
html = etree.HTML(req.text)
res = html.xpath('//*/tr/th/a')
for i in res:
print(i.text + ': \n https://www.52pojie.cn/' + i.attrib['href'])
``` 天蝎浪花 发表于 2020-8-18 14:59
C# 能做类似工作吗?是不是没有这么多网页操作相关库受限了
这个我就不清楚了,我一般就是那个语言简单用那个,爬虫就用py,简单界面的小软件就用易语言,Windows检查脚本就用bat,毕竟我知识简单的用,深入的就不行了 我之前还弄过跑优秀精华贴的来着。。。
结果我不是通过列表获取。是threadid++
懂么?
就是thread-xx-1-1.html这个从1开始自增
{:301_1008:}
还好刹车及时。不然就{:301_977:}
PS:正确的做法是先获取每个版块的列表然后判断标题后面的那个精华logo。 感觉学python能做好多有趣的事情! 黑米觉得很淦! 你为何这么强 恩改改就能爬很多有意思的站点 丶小蓝丶 发表于 2020-8-18 14:51
恩改改就能爬很多有意思的站点
{:1_896:}{:1_896:}{:1_896:}不会吧不会吧?难道你要
走,我们一起去爬大牛论坛 你这是在玩火,苗头放吾爱上了{:1_926:} 一会一堆人拿着你的代码去跑,吾爱莫名承受一堆请求。服务器遭不住 C# 能做类似工作吗?是不是没有这么多网页操作相关库受限了 liujieaipojie 发表于 2020-8-18 14:57
你这是在玩火,苗头放吾爱上了 一会一堆人拿着你的代码去跑,吾爱莫名承受一堆请求。服务器遭不住
不至于不至于,头信息的都没有写,直接就看的出来是爬虫了,很容易就被屏蔽了
页:
[1]
2