用python3爬取52破解网的帖子列表

yuan893720647 发表于 2020-8-18 14:38

## 背景
本来高高兴兴的写了详细的步骤，点错了就没有了，反正只是个记录我就直接上源吧，精品区为例子，我平时只看精品区。

## 源码
```
import requests
from lxml import etree

x = 1
whileint(x) != 0:
x = int(input("要看第几页，关闭输入0："))
if x == 0:
   print("结束浏览")
   exit()
url = 'https://www.52pojie.cn/forum-16-'+ str(x)+'.html'

req = requests.get(url=url)
html = etree.HTML(req.text)

res = html.xpath('//*/tr/th/a')

for i in res:
   print(i.text + ': \n https://www.52pojie.cn/' + i.attrib['href'])

```

yuan893720647 发表于 2020-8-18 15:17

天蝎浪花发表于 2020-8-18 14:59
C# 能做类似工作吗？是不是没有这么多网页操作相关库受限了

这个我就不清楚了，我一般就是那个语言简单用那个，爬虫就用py，简单界面的小软件就用易语言，Windows检查脚本就用bat，毕竟我知识简单的用，深入的就不行了

涛之雨 发表于 2020-8-18 15:07

我之前还弄过跑优秀精华贴的来着。。。
结果我不是通过列表获取。是threadid++
懂么？
就是thread-xx-1-1.html这个从1开始自增
{:301_1008:}
还好刹车及时。不然就{:301_977:}
PS：正确的做法是先获取每个版块的列表然后判断标题后面的那个精华logo。

ManicStt 发表于 2020-8-18 14:40

感觉学python能做好多有趣的事情！

wangyujie96 发表于 2020-8-18 14:44

黑米觉得很淦！

FIzz001 发表于 2020-8-18 14:50

你为何这么强

丶小蓝丶 发表于 2020-8-18 14:51

恩改改就能爬很多有意思的站点

旋风中的小聪明 发表于 2020-8-18 14:53

丶小蓝丶发表于 2020-8-18 14:51
恩改改就能爬很多有意思的站点

{:1_896:}{:1_896:}{:1_896:}不会吧不会吧？难道你要

走，我们一起去爬大牛论坛

liujieaipojie 发表于 2020-8-18 14:57

你这是在玩火，苗头放吾爱上了{:1_926:} 一会一堆人拿着你的代码去跑，吾爱莫名承受一堆请求。服务器遭不住

天蝎浪花 发表于 2020-8-18 14:59

C# 能做类似工作吗？是不是没有这么多网页操作相关库受限了

yuan893720647 发表于 2020-8-18 15:11

liujieaipojie 发表于 2020-8-18 14:57
你这是在玩火，苗头放吾爱上了一会一堆人拿着你的代码去跑，吾爱莫名承受一堆请求。服务器遭不住

不至于不至于，头信息的都没有写，直接就看的出来是爬虫了，很容易就被屏蔽了

页: [1] 2

吾爱破解 - 52pojie.cn's Archiver

用python3爬取52破解网的帖子列表