yuan893720647 发表于 2020-8-18 14:38

用python3爬取52破解网的帖子列表

## 背景
本来高高兴兴的写了详细的步骤,点错了就没有了,反正只是个记录我就直接上源吧,精品区为例子,我平时只看精品区。

## 源码
```
import requests
from lxml import etree

x = 1
whileint(x) != 0:
    x = int(input("要看第几页,关闭输入0:"))
    if x == 0:
      print("结束浏览")
      exit()
    url = 'https://www.52pojie.cn/forum-16-'+ str(x)+'.html'

    req = requests.get(url=url)
    html = etree.HTML(req.text)

    res = html.xpath('//*/tr/th/a')

    for i in res:
      print(i.text + ': \n https://www.52pojie.cn/' + i.attrib['href'])

```

yuan893720647 发表于 2020-8-18 15:17

天蝎浪花 发表于 2020-8-18 14:59
C# 能做类似工作吗?是不是没有这么多网页操作相关库受限了

这个我就不清楚了,我一般就是那个语言简单用那个,爬虫就用py,简单界面的小软件就用易语言,Windows检查脚本就用bat,毕竟我知识简单的用,深入的就不行了

涛之雨 发表于 2020-8-18 15:07

我之前还弄过跑优秀精华贴的来着。。。
结果我不是通过列表获取。是threadid++
懂么?
就是thread-xx-1-1.html这个从1开始自增
{:301_1008:}
还好刹车及时。不然就{:301_977:}
PS:正确的做法是先获取每个版块的列表然后判断标题后面的那个精华logo。

ManicStt 发表于 2020-8-18 14:40

感觉学python能做好多有趣的事情!

wangyujie96 发表于 2020-8-18 14:44

黑米觉得很淦!

FIzz001 发表于 2020-8-18 14:50

你为何这么强

丶小蓝丶 发表于 2020-8-18 14:51

恩改改就能爬很多有意思的站点

旋风中的小聪明 发表于 2020-8-18 14:53

丶小蓝丶 发表于 2020-8-18 14:51
恩改改就能爬很多有意思的站点

{:1_896:}{:1_896:}{:1_896:}不会吧不会吧?难道你要






走,我们一起去爬大牛论坛

liujieaipojie 发表于 2020-8-18 14:57

你这是在玩火,苗头放吾爱上了{:1_926:} 一会一堆人拿着你的代码去跑,吾爱莫名承受一堆请求。服务器遭不住

天蝎浪花 发表于 2020-8-18 14:59

C# 能做类似工作吗?是不是没有这么多网页操作相关库受限了

yuan893720647 发表于 2020-8-18 15:11

liujieaipojie 发表于 2020-8-18 14:57
你这是在玩火,苗头放吾爱上了 一会一堆人拿着你的代码去跑,吾爱莫名承受一堆请求。服务器遭不住

不至于不至于,头信息的都没有写,直接就看的出来是爬虫了,很容易就被屏蔽了
页: [1] 2
查看完整版本: 用python3爬取52破解网的帖子列表