吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 8697|回复: 28
收起左侧

[Python 转载] Python爬取【吾爱破解】在百度中的所有收录网址与标题

[复制链接]
vsyour 发表于 2016-6-20 16:57
本帖最后由 vsyour 于 2016-6-20 17:07 编辑

哈哈,前段时间因违反论雲版规,被关小黑屋了,通过改造放出来了,最近学了点Python,就顺手为吾爱写点东西和大家一起玩玩。
同时提创大家多多爱护这个家园,这确实是个好地方,以前的看雪,吾爱,对我的帮助确实不小,先感谢下哈。
版规http://www.52pojie.cn/thread-463264-1-1.html

如果有什么需求大家跟贴啊,我尽量陪你们玩。请不要吝啬您手中的赞哦,帮我加点爱心


代码效果: 爬取.jpg

jdfw2.gif
源代码:
[Asm] 纯文本查看 复制代码
#!/usr/bin/env python
# -*- coding:utf-8 -*-
'''
尝试52pojie.cn爬取百度对网站收录的所有链接
其他功能以后再慢慢玩。哈哈
有什么需求可以跟贴提出,记得帮我加点【CB】哦
'''

import requests
from random import randint
from bs4 import BeautifulSoup
import re
import datetime
import sys

reload(sys)
sys.setdefaultencoding("utf-8")

HEADERS = {
        "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36",
        "X-Forwarded-For": '%s:%s:%s:%s' % (randint(1, 255),
                                                                                randint(1, 255), randint(1, 255), randint(1, 255)),
        "Content-Type": "application/x-www-form-urlencoded",
        "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
        "Connection": "keep-alive"}

# print HEADERS
start_time = datetime.datetime.now()  # 取当前时间
print (u'[-] 现在时间:%s') % start_time

for pn in range(0, 750, 10):
        print ('第【%s】页')%pn
        url_a = 'https://www.baidu.com/s?wd=site%3A52pojie.cn&pn='
        url_b = '&oq=site%3A52pojie.cn&ie=utf-8&usm=1&rsv_idx=1&rsv_pq=dd6157d100015d1f&rsv_t=9a3eHncH3YeAeoblNqMm1f3%2FAQsJeSgF03XLXg6VDz6VqSprqUL8lGGO3us'
        joinUrl = url_a + str(pn) + url_b
        # print joinUrl   #拼接URL
        html_Doc = requests.get(joinUrl, headers=HEADERS).content  # 从Url 中取回网站源码
        html_Soup = BeautifulSoup(html_Doc, 'html.parser', from_encoding='utf-8')
        all_H3 = html_Soup.findAll('h3', attrs={'class': 't'})  # 取所有H3标签中class为t的所有元系
        print (u'[+] 此页共找到%s条数据!') % len(all_H3)

        for each in all_H3[0:]:
                # print each
                link = re.findall(r'" href="(.*?)" target="_blank">.*?</a></h3>', str(each), re.S)
                title = re.findall(r'" href=".*?" target="_blank">(.*?)</a>', str(each), re.S)
                print '[-] 标题:%s 链接:%s'%(str(title[0]), str(link[0]))





代码引入了以下几个模块,需要先安装才能跑起来。
BeautifulSouprequests这两个模块估计你得自己安装一下。
[Python] 纯文本查看 复制代码
pip install BeautifulSoup
pip install requests




免费评分

参与人数 5吾爱币 +1 热心值 +5 收起 理由
尾叶 + 1 + 1 谢谢@Thanks!
shenlw + 1 感谢发布原创作品,吾爱破解论坛因你更精彩!
wi5101 + 1 用心讨论,共获提升!
jyjjf + 1 有代码这个好
jaffa + 1 谢谢@Thanks!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

拜伦 发表于 2016-6-20 17:07
抓取其他网站 是不是把源码代码

&oq=site%3A52pojie.cn&ie=utf-8&usm=1&rsv_idx=1&rsv_pq=dd6157d100015d1f&rsv_t=9a3eHncH3YeAeoblNqMm1f3%2FAQsJeSgF03XLXg6VDz6VqSprqUL8lGGO3us

改成

&oq=site%3A网站地址&ie=utf-8&usm=1&rsv_idx=1&rsv_pq=dd6157d100015d1f&rsv_t=9a3eHncH3YeAeoblNqMm1f3%2FAQsJeSgF03XLXg6VDz6VqSprqUL8lGGO3us
 楼主| vsyour 发表于 2016-6-20 17:31
拜伦 发表于 2016-6-20 17:27
其实我想问的是 BeautifulSoup and requests  这两个模块是去 github 去下载吗  我找不到唉 能分享下吗

请参考:
BeautifulSoup :https://www.crummy.com/software/BeautifulSoup/bs4/doc/
requests  :http://www.python-requests.org/en/master/
 楼主| vsyour 发表于 2016-6-20 16:57
 楼主| vsyour 发表于 2016-6-20 17:11
拜伦 发表于 2016-6-20 17:07
抓取其他网站 是不是把源码代码

&oq=site%3A52pojie.cn&ie=utf-8&usm=1&rsv_idx=1&rsv_pq=dd6157d100015 ...

是的。试下把URL换掉就可以了。或者你直接把52pojie.cn换成你要爬取的试试看。
拜伦 发表于 2016-6-20 17:14
vsyour 发表于 2016-6-20 17:11
是的。试下把URL换掉就可以了。或者你直接把52pojie.cn换成你要爬取的试试看。

BeautifulSoup and requests 这两个模块 去网上找然后通过pip 安装吗
 楼主| vsyour 发表于 2016-6-20 17:18
拜伦 发表于 2016-6-20 17:14
BeautifulSoup and requests 这两个模块 去网上找然后通过pip 安装吗

pip是安装模块的工具,就同平常系统里面用到的apt-get 或者yum命令一样的。
系统中如果没有pip工具的话就需要安装一下,安装方法可以是apt-get install pip或者yum -y install pip

然后就能用pip安装模块了。
jim007200 发表于 2016-6-20 17:23
尽然没用多线程……
bj1686 发表于 2016-6-20 17:27
有啥用处啊?
拜伦 发表于 2016-6-20 17:27
vsyour 发表于 2016-6-20 17:18
pip是安装模块的工具,就同平常系统里面用到的apt-get 或者yum命令一样的。
系统中如果没有pip工具的话 ...

其实我想问的是 BeautifulSoup and requests  这两个模块是去 github 去下载吗  我找不到唉 能分享下吗
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-15 12:52

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表