小小爬虫之突破反爬虫限制重写javascript函数

罂粟花 · 发表于 2016-12-29 14:29

交流交流爬取网站碰到的坑~
废话少说直接上代码

[Python] 纯文本查看 复制代码

import requests
from lxml import etree
import base64

url = 'http://www.cool-proxy.net/proxies/http_proxy_list/sort:score/direction:desc'

response = requests.get(url).content

root = etree.HTML(response)
proxys = root.xpath('//*[@id="main"]/table/tr[position()>1 and position()<23]')
def func(a):[color=#ff0000]#同等javascript的function str_rot13，javascript函数请看图片[/color]
    if a.isdigit():
        return a
    if a.lower() < 'n':
        return chr(ord(a) + 13)[color=#ff0000]#chr()和ord()这两个函数百度吧~，很详细[/color]
    else:
        return chr(ord(a) - 13)
for i in proxys:
    try:
        ip = i.xpath('./td[1]/script/text()')
        if not ip:
            continue
        ports = i.xpath('./td[2]/text()')
        if not ports:
            continue
        port = ports[0]
        ip = ip[0].replace('document.write(Base64.decode(str_rot13("','').replace('")))','')
        ip = ''.join(map(func,ip))
        ip = base64.b64decode(ip).strip(' I')[color=#ff0000]#莫名其妙的解码后后缀会有“ I”，没仔细看哪的问题~所以用strip过滤[/color]
        print ip
    except Exception,e:
        print e

howsk · 发表于 2016-12-29 14:52

讲真，用xpath做提取的话，确实比re要方便很多，不过这只是我个人认为的咯。

小阿毛 · 发表于 2016-12-29 14:47

有Java版吗？

秒天秒地秒空气 · 发表于 2016-12-29 15:47

提示: 作者被禁止或删除内容自动屏蔽

帐号		自动登录	找回密码
密码			注册[Register]

秒天秒地秒空气秒天秒地秒空气当前离线好友阅读权限 0 听众最后登录 1970-1-1 头像被屏蔽	秒天秒地秒空气发表于 2016-12-29 15:47 《站点帮助文档》有什么问题来这里看看吧，这里有你想知道的内容！提示: 作者被禁止或删除内容自动屏蔽
	呼吁大家发布原创作品添加吾爱破解论坛标识！
	回复支持举报

[Web逆向] 小小爬虫之突破反爬虫限制重写javascript函数

本帖被以下淘专辑推荐: