吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 3117|回复: 8
上一主题 下一主题
收起左侧

[求助] 求助selenium爬取网页时空白,应该用哪种方法解决?

[复制链接]
跳转到指定楼层
楼主
超正义的小煌 发表于 2021-5-12 18:15 回帖奖励
我放弃了使用urllib3和bs4进行网页爬取,爬取下来的数据都是这种乱码
<script type="text/javascript" src="https://cache101.ic.net.cn/media/javascript/q.js?v=1616807238"></script><script type="text/javascript" src="https://cache101.ic.net.cn/media/javascript/w.js?v=1616807238"></script><script type="text/javascript">var rind="xajgxs=GtaRLNR;g\"ds";var rnns//@$%%&*(3746)(&(^%^
            /*
            bBtdze\"=""*/="4UZ"
            ;//ashjgfgf
            rind
                        //fewfwe3232
                        =268;
                        /*423rfewfwe*/
                       //fegrbnn4325;543
                    dfsind=
                    /**//**/946;
            rind=/*
            @#%$^&%$96667r45fggbh
            IgSuM3lq*//**//**/1//e9IHwMaB
            ;"#@$#%@#aarDwjDvjCkV02hu";592659
            /*
            rind=/*
                        //fewfwe3232
                        =37*//*423rfewfwe*/
                       //fegrbnn4325;543
                    /*rind=
                546;*/</script><script type="text/javascript">sEnc();</script><script type="text/javascript">window.onload=function(){location.href=location.href}</script>
于是我就想到了使用selenium自动化进行获取数据,代码运行后,自动打开该页面出现了空白


然后我就想会不会是因为上面出现了Chrome正受到自动测试软件的控制这几个字触发了反爬机制,于是我就去掉了这个几个字,还是不行,页面还是空白(谷歌版本:Chrome/90.0.4430.212


请求帮忙,拜托了,我搞了好久没能解决,现在一直在想这个问题,谢谢早上的大佬的回答,拜托大佬们。

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

沙发
chooper 发表于 2021-5-12 18:38
放链接来看看
3#
南归不NG 发表于 2021-5-12 18:45
4#
 楼主| 超正义的小煌 发表于 2021-5-12 18:48 |楼主

我已经私法大佬你链接了,网上的方法您可以试一下,比如:消除框
chrome_options.add_experimental_option('excludeSwitches', ['enable-automation'])之类的

网上还有一些我不懂的方法,请大佬指点
5#
anandyuan 发表于 2021-5-12 19:22
本帖最后由 anandyuan 于 2021-5-12 19:29 编辑

那几个字不是触发了反爬

8P[GZH5VNM4)VGQLCW8G`RI.png (555.8 KB, 下载次数: 9)

8P[GZH5VNM4)VGQLCW8G`RI.png
6#
jiansuper 发表于 2021-5-12 20:00
我觉得firefox handless 比较好用
7#
 楼主| 超正义的小煌 发表于 2021-5-12 20:03 |楼主
anandyuan 发表于 2021-5-12 19:22
那几个字不是触发了反爬

你搜索的时候就会出现空白,首页可以正常响应
8#
1595901624 发表于 2021-5-12 20:14
用这个库试试 puppeteer,nodejs的库,但是也有Java版,个人感觉比较好用
9#
anandyuan 发表于 2021-5-12 20:34
超正义的小煌 发表于 2021-5-12 20:03
你搜索的时候就会出现空白,首页可以正常响应
这样就好了
[Python] 纯文本查看 复制代码
from selenium import webdriver

bro = webdriver.Chrome()
bro.get('https://www.ic.net.cn/')
#防止selenium被检测
bro.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
        "source": """
    Object.defineProperty(navigator, 'webdriver', {
      get: () => false
    })
  """
    })
bro.find_element_by_id('key').click()
bro.find_element_by_xpath('//*[@id="key"]').send_keys('TSCDJJN005PDUCV')
#元素相互覆盖,所以执行js脚本
bro.execute_script('document.querySelector("#btn_topSearch").click();')

免费评分

参与人数 1吾爱币 +2 热心值 +1 收起 理由
超正义的小煌 + 2 + 1 谢谢@Thanks!

查看全部评分

您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-26 00:14

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表