写了一个某手文案爬虫，但没过selenium检测，求指教

24WOK · 发表于 2023-10-8 19:36

本帖最后由 24WOK 于 2023-10-8 19:41 编辑

[Python] 纯文本查看 复制代码

import time
from selenium.webdriver import Chrome
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By

# 配置Chrome选项
opt = Options()
opt.add_experimental_option('detach', True)
opt.add_argument("disable-blink-features=AutomationControlled")
# opt.add_argument("--headless")  # 添加无头模式选项（可选）

# 使用Chrome DevTools Protocol来降低被检测风险
opt.add_argument('--disable-blink-features=AutomationControlled')
opt.add_argument('--disable-blink-features=AutomationControlled')
opt.add_experimental_option("excludeSwitches", ["enable-automation"])
opt.add_experimental_option('useAutomationExtension', False)
opt.add_argument('--disable-extensions')
opt.add_argument('--disable-plugins-discovery')
opt.add_argument('--start-maximized')



# 创建Chrome WebDriver实例
web = Chrome(options=opt)

# 修改navigator.webdriver属性
web.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
    "source": """
      Object.defineProperty(navigator, 'webdriver', {
        get: () => undefined
      })
    """
})



# 最大化窗口
web.maximize_window()

# 视频+筛选（最多点赞+时间不限）
keyword = input("请输入您要搜索的关键词：")
url = f'https://www.kuaishou.com/search/video?searchKey={keyword}'
web.get(url)

time.sleep(5)

# 先滚动到页面底部
web.execute_script("window.scrollTo(0, document.body.scrollHeight);")
time.sleep(5)

# 通过class找到所有匹配的元素
elements = web.find_elements(by=By.CLASS_NAME, value='video-info-title')

# 计算爬取的数据数量
count = len(elements)
print(f"爬取的数据数量为：{count}")

# 获取每个元素的文本内容并打印
for element in elements:
    text = element.text
    print(text)

# 继续进行其他操作或爬取

24WOK · 发表于 2023-10-8 19:42

selenium检测过不去，爬不到内容

空竹 · 发表于 2023-10-8 20:32

你ks登录了吗--没登录是爬不了几条的

lengkeyu · 发表于 2023-10-8 21:27

坐等牛人，哈哈

Vvvvvoid · 发表于 2023-10-8 22:03

试试比特浏览器 ?? 有 api 可以操作

1188 · 发表于 2023-10-8 22:18

风控检测的点非常非常多，你这手法太初级，过不去的，这种环境太好检测了，特征非常明显。

k452b · 发表于 2023-10-8 22:51

为啥我能用

24WOK · 发表于 2023-10-8 22:54

空竹发表于 2023-10-8 20:32
你ks登录了吗--没登录是爬不了几条的

和登录没关系吧

24WOK · 发表于 2023-10-8 22:55

Vvvvvoid 发表于 2023-10-8 22:03
试试比特浏览器 ?? 有 api 可以操作

比特浏览器里面有api可以用是吧大佬

24WOK · 发表于 2023-10-8 22:55

1188 发表于 2023-10-8 22:18
风控检测的点非常非常多，你这手法太初级，过不去的，这种环境太好检测了，特征非常明显。

那大佬给个思路呗

帐号		自动登录	找回密码
密码			注册[Register]

[求助] 写了一个某手文案爬虫，但没过selenium检测，求指教