吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 1725|回复: 2
收起左侧

[Python 转载] selenium 必应搜索获取标题及url

[复制链接]
cleansely 发表于 2021-9-13 16:35

必应搜索,获取标题以及url

代码

import time
from selenium import webdriver
from selenium.common.exceptions import NoSuchElementException

import urllib.parse

def get_content(driver, url):
    “”“获取每页的内容“””
    driver.get(url)
    time.sleep(sleep_time)
    targets = driver.find_elements_by_xpath("//li[@class='b_algo']/h2/a")
    infos = []
        # 简单的保存一下标题和网址
    for t in targets:
        text = t.text
        href = t.get_attribute("href")
        url_parse = urllib.parse.urlparse(href)
        domain = url_parse.scheme + "://" + url_parse.netloc
        infos.append(text+"||"+domain+"||"+href+"\n")
    return infos

def main(key, page=2):
    # 网上下载对应的chromedriver
    driver = webdriver.Chrome('./driver/chromedriver.exe')
        # 设置隐式等待时间,然而我这好像没用,就在后面又加了time.sleep
    driver.implicitly_wait(10)
    url = f"https://cn.bing.com/search?q={key}&qs=n&sp=-1&pq=ni&sc=8-2&sk=&cvid=51AA598AE26B4774B0C37C165EB69C9B&first=1&FORM=PQRE1&ensearch=1"

    result = []
    for i in range(page):
        result += get_content(driver, url)
        print(f"page {i} over")
        try:
                    # 尝试获取下一页的网址
            el_next_page = driver.find_element_by_xpath("//a[@title='Next page']")
            url = el_next_page.get_attribute("href")
        except NoSuchElementException:
            break

    driver.quit()

    with open(f"result{time.strftime('%H %M %S')}.txt", 'w', encoding='utf-8') as f:
        f.writelines(result)

if __name__ == '__main__':
    sleep_time = 1
    main("123", page=2)

免费评分

参与人数 2吾爱币 +6 热心值 +2 收起 理由
光迷影乱 + 1 + 1 终于有个能看懂的代码了,我们这种就是天天输出辣鸡代码
苏紫方璇 + 5 + 1 欢迎分析讨论交流,吾爱破解论坛有你更精彩!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

xyl52p 发表于 2021-9-13 22:54
捉个小虫,第8行的双引号中英文混用了,导致运行不了。
 楼主| cleansely 发表于 2021-9-14 10:20
xyl52p 发表于 2021-9-13 22:54
捉个小虫,第8行的双引号中英文混用了,导致运行不了。

写注释没太留意
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2025-1-13 17:32

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表