吾爱破解 - LCG - LSG |安卓破解|病毒分析|www.52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 810|回复: 22
收起左侧

[经验求助] 有没有一种根据url批量获取网站标题的软件?

  [复制链接]
q3520520 发表于 2023-8-27 15:04
25吾爱币
本帖最后由 q3520520 于 2023-8-27 15:05 编辑

有没有一种根据url批量获取网站标题的软件?
就是我有几百个url,都能打开,但是我想直接获取它们的标题,有这种小工具没?

最佳答案

查看完整内容

python爬取网站标题可以参考这个链接:python爬虫——获取整个网页的标题 以防你懒得看,我东拼西凑了一些代码,帮你写好了: [mw_shl_code=python,true]# 引用库 import requests from bs4 import BeautifulSoup headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/82.0.4051.0 Safari/537.36 Edg/82.0.425.0' } def GetTitle(url): respon ...

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

chanmao 发表于 2023-8-27 15:04
python爬取网站标题可以参考这个链接:python爬虫——获取整个网页的标题
以防你懒得看,我东拼西凑了一些代码,帮你写好了:
[Python] 纯文本查看 复制代码
# 引用库
import requests
from bs4 import BeautifulSoup

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/82.0.4051.0 Safari/537.36 Edg/82.0.425.0'
}


def GetTitle(url):
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.text, 'html.parser')
    pagetitle = soup.find("title")
    print(pagetitle.get_text())
    return pagetitle.get_text()


fileHandler = open("data.txt", "r")
output = open("output.txt", "w")
while True:
    line = fileHandler.readline()
    if not line:
        break
    print(line.strip())
    title = GetTitle(line.strip())
    print(title, file=output)

fileHandler.close()



使用方法:
1、新建一个文本文档,把这段代码黏贴进去,保存,后缀名改成.py
2、在上一步创建的文件同一个文件夹内创建一个data.txt,把网址复制进去,一行一个
3、运行第一步创建的文件
4、网站标题保存在同一文件夹内的output.txt

如果不会使用python,请回复我,我告诉你如何运行.py文件
rainisa 发表于 2023-8-27 15:26
新建一个文本文件,把url按行放进去,然后打开系统自带的powershell,执行以下代码:

[PowerShell] 纯文本查看 复制代码
foreach ($url in gc .\urls.txt){
    $title = (iwr -uri $url).ParsedHtml.title
    echo "$url => $title"
}


注意:代码示例里的urls.txt即为存放url的文件,ps执行路径同文件路径
 楼主| q3520520 发表于 2023-8-27 15:50
rainisa 发表于 2023-8-27 15:26
新建一个文本文件,把url按行放进去,然后打开系统自带的powershell,执行以下代码:

[mw_shl_code=powe ...

好复杂,第一次地址不对,第二次我放到c盘了,可能位置还不对
提示iwr : 无法分析响应内容,因为 Internet Explorer 引擎不可用,或者 Internet Explorer 的首次启动配置不完整。请指定 UseBasic
Parsing 参数,然后再试一次。
头像被屏蔽
laonanhai0812 发表于 2023-8-27 16:16
提示: 作者被禁止或删除 内容自动屏蔽
哎哟还是不会 发表于 2023-8-27 16:24
https://www.52pojie.cn/thread-1826199-1-1.html
 楼主| q3520520 发表于 2023-8-27 16:31
laonanhai0812 发表于 2023-8-27 16:16
https://www.52pojie.cn/thread-1826199-1-1.html
善用搜索

我比他发帖早半小时
微分享 发表于 2023-8-27 16:33
火车头又快又稳
 楼主| q3520520 发表于 2023-8-27 16:35
chanmao 发表于 2023-8-27 16:16
python爬取网站标题可以参考这个链接:python爬虫——获取整个网页的标题
以防你懒得看,我东拼西凑了一些 ...

辛苦大佬,求怎么运行.py
 楼主| q3520520 发表于 2023-8-27 16:48

对,想起来了,那个后裔也行是吧
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

快速回复 收藏帖子 返回列表 搜索

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-9-22 11:38

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表