吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 3298|回复: 44
收起左侧

怎么提取txt内 所有链接中 含有指定字符的链接

[复制链接]
alittlebear 发表于 2020-7-6 16:17
200吾爱币
本帖最后由 alittlebear 于 2020-7-6 17:07 编辑

首先我有一个txt,长这样(链接:https://pan.baidu.com/s/1D3G38rqCIA6PeGCgoQ_HDw 提取码:hfod )

image.png

我想做的分3步:

1.找到txt内一个链接
2.打开这网页的页面,寻找含有 “drive.google.com/file/d/” 字符的链接
3.把他作为一个变量发给另外一个批处理文件(这个批处理我已经做好了)

举例子,我要寻找:

http:// bluxxxxxs.com/creatinglinks3m6dtWTj2BY2FIxf2FZUpY3ii2GJEQ5afZPrNj3J42gugwNEKguv4uiCDJyyOoYWZl11RHxDC8ji?xurl=s://drive.google.com/file/d/1LdMxeRbtHu6nXPGxV0xHJQT1RM2PNwvV/view?usp=sharing

研究了好几天了,实在不会。。

最佳答案

查看完整内容

re不是Python自带的吗?官网找个Python3安装包一路安装后输入命令就能用。 匹配的结果: https://ligxi.lanzouj.com/ianZvecvc2b

本帖被以下淘专辑推荐:

  • · 收藏|主题: 52, 订阅: 9

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

ligxi 发表于 2020-7-6 16:17
alittlebear 发表于 2020-7-6 17:16
抱歉,这是外网的

我也打算以后学正则来解决这个问题

re不是Python自带的吗?官网找个Python3安装包一路安装后输入命令就能用。
匹配的结果:
https://ligxi.lanzouj.com/ianZvecvc2b
applejo 发表于 2020-7-6 16:21
首先,你实例的网址打不开
给你个思路,我看这个里面的链接都是同一个网站的,把这个网站静态页面下载下来,然后全局搜索
applejo 发表于 2020-7-6 16:22

首先,你实例的网址打不开
给你个思路,我看这个里面的链接都是同一个网站的,把这个网站静态页面下载下来,然后全局搜索
 楼主| alittlebear 发表于 2020-7-6 16:22
applejo 发表于 2020-7-6 16:21
首先,你实例的网址打不开
给你个思路,我看这个里面的链接都是同一个网站的,把这个网站静态页面下载下来 ...

怎么把这个网站全部下载下来呢?
小小涩郎 发表于 2020-7-6 16:30
额  好歹发几个能进得去的网址测试一下吧
 楼主| alittlebear 发表于 2020-7-6 16:33
小小涩郎 发表于 2020-7-6 16:30
额  好歹发几个能进得去的网址测试一下吧

外网的。。。
momo0830 发表于 2020-7-6 16:34
EXCEL  分列  或则 find 函数解决,简单
ligxi 发表于 2020-7-6 16:41
本帖最后由 ligxi 于 2020-7-6 17:21 编辑

匹配链接的代码:
[Python] 纯文本查看 复制代码
import re

with open('result.txt', 'w', encoding='utf-8') as f:
    # 'res.txt'目标文件名
    ref = re.findall('<li><a href="(.*?)"', open('link.txt', 'r',encoding='utf-8').read())
    [f.write(d + '\n') for d in ref]
网站访问不了!
fanvalen 发表于 2020-7-6 16:44
正则匹配罗
返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-25 14:49

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表