怎么提取txt内所有链接中含有指定字符的链接

alittlebear · 发表于 2020-7-6 16:17

本帖最后由 alittlebear 于 2020-7-6 17:07 编辑

首先我有一个txt，长这样（链接：https://pan.baidu.com/s/1D3G38rqCIA6PeGCgoQ_HDw 提取码：hfod )

我想做的分3步：

1.找到txt内一个链接
2.打开这网页的页面，寻找含有 “drive.google.com/file/d/” 字符的链接
3.把他作为一个变量发给另外一个批处理文件（这个批处理我已经做好了）

举例子，我要寻找：

http:// bluxxxxxs.com/creatinglinks3m6dtWTj2BY2FIxf2FZUpY3ii2GJEQ5afZPrNj3J42gugwNEKguv4uiCDJyyOoYWZl11RHxDC8ji?xurl=s://drive.google.com/file/d/1LdMxeRbtHu6nXPGxV0xHJQT1RM2PNwvV/view?usp=sharing

研究了好几天了，实在不会。。

ligxi · 发表于 2020-7-6 16:17

alittlebear 发表于 2020-7-6 17:16
抱歉，这是外网的

我也打算以后学正则来解决这个问题

re不是Python自带的吗？官网找个Python3安装包一路安装后输入命令就能用。
匹配的结果：
https://ligxi.lanzouj.com/ianZvecvc2b

applejo · 发表于 2020-7-6 16:21

首先，你实例的网址打不开
给你个思路，我看这个里面的链接都是同一个网站的，把这个网站静态页面下载下来，然后全局搜索

applejo · 发表于 2020-7-6 16:22

首先，你实例的网址打不开
给你个思路，我看这个里面的链接都是同一个网站的，把这个网站静态页面下载下来，然后全局搜索

alittlebear · 发表于 2020-7-6 16:22

applejo 发表于 2020-7-6 16:21
首先，你实例的网址打不开
给你个思路，我看这个里面的链接都是同一个网站的，把这个网站静态页面下载下来 ...

怎么把这个网站全部下载下来呢？

小小涩郎 · 发表于 2020-7-6 16:30

额好歹发几个能进得去的网址测试一下吧

alittlebear · 发表于 2020-7-6 16:33

小小涩郎发表于 2020-7-6 16:30
额好歹发几个能进得去的网址测试一下吧

外网的。。。

momo0830 · 发表于 2020-7-6 16:34

EXCEL 分列或则 find 函数解决，简单

ligxi · 发表于 2020-7-6 16:41

本帖最后由 ligxi 于 2020-7-6 17:21 编辑

匹配链接的代码：

[Python] 纯文本查看 复制代码

import re

with open('result.txt', 'w', encoding='utf-8') as f:
    # 'res.txt'目标文件名
    ref = re.findall('<li><a href="(.*?)"', open('link.txt', 'r',encoding='utf-8').read())
    [f.write(d + '\n') for d in ref]

网站访问不了！

fanvalen · 发表于 2020-7-6 16:44

正则匹配罗

帐号		自动登录	找回密码
密码			注册[Register]

怎么提取txt内所有链接中含有指定字符的链接

最佳答案

本帖被以下淘专辑推荐:

怎么提取txt内 所有链接中 含有指定字符的链接

最佳答案

本帖被以下淘专辑推荐:

怎么提取txt内所有链接中含有指定字符的链接