CN911 发表于 2020-7-3 11:18

【CN911】正则匹配 实战教程(含工具)

本帖最后由 CN911 于 2020-7-4 20:53 编辑

介绍:图文加视频
这里特别感谢版主@风之暇想对作者的细心指导。一路在吾爱走来,学习、学会了不少。感谢各位对作者的支持。爱你们,爱吾爱。

工具使用到:
1、正则匹配工具(支持多行、完美适应几乎全部网站的正则爬取)
https://www.52pojie.cn/thread-1211429-1-1.html
2、企业晨报 4.6 以上版本
https://www.52pojie.cn/thread-1205817-1-1.html

先图文:
1、以吾爱为例,先找到目标网址信息源,任意选择一个


2、复制链接,红框内是要爬取的内容

3、打开匹配工具-选择网站url-填写目标源地址


4、贪婪模式-找前后关键词-并加入(关键词在源代码内查找,例如统一网页标签内的不同内容,即符合匹配规则)


5、打开企业晨报4.6以上版本-添加正则和目标网址即可。(具体工具的使用查看,企业晨报链接)

总结:至此内容就可以通过正则爬出来了。如果看到这里你还不明白,那只有看视频了。
视频内容更为详细,可以多看几遍。
如果本教程对您有帮助,记得评分哦,评分C币不扣自己的。
视频教程地址:**** Hidden Message *****

Abrahams 发表于 2020-7-5 22:50

感谢分享 学习一下

ustbsgw 发表于 2020-7-4 13:09

本帖最后由 ustbsgw 于 2020-7-4 13:10 编辑

CN911 发表于 2020-7-4 12:51
不应该啊,你把这段源码贴上来,我试试
网址 https://med.sina.com/column/yaodian/

我弄得这个代码<a href="(.*?)" target="_blank" class="indextext-title">(.*?)</a>显示无匹配的文档

<div class="indextext-right" style="width:610px;margin:0;">
<div class="indextitle-text">
<a href="https://med.sina.com/article_detail_101_2_84668.html" target="_blank" class="indextext-title">
加码肿瘤免疫布局 吉利德达成17.5亿美元交易!
</a>
<p class="indextext-ms">
吉利德科学6月23日宣布,将以2.75亿美元收购Pionyr Immunotherapeutics公司49.9%的股权,同时获得后者在研产品的独家选择权。如果吉利德行使选择权,Pionyr可能会另外获得高达14.7亿美元的期权执行费和未来的里程碑付款。
</p>
</div>

tianmx 发表于 2020-7-3 11:21

下来看看,谢谢楼主

ruya 发表于 2020-7-3 11:22

非常不错,有这样的操作介绍大家会更容易理解,给楼主点赞

苏格拉、没有底 发表于 2020-7-3 11:23

前排???支持楼主

zhx1226 发表于 2020-7-3 11:24

小白体验一下·~~

tracy561 发表于 2020-7-3 11:25

SZJYNZSt

heidiansama 发表于 2020-7-3 11:25

{:301_993:}大佬NB

Chenzi 发表于 2020-7-3 11:26

这就出来了??这就好了?

魔叶无道 发表于 2020-7-3 11:29

谢谢大佬看看视频 先

皓月ch 发表于 2020-7-3 11:30

确实不明白。。。不过就看出楼主牛
页: [1] 2 3 4 5 6 7 8 9 10
查看完整版本: 【CN911】正则匹配 实战教程(含工具)