吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 12465|回复: 81
收起左侧

[Python 转载] 电影天堂???就这啊

   关闭 [复制链接]
24WOK 发表于 2023-4-16 20:46
#   1.  定位到2023必看片
#   2.  2020必看片提取子页面的链接地址
#   3.  请求子页面的链接地址,拿到我们想要的链接地址

#   确认是服务器端渲染
#   提取源代码   requests
#   通过re来提取有效信息     re

import re
import requests

domain = "https://www.dytt89.com/"
resp = requests.get(domain, verify=False)   #   verify=False    去掉安全验证
resp.encoding = 'gb2312'    #指定字符编码

n = "电影天堂.txt"

# print(resp.text)



#   拿到ul里面的li
obj1 = re.compile(r"2023必看热片.*?<ul>(?P<THING>.*?)"
                  r"</ul>", re.S)
obj2 = re.compile(r"<a href='(?P<HREF>.*?)'", re.S)

obj3 = re.compile(r'片  名(?P<MOVIE>.*?)<br />.*?'
                  r'<td style="WORD-WRAP: break-word" bgcolor="#fdfddf"><a href="(?P<DOWNLORD>.*?)">', re.S)


rt1 = obj1.finditer(resp.text)
child_href_list =[]

for i in rt1:
    ul = i.group('THING')

    #   html中,a标签表示超链接,<a href='url'>周杰伦</a>

    #   提取子页面链接
    rt2 = obj2.finditer(ul)
    for o in  rt2:
        href = o.group('HREF')

        #   拼接子页面的url地址,    域名+子页面地址
        child_href = domain+href.strip('/')
        child_href_list.append(child_href)   #   把子页面保存进字典


    #   提取子页面内容
    for href in child_href_list:
        cd_rt = requests.get(href, verify=False)
        cd_rt.encoding = 'gbk'

        rt3 = obj3.search(cd_rt.text)

        # print(rt3.group('MOVIE'))
        # print(rt3.group('DOWNLORD'))

        # break   #测试用
        all_ = rt3.group('MOVIE') + "----->" + rt3.group('DOWNLORD')
        with open(n, "a", encoding="gbk") as f:
            f.write(all_ + "\n")
f.close()
print("over") Snipaste_2023-04-16_20-45-12.png


免费评分

参与人数 13吾爱币 +12 热心值 +12 收起 理由
rolanpang + 1 + 1 谢谢@Thanks!
w220913 + 1 + 1 我很赞同!
Bay + 1 + 1 热心回复!
YCAPTAIN + 1 + 1 我很赞同!
liusg + 1 谢谢@Thanks!
yingruan + 1 + 1 我很赞同!
zierding + 1 + 1 我很赞同!
爱卡 + 1 + 1 我很赞同!
ll090822 + 1 + 1 谢谢@Thanks!
95i3 + 1 + 1 热心回复!
kosmos4134 + 1 + 1 谢谢@Thanks!
0Naraku0 + 1 + 1 我很赞同!
husu1012 + 1 热心回复!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

苏紫方璇 发表于 2023-4-16 21:50
推荐使用下面的方法插入代码
【公告】发帖代码插入以及添加链接教程(有福利)
https://www.52pojie.cn/thread-713042-1-1.html
(出处: 吾爱破解论坛)
Monklamn 发表于 2023-4-17 09:28
本帖最后由 Monklamn 于 2023-4-17 09:29 编辑

resp = requests.get(domain, verify=False)  # verify=False    去掉安全验证

InsecureRequestWarning  已经去掉验证,我本地运行还是会提示报错
 楼主| 24WOK 发表于 2023-4-16 21:51
苏紫方璇 发表于 2023-4-16 21:50
推荐使用下面的方法插入代码
【公告】发帖代码插入以及添加链接教程(有福利)
https://www.52pojie.cn/t ...

好嘞,学到了
kaixuan1158 发表于 2023-4-16 22:08
学习一下
Sky℃ 发表于 2023-4-16 22:25
学习学习,感谢
husu1012 发表于 2023-4-16 22:29
谢谢 马住
zhizhe135 发表于 2023-4-16 22:32
学以致用
ideapad 发表于 2023-4-16 22:37
直接能用吗
snowshine 发表于 2023-4-16 22:47
学习了,一直用电影天堂下载电影电视剧
mcse2006 发表于 2023-4-16 22:48
不懂就问,这是要干啥
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-24 19:48

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表