edelweiss92 发表于 2020-7-15 15:46

抓取琉璃神社里的标题和sha1并生存magneturl

本帖最后由 edelweiss92 于 2020-7-15 16:38 编辑

importurllib.request
from w3lib.html import remove_tags
from w3lib.html import remove_tags_with_content
import re

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.3"}

hacgurl = 'https://www.xxxx.se/wp/79053.html'



req = urllib.request.Request(hacgurl, headers=headers)
response = urllib.request.urlopen(req)
response = response.read().decode('utf8')
title = re.search(r'<title>(.*?)</title>', response)
if title:
    title = title
response = remove_tags_with_content(response, which_ones=('script','style'))
response = remove_tags(response)
#print(response)
hash_result = re.search(r'{40,40}', response, re.M)
magnet_result = ''
if hash_result:
    magnet_result='magnet:?xt=urn:btih:'+hash_result
print(title)
print(magnet_result)





看来很多朋友不想真实的琉璃域名显示出来,特地隐去

wszbzb 发表于 2020-7-15 16:02

直接把神社网址发出来没事吗?

墨染门前雪 发表于 2020-7-15 16:03

老哥要注意身体啊

qianbian 发表于 2020-7-15 16:13

标题让我不由自主地点开了帖子{:301_1001:}

cain 发表于 2020-7-15 16:18

本帖最后由 cain 于 2020-7-15 16:20 编辑

求求你放过琉璃吧:'(weeqw,要弄就去弄假琉璃!!话说requests不香么???

阿秉 发表于 2020-7-15 16:27

老司机注意身体啊

lincanlong 发表于 2020-7-15 16:31

我有个朋友想问下网址

edelweiss92 发表于 2020-7-15 16:35

cain 发表于 2020-7-15 16:18
求求你放过琉璃吧,要弄就去弄假琉璃!!话说requests不香么???

假liuli网址什么? requests我看了介绍确实香,可惜我没装

初见悲风 发表于 2020-7-15 16:45

请问是python2.x还是3

从此更南征 发表于 2020-7-15 16:52

edelweiss92 发表于 2020-7-15 16:35
假liuli网址什么? requests我看了介绍确实香,可惜我没装

2个琉璃神社 一个假的 做的挺像的
页: [1] 2
查看完整版本: 抓取琉璃神社里的标题和sha1并生存magneturl