抓取琉璃神社里的标题和sha1并生存magneturl

edelweiss92 发表于 2020-7-15 15:46

本帖最后由 edelweiss92 于 2020-7-15 16:38 编辑

importurllib.request
from w3lib.html import remove_tags
from w3lib.html import remove_tags_with_content
import re

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.3"}

hacgurl = 'https://www.xxxx.se/wp/79053.html'

req = urllib.request.Request(hacgurl, headers=headers)
response = urllib.request.urlopen(req)
response = response.read().decode('utf8')
title = re.search(r'<title>(.*?)</title>', response)
if title:
title = title
response = remove_tags_with_content(response, which_ones=('script','style'))
response = remove_tags(response)
#print(response)
hash_result = re.search(r'{40,40}', response, re.M)
magnet_result = ''
if hash_result:
magnet_result='magnet:?xt=urn:btih:'+hash_result
print(title)
print(magnet_result)

看来很多朋友不想真实的琉璃域名显示出来，特地隐去

wszbzb 发表于 2020-7-15 16:02

直接把神社网址发出来没事吗？

墨染门前雪 发表于 2020-7-15 16:03

老哥要注意身体啊

qianbian 发表于 2020-7-15 16:13

标题让我不由自主地点开了帖子{:301_1001:}

cain 发表于 2020-7-15 16:18

本帖最后由 cain 于 2020-7-15 16:20 编辑

求求你放过琉璃吧:'(weeqw，要弄就去弄假琉璃！！话说requests不香么？？？

阿秉发表于 2020-7-15 16:27

老司机注意身体啊

lincanlong 发表于 2020-7-15 16:31

我有个朋友想问下网址

edelweiss92 发表于 2020-7-15 16:35

cain 发表于 2020-7-15 16:18
求求你放过琉璃吧，要弄就去弄假琉璃！！话说requests不香么？？？

假liuli网址什么？ requests我看了介绍确实香，可惜我没装

初见悲风 发表于 2020-7-15 16:45

请问是python2.x还是3

从此更南征 发表于 2020-7-15 16:52

edelweiss92 发表于 2020-7-15 16:35
假liuli网址什么？ requests我看了介绍确实香，可惜我没装

2个琉璃神社一个假的做的挺像的

页: [1] 2

吾爱破解 - 52pojie.cn's Archiver

抓取琉璃神社里的标题和sha1并生存magneturl