抓取琉璃神社里的标题和sha1并生存magneturl
本帖最后由 edelweiss92 于 2020-7-15 16:38 编辑importurllib.request
from w3lib.html import remove_tags
from w3lib.html import remove_tags_with_content
import re
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.3"}
hacgurl = 'https://www.xxxx.se/wp/79053.html'
req = urllib.request.Request(hacgurl, headers=headers)
response = urllib.request.urlopen(req)
response = response.read().decode('utf8')
title = re.search(r'<title>(.*?)</title>', response)
if title:
title = title
response = remove_tags_with_content(response, which_ones=('script','style'))
response = remove_tags(response)
#print(response)
hash_result = re.search(r'{40,40}', response, re.M)
magnet_result = ''
if hash_result:
magnet_result='magnet:?xt=urn:btih:'+hash_result
print(title)
print(magnet_result)
看来很多朋友不想真实的琉璃域名显示出来,特地隐去
直接把神社网址发出来没事吗? 老哥要注意身体啊 标题让我不由自主地点开了帖子{:301_1001:} 本帖最后由 cain 于 2020-7-15 16:20 编辑
求求你放过琉璃吧:'(weeqw,要弄就去弄假琉璃!!话说requests不香么??? 老司机注意身体啊 我有个朋友想问下网址 cain 发表于 2020-7-15 16:18
求求你放过琉璃吧,要弄就去弄假琉璃!!话说requests不香么???
假liuli网址什么? requests我看了介绍确实香,可惜我没装 请问是python2.x还是3 edelweiss92 发表于 2020-7-15 16:35
假liuli网址什么? requests我看了介绍确实香,可惜我没装
2个琉璃神社 一个假的 做的挺像的
页:
[1]
2