这是第二次发帖(水贴 求助帖不算在内)
还有一个问题 我用这个idle 写的 (见捕获.jpg
) 无论是注释还是字符串出现中文就会出现无法保存的现象呢
之前用的也是 但是没有这样问题的 但是前一阵硬盘坏了 重新下 就有问题了 有知道的大佬请赐教呢
正文 做了一个 爬取 一个tupianzy 的图片 的小爬虫 主要是反爬不强 而且我还需要积分升级
里面的 useragent 需要还你自己 的 页码范围呢可以改 我设了延时一秒 给个积分.gif
import time
def donext():
import requests
from bs4 import BeautifulSoup
import re
from getapic import getone
referer='https://www.tupianzj.com/meinv/xinggan/'
url = 'https://www.tupianzj.com/meinv/xinggan/list_176_'+str(num)+'.html'
headers = {
'cookie': 'Hm_lvt_2311e8dc240a647bd81bf77808b3ac51=1598757084; Hm_lpvt_2311e8dc240a647bd81bf77808b3ac51=1598757245; Hm_lvt_c08bad6ac66a035b30e72722f365229b=1598758817; Hm_lpvt_c08bad6ac66a035b30e72722f365229b=1598772585',
'referer': referer,
'user-agent': '这个要换你自己的 用我的你也用不了 '
}
r = requests.get(url = url,headers = headers)
soup = BeautifulSoup(r.content,'lxml')
with open('21.txt','w') as f:
f.write(str(soup))
f.close
ul = soup.find('ul',class_='list_con_box_ul')
links = re.findall('src="(.*?)"',str(ul))
for i in links:
i = i.replace('rn','')
getone(i)
num = 1
num就是下载的起始页 下一行的50是终止页 两个数字随便改动的 别太离谱就可以
for num in range(50):
donext()
num= num +1
time.sleep(1)
print(str(num)+'gewangyetupian')
|