python

姜云岩 · 发表于 2020-8-30 17:33

这是第二次发帖（水贴求助帖不算在内）
还有一个问题我用这个idle 写的（见捕获.jpg 捕获.PNG

）无论是注释还是字符串出现中文就会出现无法保存的现象呢
之前用的也是但是没有这样问题的但是前一阵硬盘坏了重新下就有问题了有知道的大佬请赐教呢

正文做了一个爬取一个tupianzy 的图片的小爬虫主要是反爬不强而且我还需要积分升级
里面的 useragent 需要还你自己的页码范围呢可以改我设了延时一秒给个积分.gif

import time

def donext():
import requests
from bs4 import BeautifulSoup
import re
from getapic import getone

referer='https://www.tupianzj.com/meinv/xinggan/'
url = 'https://www.tupianzj.com/meinv/xinggan/list_176_'+str(num)+'.html'
headers = {
    'cookie': 'Hm_lvt_2311e8dc240a647bd81bf77808b3ac51=1598757084; Hm_lpvt_2311e8dc240a647bd81bf77808b3ac51=1598757245; Hm_lvt_c08bad6ac66a035b30e72722f365229b=1598758817; Hm_lpvt_c08bad6ac66a035b30e72722f365229b=1598772585',
    'referer': referer,
    'user-agent': '这个要换你自己的  用我的你也用不了 '

    }
r = requests.get(url = url,headers = headers)
soup = BeautifulSoup(r.content,'lxml')
with open('21.txt','w') as f:
    f.write(str(soup))
    f.close
ul = soup.find('ul',class_='list_con_box_ul')
links = re.findall('src="(.*?)"',str(ul))
for i in links:
    i = i.replace('rn','')
    getone(i)

num = 1

num就是下载的起始页下一行的50是终止页两个数字随便改动的别太离谱就可以

for num in range(50):
donext()
num= num +1
time.sleep(1)
print(str(num)+'gewangyetupian')

挑灯看花 · 发表于 2020-8-30 18:05

user-agent都可以通用。cookie就不一样了，楼主正好弄错了

旋风中的小聪明 · 发表于 2020-8-30 18:03

所以你这个标题和图片是怎么过审的

枫子树 · 发表于 2020-8-30 18:25

提示: 作者被禁止或删除内容自动屏蔽

Zeaf · 发表于 2020-8-30 19:15

挑灯看花发表于 2020-8-30 18:05
user-agent都可以通用。cookie就不一样了，楼主正好弄错了

正解，而且cookie也能用吧

只不过用着别人的信息

挑灯看花 · 发表于 2020-8-30 19:22

Zeaf 发表于 2020-8-30 19:15
正解，而且cookie也能用吧只不过用着别人的信息

一直用一个cookie请求很容易就判断为爬虫了

姜云岩 · 发表于 2020-8-30 20:08

Zeaf 发表于 2020-8-30 19:15
正解，而且cookie也能用吧只不过用着别人的信息

哈哈学到了学到了

cherrypi · 发表于 2020-8-30 20:09

学习了学习了！

姜云岩 · 发表于 2020-8-31 09:17

挑灯看花发表于 2020-8-30 18:05
user-agent都可以通用。cookie就不一样了，楼主正好弄错了

收到感谢回复大爷有空常来玩啊

c03xp · 发表于 2020-9-1 17:26

爬妹子高手

帐号		自动登录	找回密码
密码			注册[Register]

枫子树枫子树当前离线好友阅读权限 0 听众最后登录 1970-1-1 头像被屏蔽	枫子树发表于 2020-8-30 18:25 《站点帮助文档》有什么问题来这里看看吧，这里有你想知道的内容！提示: 作者被禁止或删除内容自动屏蔽
枫子树枫子树当前离线好友阅读权限 0 听众最后登录 1970-1-1 头像被屏蔽	呼吁大家发布原创作品添加吾爱破解论坛标识！
	回复支持举报

[其他转载] python

num就是下载的起始页 下一行的50是终止页 两个数字随便改动的 别太离谱就可以

num就是下载的起始页下一行的50是终止页两个数字随便改动的别太离谱就可以