hkent 发表于 2019-9-3 08:56

求帮助,爬虫分析某个网站目录下的所有图片

有个网站,其中有个目录存放照片的, 网站路径是
http://xxxxxxx.xxx.com/photo/
如果点击这个网站就提示下面信息


Http Status Code: 403Reason: Unable to process request, directory browsing is not allowed
如打开某个人的信息表,里面的个人照片地址如下图片地址是 http://xxxxxxx.xxx.com/photo/XXXXXXXX.jpg图片名称都是一串英文加数字组合的.
这个如何用python来爬取http://xxxxxxx.xxx.com/photo/ 这里目录下的所有个人照片.

zheng10072 发表于 2019-9-3 09:50

你得把具体的地址发出来,不同的网站需要不同处理方式,最好把你代码也贴出来

Yo丨Se7ven 发表于 2019-9-3 09:51

403 你没权限访问

Do_zh 发表于 2019-9-3 09:51

首先访问目录肯定是没有权限访问的。你可以看看/photo/XXXXXXXX.jpg 中间的 XXXXXXXXX.jpg有什么规律。很多都是按照日期进行排列的。

hkent 发表于 2019-9-3 10:32

网站是公司的内部网站,没有对外开放,照片地址我看了下 都是10位或者13位字母加数字组成.前7位好像有规律应该是按区域和部门代码,后面几位看着想随机的,有全部是数字的,有的数字加字母的.

神、Dawn 发表于 2019-9-3 11:55

正则匹配 http://xxxxxxx.xxx.com/photo/(.*?).jpg

hkent 发表于 2019-9-3 20:42

本帖最后由 hkent 于 2019-9-3 20:45 编辑

比如 图片网址都是类似

后面不知道还有多少图片,这个如何批量下载啊 ,小白一个,想用Python,不知道从何入手。

吸水雨衣 发表于 2019-9-4 22:27

这个URL就是一个组合起来的前面网址加上图片的名字 .
当你在网站上通过response的meta信息获取到图片的名字后,进行字符串拼接,可以得到具体的图片路径
获取到路径后, 后面就简单了

hkent 发表于 2019-9-5 10:34

好的谢谢楼上各位 , 试试看 ,现在就是不知道怎么去获取 那些图片的链接 .再学习一下 .
页: [1]
查看完整版本: 求帮助,爬虫分析某个网站目录下的所有图片