求帮助,爬虫分析某个网站目录下的所有图片
有个网站,其中有个目录存放照片的, 网站路径是http://xxxxxxx.xxx.com/photo/
如果点击这个网站就提示下面信息
Http Status Code: 403Reason: Unable to process request, directory browsing is not allowed
如打开某个人的信息表,里面的个人照片地址如下图片地址是 http://xxxxxxx.xxx.com/photo/XXXXXXXX.jpg图片名称都是一串英文加数字组合的.
这个如何用python来爬取http://xxxxxxx.xxx.com/photo/ 这里目录下的所有个人照片. 你得把具体的地址发出来,不同的网站需要不同处理方式,最好把你代码也贴出来 403 你没权限访问 首先访问目录肯定是没有权限访问的。你可以看看/photo/XXXXXXXX.jpg 中间的 XXXXXXXXX.jpg有什么规律。很多都是按照日期进行排列的。 网站是公司的内部网站,没有对外开放,照片地址我看了下 都是10位或者13位字母加数字组成.前7位好像有规律应该是按区域和部门代码,后面几位看着想随机的,有全部是数字的,有的数字加字母的.
正则匹配 http://xxxxxxx.xxx.com/photo/(.*?).jpg 本帖最后由 hkent 于 2019-9-3 20:45 编辑
比如 图片网址都是类似
后面不知道还有多少图片,这个如何批量下载啊 ,小白一个,想用Python,不知道从何入手。 这个URL就是一个组合起来的前面网址加上图片的名字 .
当你在网站上通过response的meta信息获取到图片的名字后,进行字符串拼接,可以得到具体的图片路径
获取到路径后, 后面就简单了
好的谢谢楼上各位 , 试试看 ,现在就是不知道怎么去获取 那些图片的链接 .再学习一下 .
页:
[1]