shell---wget命令 爬一个网站
**shell---wget命令 爬一个网站**```
wget --mirror --convert-links--adjust-extension --page-requisites--retry-connrefused--exclude-directories=comments -U "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.11; rv:47.0) Gecko/20100101 Firefox/47.0"--execute robots=offhttp://xxxxx.cn
``` 是使用Python吗?楼主! 学习了,谢谢 小雨网络 发表于 2020-8-27 10:46
是使用Python吗?楼主!
shell 不是python 写入到哪里? zucker 发表于 2020-8-27 15:08
写入到哪里?
当前目录在那个目录下执行就保存在那里 我在下载 www.szmuseum.com时,发现图片在file.szmuseum.com下。
但是目录有中文,
通过网页可以正常查看。比如
file.szmuseum.com/WaterMark/文章富文本文件/EditorImage/20200917/6373593880567187503588351.jpg
file.szmuseum.com/WaterMark/%E6%96%87%E7%AB%A0%E5%AF%8C%E6%96%87%E6%9C%AC%E6%96%87%E4%BB%B6/EditorImage/20200917/6373593880567187503588351.jpg
但是一旦通过wget
变成成这样了
file.szmuseum.com/ThumbCover/%E9%8D%A9%E7%83%98%E6%B9%B0%E9%97%84%E5%A0%9D%E5%9E%AA%E6%B7%87%E2%84%83%E4%BC%85%E9%8D%A5%E5%89%A7%E5%A2%96/201510311018354nd8H8.png
转换一下,发现目录成了乱码
file.szmuseum.com/ThumbCover/鍩烘湰闄堝垪淇℃伅鍥剧墖/201510311018354nd8H8.png
于是就全是404了。
页:
[1]