一只小白吖 发表于 2020-8-27 09:57

shell---wget命令 爬一个网站

**shell---wget命令 爬一个网站**
```
wget --mirror --convert-links--adjust-extension --page-requisites--retry-connrefused--exclude-directories=comments -U "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.11; rv:47.0) Gecko/20100101 Firefox/47.0"--execute robots=offhttp://xxxxx.cn
```

小雨网络 发表于 2020-8-27 10:46

是使用Python吗?楼主!

wyoyli 发表于 2020-8-27 10:58

学习了,谢谢

一只小白吖 发表于 2020-8-27 11:21

小雨网络 发表于 2020-8-27 10:46
是使用Python吗?楼主!

shell   不是python

zucker 发表于 2020-8-27 15:08

写入到哪里?

一只小白吖 发表于 2020-8-28 14:53

zucker 发表于 2020-8-27 15:08
写入到哪里?

当前目录在那个目录下执行就保存在那里

barnett2016 发表于 2021-2-1 14:15

我在下载 www.szmuseum.com时,发现图片在file.szmuseum.com下。
但是目录有中文,
通过网页可以正常查看。比如
file.szmuseum.com/WaterMark/文章富文本文件/EditorImage/20200917/6373593880567187503588351.jpg

file.szmuseum.com/WaterMark/%E6%96%87%E7%AB%A0%E5%AF%8C%E6%96%87%E6%9C%AC%E6%96%87%E4%BB%B6/EditorImage/20200917/6373593880567187503588351.jpg

但是一旦通过wget
变成成这样了
file.szmuseum.com/ThumbCover/%E9%8D%A9%E7%83%98%E6%B9%B0%E9%97%84%E5%A0%9D%E5%9E%AA%E6%B7%87%E2%84%83%E4%BC%85%E9%8D%A5%E5%89%A7%E5%A2%96/201510311018354nd8H8.png
转换一下,发现目录成了乱码
file.szmuseum.com/ThumbCover/鍩烘湰闄堝垪淇℃伅鍥剧墖/201510311018354nd8H8.png

于是就全是404了。
页: [1]
查看完整版本: shell---wget命令 爬一个网站