BeautifulBoy 发表于 2019-11-18 21:47

如何使用爬虫工具或者插件爬取不同页面地址并保存到本地?

请教,现在遇到一个问题。
chrome-extension://fnjoonbenhhijnoegpfkpagjamomgjjm/static/sound.svg

我需要去爬这样一个网页的信息:
http://tools.lenovo.com.cn/searchTools/Images/detail/id/xxx.html

xxx-代表id号,想从0开始爬取,可以的话先爬取一个区间比如

0-200000
200000-400000

现在已知,有内容的网页会返回如下页面,

而没有内容的页面返回json字符串:
{"code":4006,"error":"\u672a\u627e\u5230\u76f8\u5173\u955c\u50cf"}

现阶段是要把有内容的网址返回并保存在本地,需求的逻辑应该是怎样实现的?求教!

wdxm2008 发表于 2019-11-19 09:02

用正则表达式获取爬取内容 如果匹配就跳过报错,else就保存吧

170417 发表于 2019-11-20 10:53

你既然能得到它的返回内容,那你判断一下不就好了吗,就像楼上说的一样,if和else
页: [1]
查看完整版本: 如何使用爬虫工具或者插件爬取不同页面地址并保存到本地?