sanen688 发表于 2024-4-25 10:43

求一个python捉取全站url的脚本,不包含外站url

如我想要获取https://ruiwen.com 这个站点的所有url,我自己写的脚本爬取url都是只能捉取首页的所有链接,下一页内页的url获取不到。求大佬帮助一下

Maiz1888 发表于 2024-4-25 15:51

https://www.ruiwen.com/sitemap.html

sanen688 发表于 2024-4-25 16:58

Maiz1888 发表于 2024-4-25 15:51
https://www.ruiwen.com/sitemap.html

只有一点点url链接,不完整,感谢你的帮助

你好,再见 发表于 2024-4-25 21:58

sanen688 发表于 2024-4-25 16:58
只有一点点url链接,不完整,感谢你的帮助

怎么会不完整呢,搜索引擎都是根据sitemap抓取的

chaojiak47 发表于 2024-5-2 14:55

sanen688 发表于 2024-4-25 16:58
只有一点点url链接,不完整,感谢你的帮助

我看挺全的,页码自己加
页: [1]
查看完整版本: 求一个python捉取全站url的脚本,不包含外站url