最近想用python 爬取merriam-webster的部分数据 并进行整理,有大佬给点思路吗
本帖最后由 hj170520 于 2020-7-7 16:51 编辑比如 地址https://www.merriam-webster.com/dictionary/ostensible
提取如图的数据
最终成品是这样的:
请大佬给点思路~{:301_974:} 第一感觉是 xpath (//*[@id="synonym-discussion-anchor"]/p)或者findall 这个网站没有反扒啊,直接请求就可以啊?难道我搞错了? magicianly 发表于 2020-7-7 17:13
这个网站没有反扒啊,直接请求就可以啊?难道我搞错了?
主要是爬取思路,确实没有“反扒”,他这个归类爬起来好麻烦{:301_973:}句子要分割好几块,都吐了。 chinaqin 发表于 2020-7-7 17:11
第一感觉是 xpath (//*[@id="synonym-discussion-anchor"]/p)或者findall
是的,不过单词他都用href裂开了。我用etree爬取太吃力了。 hj170520 发表于 2020-7-7 17:17
是的,不过单词他都用href裂开了。我用etree爬取太吃力了。
那把class下面的用输出text拼接可行否? chinaqin 发表于 2020-7-7 17:23
那把class下面的用输出text拼接可行否?
Emmm.... 是不是我太菜了。输出的 text根本....,一言难尽~~ 复杂就用正则吧,正则是万能de BS4+RE {:17_1062:} hj170520 发表于 2020-7-7 17:16
主要是爬取思路,确实没有“反扒”,他这个归类爬起来好麻烦句子要分割好几块,都吐了。
你加一下我的Q吧,总是在论坛上也不好做
78466510
页:
[1]
2