hj170520 发表于 2020-7-7 16:49

最近想用python 爬取merriam-webster的部分数据 并进行整理,有大佬给点思路吗

本帖最后由 hj170520 于 2020-7-7 16:51 编辑

比如 地址https://www.merriam-webster.com/dictionary/ostensible
提取如图的数据


最终成品是这样的:


请大佬给点思路~{:301_974:}

chinaqin 发表于 2020-7-7 17:11

第一感觉是 xpath (//*[@id="synonym-discussion-anchor"]/p)或者findall

magicianly 发表于 2020-7-7 17:13

这个网站没有反扒啊,直接请求就可以啊?难道我搞错了?

hj170520 发表于 2020-7-7 17:16

magicianly 发表于 2020-7-7 17:13
这个网站没有反扒啊,直接请求就可以啊?难道我搞错了?

主要是爬取思路,确实没有“反扒”,他这个归类爬起来好麻烦{:301_973:}句子要分割好几块,都吐了。

hj170520 发表于 2020-7-7 17:17

chinaqin 发表于 2020-7-7 17:11
第一感觉是 xpath (//*[@id="synonym-discussion-anchor"]/p)或者findall

是的,不过单词他都用href裂开了。我用etree爬取太吃力了。

chinaqin 发表于 2020-7-7 17:23

hj170520 发表于 2020-7-7 17:17
是的,不过单词他都用href裂开了。我用etree爬取太吃力了。

那把class下面的用输出text拼接可行否?

hj170520 发表于 2020-7-7 17:30

chinaqin 发表于 2020-7-7 17:23
那把class下面的用输出text拼接可行否?

Emmm.... 是不是我太菜了。输出的 text根本....,一言难尽~~

xccxvb 发表于 2020-7-7 17:32

复杂就用正则吧,正则是万能de

hyh0101 发表于 2020-7-7 17:34

BS4+RE {:17_1062:}

magicianly 发表于 2020-7-7 17:48

hj170520 发表于 2020-7-7 17:16
主要是爬取思路,确实没有“反扒”,他这个归类爬起来好麻烦句子要分割好几块,都吐了。

你加一下我的Q吧,总是在论坛上也不好做
78466510
页: [1] 2
查看完整版本: 最近想用python 爬取merriam-webster的部分数据 并进行整理,有大佬给点思路吗