最近想用python 爬取merriam-webster的部分数据并进行整理，有大佬给点思路吗

hj170520 发表于 2020-7-7 16:49

本帖最后由 hj170520 于 2020-7-7 16:51 编辑

比如地址https://www.merriam-webster.com/dictionary/ostensible
提取如图的数据

最终成品是这样的：

请大佬给点思路～{:301_974:}

chinaqin 发表于 2020-7-7 17:11

第一感觉是 xpath (//*[@id="synonym-discussion-anchor"]/p)或者findall

magicianly 发表于 2020-7-7 17:13

这个网站没有反扒啊，直接请求就可以啊？难道我搞错了？

hj170520 发表于 2020-7-7 17:16

magicianly 发表于 2020-7-7 17:13
这个网站没有反扒啊，直接请求就可以啊？难道我搞错了？

主要是爬取思路，确实没有“反扒”，他这个归类爬起来好麻烦{:301_973:}句子要分割好几块，都吐了。

hj170520 发表于 2020-7-7 17:17

chinaqin 发表于 2020-7-7 17:11
第一感觉是 xpath (//*[@id="synonym-discussion-anchor"]/p)或者findall

是的，不过单词他都用href裂开了。我用etree爬取太吃力了。

chinaqin 发表于 2020-7-7 17:23

hj170520 发表于 2020-7-7 17:17
是的，不过单词他都用href裂开了。我用etree爬取太吃力了。

那把class下面的用输出text拼接可行否？

hj170520 发表于 2020-7-7 17:30

chinaqin 发表于 2020-7-7 17:23
那把class下面的用输出text拼接可行否？

Emmm.... 是不是我太菜了。输出的 text根本....,一言难尽～～

xccxvb 发表于 2020-7-7 17:32

复杂就用正则吧，正则是万能de

hyh0101 发表于 2020-7-7 17:34

BS4+RE {:17_1062:}

magicianly 发表于 2020-7-7 17:48

hj170520 发表于 2020-7-7 17:16
主要是爬取思路，确实没有“反扒”，他这个归类爬起来好麻烦句子要分割好几块，都吐了。

你加一下我的Q吧，总是在论坛上也不好做
78466510

页: [1] 2

吾爱破解 - 52pojie.cn's Archiver