最近想用python 爬取merriam-webster的部分数据并进行整理，有大佬给点思路吗

hj170520 · 发表于 2020-7-7 16:49

本帖最后由 hj170520 于 2020-7-7 16:51 编辑

比如地址 https://www.merriam-webster.com/dictionary/ostensible
提取如图的数据
Screen Shot 2020-07-07 at 4.48.09 PM.png

最终成品是这样的：

请大佬给点思路～

chinaqin · 发表于 2020-7-7 17:11

第一感觉是 xpath (//*[@id="synonym-discussion-anchor"]/p )或者findall

magicianly · 发表于 2020-7-7 17:13

这个网站没有反扒啊，直接请求就可以啊？难道我搞错了？

hj170520 · 发表于 2020-7-7 17:16

magicianly 发表于 2020-7-7 17:13
这个网站没有反扒啊，直接请求就可以啊？难道我搞错了？

主要是爬取思路，确实没有“反扒”，他这个归类爬起来好麻烦

句子要分割好几块，都吐了。

hj170520 · 发表于 2020-7-7 17:17

chinaqin 发表于 2020-7-7 17:11
第一感觉是 xpath (//*[@id="synonym-discussion-anchor"]/p )或者findall

是的，不过单词他都用href裂开了。我用etree爬取太吃力了。

chinaqin · 发表于 2020-7-7 17:23

hj170520 发表于 2020-7-7 17:17
是的，不过单词他都用href裂开了。我用etree爬取太吃力了。

那把class下面的用输出text拼接可行否？

hj170520 · 发表于 2020-7-7 17:30

chinaqin 发表于 2020-7-7 17:23
那把class下面的用输出text拼接可行否？

Emmm.... 是不是我太菜了。输出的 text根本....,一言难尽～～

xccxvb · 发表于 2020-7-7 17:32

复杂就用正则吧，正则是万能de

hyh0101 · 发表于 2020-7-7 17:34

BS4+RE

magicianly · 发表于 2020-7-7 17:48

hj170520 发表于 2020-7-7 17:16
主要是爬取思路，确实没有“反扒”，他这个归类爬起来好麻烦句子要分割好几块，都吐了。

你加一下我的Q吧，总是在论坛上也不好做
78466510

帐号		自动登录	找回密码
密码			注册[Register]

[求助] 最近想用python 爬取merriam-webster的部分数据 并进行整理，有大佬给点思路吗