吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 1413|回复: 13
收起左侧

[求助] 最近想用python 爬取merriam-webster的部分数据 并进行整理,有大佬给点思路吗

[复制链接]
hj170520 发表于 2020-7-7 16:49
本帖最后由 hj170520 于 2020-7-7 16:51 编辑

比如 地址  https://www.merriam-webster.com/dictionary/ostensible
提取如图的数据
Screen Shot 2020-07-07 at 4.48.09 PM.png

最终成品是这样的:
Screen Shot 2020-07-07 at 4.48.25 PM.png

请大佬给点思路~

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

chinaqin 发表于 2020-7-7 17:11
第一感觉是 xpath (//*[@id="synonym-discussion-anchor"]/p  )或者findall
TIM图片20200707171046.png
magicianly 发表于 2020-7-7 17:13
这个网站没有反扒啊,直接请求就可以啊?难道我搞错了?
 楼主| hj170520 发表于 2020-7-7 17:16
magicianly 发表于 2020-7-7 17:13
这个网站没有反扒啊,直接请求就可以啊?难道我搞错了?

主要是爬取思路,确实没有“反扒”,他这个归类爬起来好麻烦句子要分割好几块,都吐了。
 楼主| hj170520 发表于 2020-7-7 17:17
chinaqin 发表于 2020-7-7 17:11
第一感觉是 xpath (//*[@id="synonym-discussion-anchor"]/p  )或者findall

是的,不过单词他都用href裂开了。我用etree爬取太吃力了。
chinaqin 发表于 2020-7-7 17:23
hj170520 发表于 2020-7-7 17:17
是的,不过单词他都用href裂开了。我用etree爬取太吃力了。

那把class下面的用输出text拼接可行否?
 楼主| hj170520 发表于 2020-7-7 17:30
chinaqin 发表于 2020-7-7 17:23
那把class下面的用输出text拼接可行否?

Emmm.... 是不是我太菜了。输出的 text根本....,一言难尽~~
xccxvb 发表于 2020-7-7 17:32
复杂就用正则吧,正则是万能de
hyh0101 发表于 2020-7-7 17:34
BS4+RE
magicianly 发表于 2020-7-7 17:48
hj170520 发表于 2020-7-7 17:16
主要是爬取思路,确实没有“反扒”,他这个归类爬起来好麻烦句子要分割好几块,都吐了。

你加一下我的Q吧,总是在论坛上也不好做
78466510
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-26 14:53

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表