微博评论数据爬取思路及代码分享

灵海之森 · 发表于 2021-8-1 19:45

很久没有发帖了，之前做了有关微博的数据分析，现在将爬取微博评论的思路和代码分享出来，写得有些粗糙，欢迎批评指正。

一、获取bid和uid
  就是附件一的网址https://weibo.cn/comment/KrsH5tpeY?uid=2000016880&rl=0&gid=10001#cmtfrm
  其中KrsH5tpeY的bid，2000016880是uid
  这个就可以将博文唯一地标识出来了。
二、爬取一个博文的评论数据
  包括用户ID、用户名、评论内容和时间。

  首先是单条评论数据。
  观察到用户名和id是在同一节点，如<a href="/u/3173923450?gid=10001">兵卒在江湖</a>。
  然后依次确定评论内容和时间的元素节点。

  用户ID的关键代码：

[Python] 纯文本查看 复制代码

user_ids=re.findall('<a href=".*?&fuid=(.*?)&.*?">举报</a> ',html_2,re.S)#从举报链接入手

用户名的关键代码：

[Python] 纯文本查看 复制代码

names=[]#用户名
	ma=[ '举报', '赞[]', '回复']
	pattern = re.compile(r'\d+')#匹配数字
	for i in names_0:
		i=re.sub(pattern, "", i)
		if i not in ma:
			if '@' not in i:
				names.append(i)

评论内容的关键代码：

[Python] 纯文本查看 复制代码

contents=[]#评论内容
	contents_2=[]#评论内容初步
	contents_0=re.findall('<span class="ctt">(.*?)</span>',html_2,re.S)#一级
	contents_1=re.findall('<a href=.*?>@.*?</a>(.*?)<a href=.*?>举报</a> ',html_2,re.S)#二级

时间的关键代码：

[Python] 纯文本查看 复制代码

times_0=re.findall('<span class="ct">(.*?)</span>',html_2,re.S)
	times=[]#时间
	pattern_1= re.compile(r'\d{2}月\d{2}日')#匹配日期

  之后获取本页的所有评论数据。
  翻页操作是对网址中rl的值进行自增，0和1都是第一页。
三、批量爬取博文的评论数据
  对若干个博文的bid与uid进行单个博文爬取程序的执行即可。

以上是大概的思路和关键代码，整个工程文件——微博评论、用户信息的爬虫程序已经上传至我的github，见https://github.com/stay-leave/weibo-crawer，欢迎大家star。
后续有时间还会继续分享主题分析等数据分析及可视化的内容，欢迎关注我。

灵海之森 · 发表于 2021-8-3 10:21

明次发表于 2021-8-2 21:26
请教下大佬，我爬对方网站没几天就把我服务器ip给黑名单了，想知道对方是怎么发现我在爬他的呢这方面有 ...

https://www.52pojie.cn/thread-1288511-1-1.html

灵海之森 · 发表于 2021-8-2 09:02

Sunnnny 发表于 2021-8-1 21:48
学习来了。不知楼主对DY评论可否有研究，目前只知网页版可行，不过是热加载的。APP根本没去看，肯定有算法 ...

这个暂时没有接触过，日后可能会看看

31415926 · 发表于 2021-8-1 20:12

过来看看

偶尔平凡 · 发表于 2021-8-1 20:26

提示: 作者被禁止或删除内容自动屏蔽

3404071 · 发表于 2021-8-1 21:01

厉害厉害，学习了

Wits · 发表于 2021-8-1 21:18

提示: 作者被禁止或删除内容自动屏蔽

Sunnnny · 发表于 2021-8-1 21:48

学习来了。不知楼主对DY评论可否有研究，目前只知网页版可行，不过是热加载的。APP根本没去看，肯定有算法吧

lyj996 · 发表于 2021-8-1 22:02

学习了，谢谢

EAming · 发表于 2021-8-1 22:04

支持一下

MXGT · 发表于 2021-8-1 22:10

收藏了。

咔c君 · 发表于 2021-8-1 22:23

不错学习了

帐号		自动登录	找回密码
密码			注册[Register]

偶尔平凡偶尔平凡当前离线好友阅读权限 0 听众最后登录 1970-1-1 头像被屏蔽	偶尔平凡发表于 2021-8-1 20:26 提示: 作者被禁止或删除内容自动屏蔽
偶尔平凡偶尔平凡当前离线好友阅读权限 0 听众最后登录 1970-1-1 头像被屏蔽	如何快速判断一个文件是否为病毒！
	回复支持举报

Wits Wits 当前离线好友阅读权限 0 听众最后登录 1970-1-1 头像被屏蔽	Wits 发表于 2021-8-1 21:18 提示: 作者被禁止或删除内容自动屏蔽
Wits Wits 当前离线好友阅读权限 0 听众最后登录 1970-1-1 头像被屏蔽
	回复支持举报

[Python 转载] 微博评论数据爬取思路及代码分享

免费评分