Java_S 发表于 2020-11-27 21:52

Python分析5000+抖音大V,原来大家都喜欢看这类视频呀!(数据可视化&数据分析)

本帖最后由 Java_S 于 2020-11-27 22:06 编辑

# 写在前面

最近,我在知乎上看到一个关于抖音的问题。

里面提到了,目前我国人均每天刷短视频110分钟。
!

看这数据,看来我又被平均了。

不过老实说,只要一打开抖音,确实是有一种停不下来的感觉~

所以还是少刷抖音,多看书,多写代码。要不然时间全流逝了。

这次给大家用数据分析一下在抖音,什么类型的视频最受欢迎。


Jupyter代码,数据可视化&分析,[点我进行查看]
文章原链接:(https://syjun.vip/archives/275.html)

# 数据获取

数据来自于第三方监测,一共是有5000+抖音大V的数据信息(所需的文件我会放在文章末,供大家下载)
!

主要包含大V们的昵称、性别、地点、类型、点赞数、粉丝数、视频数、评论数、分享数、关注数、毕业学校、认证、简介等信息。

其中粉丝最多的是「人民日报」,接近1.2亿。「央视新闻」也破亿了,记得之前破亿的时候还上过热搜~

粉丝最少的博主也有近150w+的粉丝,这5000多位大V累计236.5亿粉丝,地球人口的三倍多!
(由于时间的原因,这些大V的粉丝数肯定比这还要高)

# 数据可视化&分析

导入第三方库,然后读取数据
```python
from pyecharts.charts import Pie, Bar, TreeMap, Map, Geo
from wordcloud import WordCloud, ImageColorGenerator
from pyecharts import options as opts
from pyecharts.globals import ThemeType
import matplotlib.pyplot as plt
from PIL import Image
import pandas as pd
import numpy as np
import jieba

df = pd.read_csv('../file/douyin.csv',encoding = 'utf-8-sig')
df.head()
```
运行结果:
!


## 性别分布情况

```python
df.loc = '未知'
df.loc = '男性'
df.loc = '女性'
# 根据性别分组
gender_message = df.groupby(['gender'])
# 对分组后的结果进行计数
gender_com = gender_message['gender'].agg(['count'])
gender_com.reset_index(inplace=True)

# 饼图数据
attr = gender_com['gender']
v1 = gender_com['count']

# 初始化配置
pie = Pie(init_opts=opts.InitOpts(width="800px", height="400px",theme=ThemeType.LIGHT))
# 添加数据,设置半径
pie.add("", , radius=["40%", "75%"])
# 设置全局配置项,标题、图例、工具箱(下载图片)
pie.set_global_opts(title_opts=opts.TitleOpts(title="抖音大V性别分布情况", pos_left="center", pos_top="top"),
                  legend_opts=opts.LegendOpts(orient="vertical", pos_left="left"),
                  toolbox_opts=opts.ToolboxOpts(is_show=True, feature={"saveAsImage": {}}))
# 设置系列配置项,标签样式
pie.set_series_opts(label_opts=opts.LabelOpts(is_show=True, formatter="{b}:{d}%",font_size=14))
pie.render_notebook()
```


![抖音大V性别分布情况]

整体上看,男女比例差别不大。

除去未知的数据,基本是1:1

## 点赞数


```python
df = df.sort_values('likes', ascending=False)
# 获取TOP10的数据
attr = df['name']
v1 = ]

# 初始化配置
bar = Bar(init_opts=opts.InitOpts(width="1000px", height="600px"))
# x轴数据
bar.add_xaxis(list(reversed(attr.tolist())))
# y轴数据
bar.add_yaxis("", list(reversed(v1)),color = '#84E0E3')
# 设置全局配置项,标题、y轴分割线
bar.set_global_opts(title_opts=opts.TitleOpts(title="抖音大V点赞数TOP10(亿)", pos_left="center", pos_top="18"),
                  xaxis_opts=opts.AxisOpts(splitline_opts=opts.SplitLineOpts(is_show=True)),
                  yaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(font_size=12)),
                  toolbox_opts=opts.ToolboxOpts(is_show=True, feature={"saveAsImage": {}}))
                  
# 设置系列配置项,标签样式
bar.set_series_opts(label_opts=opts.LabelOpts(is_show=True, position="right", color="black"))
bar.reversal_axis()
bar.render_notebook()
```

![抖音大V点赞数TOP10(亿)]



点赞数TOP10,除了「小团团」和「毒舌」,其他都是新闻媒体类的大V。

今年因为疫情,有很多新闻在抖音上都是第一时间传播,所以影响力比较大,点赞也就比较多了。

记得「四川观察」还被评论区调侃为四处观察,意思是发布消息非常快。

```python
# 将数据分段
Bins =
Labels = ['0-100', '100-500', '500-1000', '1000-2500', '2500-5000', '5000-10000', '10000以上']
len_stage = pd.cut(df['likes'], bins=Bins, labels=Labels).value_counts().sort_index()
# 获取数据
attr = len_stage.index.tolist()
v1 = len_stage.values.tolist()

# 生成柱状图
bar = Bar(init_opts=opts.InitOpts(width="800px", height="400px"))
bar.add_xaxis(attr)
bar.add_yaxis("", v1,color = '#84E0E3')
bar.set_global_opts(title_opts=opts.TitleOpts(title="抖音大V点赞数分布情况(万)", pos_left="center", pos_top="18"),
                  toolbox_opts=opts.ToolboxOpts(is_show=True, feature={"saveAsImage": {}}),
                  yaxis_opts=opts.AxisOpts(splitline_opts=opts.SplitLineOpts(is_show=True)))
bar.set_series_opts(label_opts=opts.LabelOpts(is_show=True, position="top", color="black"))
bar.render_notebook()
```

![抖音大V点赞数分布情况(万)]
点赞破亿的有500多个大V,1000万到5000万点赞数的大V人数最多


## 粉丝数

```python
df = df.sort_values('fans', ascending=False)
attr = df['name']
v1 = ['%.1f' % (float(i) / 10000) for i in df['fans']]

bar = Bar(init_opts=opts.InitOpts(width="1000px", height="600px"))
bar.add_xaxis(list(reversed(attr.tolist())))
bar.add_yaxis("", list(reversed(v1)),color = '#84E0E3')
bar.set_global_opts(title_opts=opts.TitleOpts(title="抖音大V粉丝数TOP10(万)", pos_left="center", pos_top="18"),
                  toolbox_opts=opts.ToolboxOpts(is_show=True, feature={"saveAsImage": {}}),
                  xaxis_opts=opts.AxisOpts(splitline_opts=opts.SplitLineOpts(is_show=True)))
bar.set_series_opts(label_opts=opts.LabelOpts(is_show=True, position="right", color="black"))
bar.reversal_axis()
bar.render_notebook()
```

![抖音大V粉丝数TOP10(万)]

「人民日报」和「央视新闻」粉丝都破亿了。

和去年的抖音数据一对比,「热巴」还少了几十万的粉丝,陈赫倒是涨了不少粉丝。

今年直播带货火热,李佳琦排入前十,也不足为奇,毕竟带货一哥。

```python
Bins =
Labels = ['0-150', '150-200', '200-500', '500-1000', '1000-2500', '5000以上']
len_stage = pd.cut(df['fans'], bins=Bins, labels=Labels).value_counts().sort_index()

attr = len_stage.index.tolist()
v1 = len_stage.values.tolist()

bar = Bar(init_opts=opts.InitOpts(width="800px", height="400px"))
bar.add_xaxis(attr)
bar.add_yaxis("", v1,color = '#84E0E3')
bar.set_global_opts(title_opts=opts.TitleOpts(title="抖音大V粉丝数分布情况(万)", pos_left="center", pos_top="18"),
                  toolbox_opts=opts.ToolboxOpts(is_show=True, feature={"saveAsImage": {}}),
                  yaxis_opts=opts.AxisOpts(splitline_opts=opts.SplitLineOpts(is_show=True)))
bar.set_series_opts(label_opts=opts.LabelOpts(is_show=True, position="top", color="black"))
bar.render_notebook()
```

![抖音大V粉丝数分布情况(万)]


5000万以上56个,妥妥的大佬。

200w~500w的人数最多,好多一时爆火的博主,一段时间后也基本不怎么涨粉了。

可能都停留到了这里,比如以前刷过的「三支花」,想不明白这都能火...
## 评论数


```python
df = df.sort_values('comments', ascending=False)
attr = df['name']
v1 = ['%.1f' % (float(i) / 100000000) for i in df['comments']]

bar = Bar(init_opts=opts.InitOpts(width="1000px", height="600px"))
bar.add_xaxis(list(reversed(attr.tolist())))
bar.add_yaxis("", list(reversed(v1)),color = '#84E0E3')
bar.set_global_opts(title_opts=opts.TitleOpts(title="抖音大V评论数TOP10(亿)", pos_left="center", pos_top="18"),
                  toolbox_opts=opts.ToolboxOpts(is_show=True, feature={"saveAsImage": {}}),
                  xaxis_opts=opts.AxisOpts(splitline_opts=opts.SplitLineOpts(is_show=True)))
bar.set_series_opts(label_opts=opts.LabelOpts(is_show=True, position="right", color="black"))
bar.reversal_axis()
bar.render_notebook()
```

![抖音大V评论数TOP10(亿)]


抖音视频的评论区也是比较有意思的地方。

比如刷剧催更的,「赶紧去更新,都过了十几分钟了,生产队的驴都不敢休息这么久」。

还有五只疯狂摇头的猫,也占领了评论区一段时间。

更有特色的是@自己的朋友们,提醒他们看某个视频,这可能也是抖音的文化吧。

总的来说,媒体类的视频评论较多。
## 分享数


```python
df = df.sort_values('shares', ascending=False)
attr = df['name']
v1 = ['%.1f' % (float(i) / 100000000) for i in df['shares']]

bar = Bar(init_opts=opts.InitOpts(width="1000px", height="600px"))
bar.add_xaxis(list(reversed(attr.tolist())))
bar.add_yaxis("", list(reversed(v1)),color = '#84E0E3')

bar.set_global_opts(title_opts=opts.TitleOpts(title="抖音大V分享数TOP10(亿)", pos_left="center", pos_top="18"),
                  toolbox_opts=opts.ToolboxOpts(is_show=True, feature={"saveAsImage": {}}),
                  xaxis_opts=opts.AxisOpts(splitline_opts=opts.SplitLineOpts(is_show=True)),
                  yaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=30))
                   )
bar.set_series_opts(label_opts=opts.LabelOpts(is_show=True, position="right", color="black"))
bar.reversal_axis()
bar.render_notebook()
```

![抖音大V分享数TOP10(亿)]


抖音的分享是视频对外传播的一个方法,可以让更多的人看到视频。

从数据上看,大家还是比较喜欢分享新闻类以及美食类的视频。

可能过年疫情,居家一个月的时间,除了葛优躺看新闻,就是吃吃吃。

每个人,也就都有了一个成为大厨的梦想。

## 各类型点赞数/粉丝数汇总分布图


```python
# 分组求和
likes_type_message = df.groupby(['category'])
likes_type_com = likes_type_message['likes'].agg(['sum'])
likes_type_com.reset_index(inplace=True)
# 处理数据
dom = [{'name':name, 'value':num} for name, num in zip(likes_type_com['category'], likes_type_com['sum'])]

# 初始化配置
treemap = TreeMap(init_opts=opts.InitOpts(width="1000px", height="600px",theme=ThemeType.LIGHT))
# 添加数据
treemap.add('', dom)
# 设置全局配置项,标题、工具箱(下载图片)
treemap.set_global_opts(title_opts=opts.TitleOpts(title="各类型抖音大V点赞数汇总图", pos_left="center", pos_top="5"),
                        toolbox_opts=opts.ToolboxOpts(is_show=True, feature={"saveAsImage": {}}),
                        legend_opts=opts.LegendOpts(is_show=False),
                        
                     )
treemap.render_notebook()
```

![各类型抖音大V点赞数汇总图]


```python
dom = []
fans_type_message = df.groupby(['category'])
fans_type_com = fans_type_message['fans'].agg(['sum'])
fans_type_com.reset_index(inplace=True)
for name, num in zip(fans_type_com['category'], fans_type_com['sum']):
    data = {}
    data['name'] = name
    data['value'] = num
    dom.append(data)

treemap = TreeMap(init_opts=opts.InitOpts(width="1000px", height="600px",theme=ThemeType.LIGHT))
treemap.add('', dom)
treemap.set_global_opts(title_opts=opts.TitleOpts(title="各类型抖音大V粉丝数汇总图", pos_left="center", pos_top="5"),
                        toolbox_opts=opts.ToolboxOpts(is_show=True, feature={"saveAsImage": {}}),
                        legend_opts=opts.LegendOpts(is_show=False))
treemap.set_series_opts(treemapbreadcrumb_opts=opts.TreeMapBreadcrumbOpts(is_show=False))
treemap.render_notebook()
```

![各类型抖音大V粉丝数汇总图]


记得曾经一位大佬说过,抖音这个产品是消磨你时间的(Kill Time),而不是节约时间(Save Time),技术稍微深一点的视频基本上生存不下去。

由上面的矩形树图可以知道,大家都喜欢「美女」类型的视频,毕竟谁不喜欢漂亮妹子呢~

比如说深情看铜人的妹子、高考送满天星的妹子,彭十六elf等等,妹子爆火的视频太多了...

另外「搞笑」、「游戏」、「剧情」类的视频也比较吸引人,妥妥的Kill Time。

## 抖音大V毕业学校

```python
df1 = df[(df["school"] != "") & (df["school"] != "已毕业") & (df["school"] != "未知")]
df1 = df1.copy()
df_num = df1.groupby("school")["school"].agg(count="count").reset_index().sort_values(by="count", ascending=False)
df_school = df_num[:10]["school"].values.tolist()
df_count = df_num[:10]["count"].values.tolist()

# 初始化配置
bar = Bar(init_opts=opts.InitOpts(width="1200px", height="400px"))
bar.add_xaxis(df_school)
bar.add_yaxis("", df_count,color = '#84E0E3')
bar.set_global_opts(title_opts=opts.TitleOpts(title="抖音大V毕业学校TOP10", pos_left="center", pos_top="18"),
                  toolbox_opts=opts.ToolboxOpts(is_show=True, feature={"saveAsImage": {}}),
                  yaxis_opts=opts.AxisOpts(splitline_opts=opts.SplitLineOpts(is_show=True)))
bar.set_series_opts(label_opts=opts.LabelOpts(is_show=True, position="top", color="black"))
bar.render_notebook()
```

![抖音大V毕业学校TOP10]
北影、中传、浙传、中戏、上戏、央美,妥妥的演艺圈大佬。

## 抖音大V省份分布情况

```python
# 筛选数据
df = df == "中国"]
df1 = df.copy()
# 数据替换
df1["province"] = df1["province"].str.replace("省", "").str.replace("壮族自治区", "").str.replace("维吾尔自治区", "").str.replace("自治区", "")
# 分组计数
df_num = df1.groupby("province")["province"].agg(count="count")
df_province = df_num.index.values.tolist()
df_count = df_num["count"].values.tolist()

# 初始化配置
map = Map(init_opts=opts.InitOpts(width="1000px", height="600px"))
# 中国地图
map.add("", , "china")
# 设置全局配置项,标题、工具箱(下载图片)、颜色图例
map.set_global_opts(title_opts=opts.TitleOpts(title="抖音大V省份分布情况", pos_left="center", pos_top="0"),
                  toolbox_opts=opts.ToolboxOpts(is_show=True, feature={"saveAsImage": {}}),
                  # 设置数值范围0-600,is_piecewise标签值连续
                  visualmap_opts=opts.VisualMapOpts(max_=600, is_piecewise=False))
map.render_notebook()
```

![抖音大V省份分布情况]
可以看出西藏一个大V都没有,所以没有颜色。

广东、浙江、四川位列前三。

## 抖音大V简介词云

```python
"""
生成标题以及摘要词云
"""
words = pd.read_csv('../file/chineseStopWords.txt', encoding='gbk', sep='\t', names=['stopword'])
# 分词
text = ''
df1 = df != ""]
df1 = df1.copy()
for line in df1['signature']:
    text += ' '.join(jieba.cut(str(line).replace(" ", ""), cut_all=False))
# 停用词
stopwords = set('')
stopwords.update(words['stopword'])
backgroud_Image = plt.imread('../file/douyin.png')
# 使用抖音背景色
alice_coloring = np.array(Image.open(r"../file/douyin.png"))
image_colors = ImageColorGenerator(alice_coloring)
wc = WordCloud(
    background_color='white',
    mask=backgroud_Image,
    font_path='../file/simhei.ttf',
    max_words=2000,
    max_font_size=70,
    min_font_size=1,
    prefer_horizontal=1,
    color_func=image_colors,
    random_state=50,
    stopwords=stopwords,
    margin=5
)
wc.generate_from_text(text)
wc.to_file('../file/douyin_word.png')
print('生成词云成功!')
```

!


可以看到大部分大V都留下了商务合作的信息,利好内容创作者,如此才能双赢。

据统计,在抖音2200万以上创作者实现了超过417亿元的收入。

从创作到创益,这句话抖音讲的很好。
# 写在最后



不要让抖音消磨你大部分时间,毕竟还有很多事情比刷抖音有趣
文章所涉及的代码和文件(Jupyter文件夹里面的,即Jupyter版本),[点我进行下载]

----------


世界因代码而改变   Peace Out



: https://syjun.vip/usr/uploads/2020/11/1056086016.jpg
: https://syjun.vip/usr/uploads/2020/11/douyin.html
: https://syjun.vip/usr/uploads/2020/11/1260646992.jpg
: https://syjun.vip/usr/uploads/2020/11/2419832584.jpg
: https://syjun.vip/usr/uploads/2020/11/672915606.png
: https://syjun.vip/usr/uploads/2020/11/754417513.png
: https://syjun.vip/usr/uploads/2020/11/910534690.png
: https://syjun.vip/usr/uploads/2020/11/539325792.png
: https://syjun.vip/usr/uploads/2020/11/2900751743.png
: https://syjun.vip/usr/uploads/2020/11/478448991.png
: https://syjun.vip/usr/uploads/2020/11/3350469848.png
: https://syjun.vip/usr/uploads/2020/11/3498093390.png
: https://syjun.vip/usr/uploads/2020/11/4180087497.png
: https://syjun.vip/usr/uploads/2020/11/3302347334.png
: https://syjun.vip/usr/uploads/2020/11/743989255.png
: https://syjun.vip/usr/uploads/2020/11/4246974234.png
: https://wwx.lanzoux.com/idjuuiu8jbg

正己 发表于 2020-11-27 22:04

Java_S 发表于 2020-11-27 22:02
哈哈哈 好兄弟,我正准备在企鹅上告诉你呢
哈哈哈哈,你发的时间点刚刚好,正好十点,我的server酱刚好更新,就给我推信息了

Java_S 发表于 2020-11-27 22:05

正己 发表于 2020-11-27 22:04
哈哈哈哈,你发的时间点刚刚好,正好十点,我的server酱刚好更新,就给我推信息了

不多说了,一切都是缘分

AsuraSong 发表于 2020-11-27 22:01

谢谢楼主分享,值得观看的好文

正己 发表于 2020-11-27 22:02

来了来了,前几天才刚问你了,这么快就把源码放出来了{:301_988:}

Java_S 发表于 2020-11-27 22:02

正己 发表于 2020-11-27 22:02
来了来了,前几天才刚问你了,这么快就把源码放出来了

哈哈哈 好兄弟,我正准备在企鹅上告诉你呢

hacksz 发表于 2020-11-27 22:11

哇!不错
值得学习

红蓝黄 发表于 2020-11-27 22:33

好好学习

lamjiarong 发表于 2020-11-27 22:35

不错,值得学习!收下了!

kuangshen133 发表于 2020-11-27 22:49

先收藏了,感谢楼主
页: [1] 2 3 4
查看完整版本: Python分析5000+抖音大V,原来大家都喜欢看这类视频呀!(数据可视化&数据分析)