如何用Python爬取B站黑神话热门弹幕进行情感分析和词云展示?
摘要:黑神话悟空背景介绍 最近黑神话悟空这款游戏可谓红遍大江南北,不仅IGN给出了8分的高分,就连央视新闻都有报道。作为国内第一款单机大作:出圈的是游戏,输出的是中国文化,受到了广大游戏玩家的追捧和赞扬。 针对此热门事件,老王我用python爬虫
黑神话悟空背景介绍
最近黑神话悟空这款游戏可谓红遍大江南北,不仅IGN给出了8分的高分,就连央视新闻都有报道。作为国内第一款单机大作:出圈的是游戏,输出的是中国文化,受到了广大游戏玩家的追捧和赞扬。
针对此热门事件,老王我用python爬虫和情感分析技术,针对B站的弹幕数据,分析了黑神话悟空这款热门游戏弹幕的舆论导向,并生成了词云图,下面我们来看一下,python代码是如何实现的。
B站弹幕接口分析
目标网址:https://www.bilibili.com/video/BV1AE4m1d7XT/
B站最新的弹幕接口采用的是 protobuf编码 的格式,我们来简单分析一下。
通过搜索黑神话悟空视频弹幕上的关键字,发现压根搜不到,那说明大概率是加了密或进行了特殊编码的文字。
这也难不倒我们,就当多干点苦力活吧,一个一个的从接口里找一下吧!
通过查找,我们找到了疑似弹幕的接口,看起来是一个二进制文件。
直接预览出现乱码,但是可以看见一部分的弹幕内容,已经可以确定这个就是弹幕文件了,但是有许多乱码在里面,不过仍可以查看部分弹幕内容。
老王这次不准备对protobuf编码的文字进行解码,而是告诉大家一个更简单的方法。
