豆瓣评分的厉害之处

2018-08-21 12:00 评论 0 条

如前所述,豆瓣评分的核心要解决的是“尽力还原普通观影大众对一部电影的平均看法”。为了达成这一目标,豆瓣评分也是想了各种办法。而豆瓣的评分的算法也经历了一些变化。

豆瓣最早,当然也是最通用的算法,就是把所有人的评分加起来,然后除以人数,得出一个平均分。

这样的好处,就是清晰的体现出电影在观众眼中的平均水平,而且非常节省人力,只需要程序定时收集用户的评分,计算一个算数平均分就OK,不需要更多的人力。

但是,这套规则显然也是会有一些问题的。比如说——

1. 电影的评分存在刷分的风险。只要人数够多,就有可能使得一些电影的评分向他们想要的方向发展,也就是我们最关心的刷分问题。

2. 小众电影的评分可能会高于大众电影。假如说有两部电影,电影A,1000人看过,全部评分均为10分;电影B,1万人看过,评分平均值为9分。

这种情况下电影A好还是电影B好?如果只看评分的话,A可能更好,但是,如果看整体的话,B会更好,这个时候该如何判断呐?

为了解决这两个问题,豆瓣都有针对性的提出了一些方法,而这背后的核心思想就是反作弊的策略。

 

所谓“策略”,往往是一套由数据驱动,存在于产品当中的一套规则与机制。

再换个角度解释,如果一家企业的核心业务高度依赖于人的工作,员工的管理问题可能会是复杂度极高、且稳定性较难保障的。

而一家公司的核心业务如果是依赖于机器在跑,那么则将是很稳定并且可持续的。而机器的运转,需要被规则来约束,而那些支撑机器运转的规则,就是策略。

当我们面临海量的需求和信息需要处理,又积累了足够多的数据,我们其实是可以借助于策略帮助我们解决许多依赖人力难以解决的问题。

而当我们设计“反作弊”的策略时,通常而言,会是这样一个理解和思考路径——

1. 首先是通过数据挖掘和分析,对通常的用户行为与“异常”的用户行为分别进行定义。

2. 其次是针对不同的用户行为,设定不同的解决方案。

3. 最后,则是将解决方案与用户之间进行匹配,而针对用户与解决方案进行匹配的过程,就是“策略”。

一个最简单的例子是,假如说一个电影同时有100个人在很短时间里刷好评或者刷差评的时候,系统就将这种行为定义为一个“异常”的用户行为,然后就删掉这些评分。

那么,我们再来看看,豆瓣是如何使用策略的思考方法解决这个问题的。

 

豆瓣如何避免刷分

在回答这个问题之前,我们需要提前做一个说明,我们这里介绍的是大多数评分平台在面对反作弊这个问题的时候常用的解决方案,至于豆瓣再具体实践过程中是如何解决这个问题,肯定会有一些差异,但是,对于我们理解这个问题来说,应该是具有一定的参考价值的。

首先,我们需要通过数据挖掘,来定义出一个通常的用户行为和“异常”的用户行为。

这里的异常,判断维度有很多,比较常见的可能有数据维度和用户维度。

比如说,从历史来看,一部电影即使在最热门的时候,一个小时平均也只能同时受到100个人的5星好评。

假如在一段时间里,某个电影的评分操作超过这个数值,我们就定义为异常数值,没有,则是正常数值。

从用户角度,可能的维度有,他的行为与历史行为之间是否相符,与和他类似的用户之间行为是否类似。

比如说,一个用户从来只看恐怖片,几乎不给爱情片打分,如果他突然给一部很冷门的爱情片打了分,这个时候,可能就是有异常的用户。

当我们对用户和数据都进行了明确的定义之后,就需要对是否作弊有一个判断规则。

比如说,当两个维度中,只有一个发生了异常,则交由人工来判断,如果两个都发生了异常,则完全定义为作弊。

版权声明:本文著作权归原作者所有,欢迎分享本文,谢谢支持!
转载请注明:豆瓣评分的厉害之处 | 鹏飞园
分类:好文分享 标签:

发表评论


表情