我是如何为技术博客设计一个推荐系统(上):统计与评分加权
过去的两周里,我一直忙于为 『玩点什么』 设计一个推荐系统。在这个过程中,参考几本书籍,查找了一系列的资料。想着这些资料上,大部分都是大同小异的,实现了几个简单的推荐功能,改进了标签推荐算法,便想着写篇文章记录一下。
『玩点什么』,是一个基于 Django、Python 的 CMS 系统(Mezzanine)。是的,和我的博客使用的是同一个 CMS 系统。由于使用的是 Python 语言,因此对于机器学习具有天生的优势。
推荐系统
推荐系统是一种信息过滤系统,用于预测用户对物品的“评分”或“偏好”。
对于推荐系统系统来说,目前采用的主要方式是:
- 基于内容推荐:内容之间的相似度,如文章的标签、电影的属性、书籍的分类。
- 协同过滤(待实现):用户之间的相似度,如喜欢看科幻片的 A、B 用户、并且都看过 a 电影,A 喜欢看的 c 电影,B 也可能喜欢 c 电影。
要实现这两种方式有一个前提是,用户数据。特别是协同过滤,需要有大量的用户行为数据。对于一些大的社交应用、有大量的用户,如微信来说,还会有:
- 基于社区推荐,如,你的好友喜欢什么,就会为你推荐王者荣耀。
- 基于人口统计学,即我们网上看到的各种区域性人的偏好,各种地域黑~。
上面主要是依赖于大量的用户数量,当我们没有大量的用户数据时。我们可以先采用其它的方式:
- 基于统计学推荐,诸如文章的阅读量、分享量,又或者文章的评分数。
- 基于标签推荐,对于专业领域的文章来说,作者提交的标签往往比机器生成更加可靠。
除此,按我的理解,对于专业领域来说,还会有一种方式是:
- 基于知识图谱推荐,如我之前做的技能树和 Growth,便是其中的一种方式。
这种成知识体系的文章,往往对于用户来说,更具备价值。
收集用户数据(一):统计
那么,现在先让我们从收集用户数据谈起。
因为不论是哪一种推荐方式,其都依赖于应用服务提供者所拥有的数据、数据、数据。没有数据,你所谈的算法都是在耍流氓,你所学的机器学习、深度学习算法也是在而流氓,只谈算法不谈收集数据都是在耍流氓。他们的学习成本都很低,几星期几个月,差不多能学好七八十。可是要是没有 ImageNet 的图片数据、CNN 的上亿条新闻数据,这一些算法都没有价值。
而如我在《全栈应用开发:精益实践》所写,数据分析应该在我们上线了第一个 DEMO 之后,或第一个正式版就必须上线的功能,以实现产品的精益化。
精益环路
它只是数据分析的第一步,引入一些数据分析的工具——只需要引入 Google Analytics、又或者 Piwik 这样的工具,就可以轻松地帮我们做数据统计。这些功夫,基本上只需要半天就做完了。这时,当我们谈及收集用户数据的时候:
- 对于技术人员来说,无非就是用户的地域、浏览器、操作系统等等,这些相关的信息会影响到用户的体验、技术决策等等。
- 对于业务人员来说,他们可以了解某个产品的浏览量、受欢迎程度、爱欢迎的区域等等。
只是这些数据,并不能帮我们做出一个优秀的推荐系统。这时,我们是基于统计学,只能统计出哪些产品受用户欢迎:
事件追踪
但是,这已经可以实现我们的第一个推荐系统。
(PS:另外一部分用户数据收集,见下篇)
基于统计学:访问量及评论数推荐
我过去一直觉得,依据统计博客、文章的访问量来推荐是不可靠的。
- 一篇文章可能因为观点受争议,如 『PHP 不再是最好的语言』,而着有极高的访问量。可这个时候,用户往往是通过标题和摘要来理解作者的观点,往往就会轻易地下定论。又有一些用户,比如我则喜欢看热闹,去下面回复一个『JavaScript 是最流行的语言』。
- 一篇文章可能因为大 V 的流量效应,而导致 他/她/也 的每一篇文章都有极高的访问量
- 。。。
并且使用流量统计也容易被攻击,只需要一些诸如『流量精灵』这样的软件,就可以提高文章的访问——虚假的繁荣。
一般来说,大部分的社区都会将流量大的内容、话题等,放在首页显眼的位置。从这个推荐的位置,我们就可以知道这个社区的『水平』。衡量一个社区的『水平』,无非就是最受欢迎文章的类型,如简书的鸡汤,知乎的故事。但是,这些并不代表着这些社区的真实水平,却反应了这些社区的主要受众。
简书示例
好在简书是编辑推荐制,但章的质量还是『有一定』保证的,但是文章的性质改不了鸡汤。
考虑到我过去曾经刷过访问量,以及流量统计对于数据库性能的影响,我决定改进一下统计代码,即将统计代码放在 JavaScript 中,通过 Ajax 请求实现。而我在这个过程中,犯了一个严重的错误就是,忘了在前端屏蔽中的爬虫。我虽然在 Nginx 里,直接过滤了一部分的爬虫,但是诸如 Google、百度、Bing 都是允许的,而 Google bot 则会在页面上执行 JavaScript,因此每篇博客都被刷了好多阅读量。
Google 爬虫数据
于是,只好在前端做一些相关的处理。
var botPattern = "(googlebot/|Googlebot-Mobile|Googlebot-Image|Google favicon|Mediapartners-Google|bingbot...";var botRe = new RegExp(botPattern, 'i');var userAgent = navigator.userAgent;if (!botRe.test(userAgent)) {}
而除了,上面说到的鸡汤问题。它也有一些额外的好处,如:
- 长尾效应。这种高流量的文章、商品,往往能带来长尾效应,就像亚马逊上的畅销书,畅销书本身是不赚钱的。但是网站可以通过相关的文章、产品,来获得更多的阅读及利润。而这取决于,我们为用户推荐的相关产品,是不是真正是用户需要的。
考虑到上面的鸡汤流量问题,它可以吸引大量的人气,但是会导致劣币驱除良币的产生——大量产生优秀内容的作者,写不出受大众欢迎的文章。举个例子,技术写作来说,面向新手的文章,往往会有比较高的阅读量;而面向中高端用户的文章,则阅读量低。可要是首页都是新手文章,流量和受众就会越来越多,但是高端用户就会离开这个社区。
因此,我们还可以采用用户评分,来增加一个新的榜单,如 Medium 和 『玩点什么』的第二种推荐方式。
玩点什么首页推荐
它可以在保证流量的同时,也不降低网站的质量。
基于统计学:评分及 IMDB 加权算法推荐
软件开发,本身是以演进的形式进行的。不论,我们是开发基于内容的推荐系统,还是协同过滤的系统,它都依赖于我们拥有一个评分系统。与此同时,如果我们没有足够的用户,我们也进行不了内容推荐和协同过滤,因此设计一个稍微完善一点的评价排名,便显得很有必要。
下图是『玩点什么』的评分,用户不需要登录就可以评分:
玩点什么评分示例
尽管没有登录是一个风险问题,然而对于一个内容网站来说,刷评价的意义并不大。
在真实应用的过程中,遇到了一个问题:
- A 文章只有 5 个评分,且都是 5 分;
- B 文章则有 100 个评分,平均值则是 4.8 分;
这个时候,我们很难判定 A 就比 B 好,于是在知乎上看到了一个相关的评分算法,即(更多信息可以阅读:IMDB 给出的电影评分的计算方法是怎样的?),又可以称为 IMDB TOP 250 评分算法。
它是由贝叶斯统计的算法得出的加权分(Weighted Rank-WR),其公式如下:
(WR) = (v ÷ (v+m)) × R + (m ÷ (v+m)) × C
- WR, 加权得分(weighted rating)。
- R, 该电影的用户投票的平均得分(Rating)。
- v, 该电影的投票人数(votes)。
- m, 排名前 250 名的电影的最低投票数(现在为 3000)。
- C, 所有电影的平均得分(现在为6.9)。
于是,我的算法代码就变成了这样:
def imdb_rank(average_rating, votes_number): minimum_votes = settings.MINIMUM_VOTES correctly_votes_rate = settings.CORRECTLY_VOTES_RATE return (votes_number / (votes_number + minimum_votes)) * average_rating + (minimum_votes / ( votes_number + minimum_votes)) * correctly_votes_rate
然而,在计算排序的时候,我不是拿所有的文章排序,而是:
- 从所有文章中过滤出能达到最小评分数的文章
- 按评分值,对这些文章进行排序,取前 10
- 对前 10 中的这些文章,进行 imdb_rank 计算,取前 3
这样做的主要原因是,出于服务器性能考虑。
待改进
可是我给一个文章五分,并不代表我真的喜欢这篇文章。正如,我在某宝上不敢给差评一样,万一被骚扰了呢。但是我喜欢一个东西,我会给一个评论。因此,我会开心地留个言,又或者是在留言给个差评:卖家真好,卖了个手机壳,送了个手机。
因此,目前行业内有一些做法是,评分 + 评论分析,从评论中分析出用户的真实想法。
网站地址:https://www.wandianshenme.com/
文章太长,在下篇中,我将介绍:
- 基于标签
- 基于内容推荐
- 协同过滤
- [个人翻译]Redis 集群教程(下)
- [个人翻译]Redis 集群教程(中)
- 自学Apache Spark博客(节选)
- scrapy爬取免费代理IP存储到数据库构建自有IP池
- 每天一个Linux命令:netstat
- Hadoop - MapReduce
- 进击的爬虫:用Python搭建匿名代理池
- 计算机程序的思维逻辑 (5) - 小数计算为什么会出错?
- QQ空间爬虫最新分享,一天 400 万条数据
- 计算机程序的思维逻辑 (4) - 整数的二进制表示与位运算
- Python中典型内建函数的用法
- 软件开发接力赛的最后一棒:上线发布
- 计算机程序的思维逻辑 (3) - 基本运算
- 突破反爬虫的利器——开源IP代理池
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- Flutter性能调优、复杂业务保证Flutter的高性能高流畅
- requests项目实战--抓取百度热搜
- [代码片段]谷歌的一个不错的CSS样式,不得不说大厂的前端设计师美感就是好。
- 罗马数字转整数
- 找出两个文件中相同的单词(java实现)
- Apache日志变量详解
- 三、jQuery中的Ajax
- SAP ABAP ADBC和Java JDBC的使用比较
- 自己开发的一个SAP CRM订单统计工具
- SAP ABAP和Java跨域请求问题的解决方案
- 使用ABAP Channel实现一个订单跟踪工具,提高日常工作效率
- SAP CRM状态字段下拉列表里数据的填充原理
- SAP CRM订单状态管理的一些重要的数据库表
- Angular应用的依赖注入调试
- 给Angular应用增添搜索Search功能