数据中台:从0到1打造一个离线推荐系统
编辑导语:如今电商平台发展的十分迅速,很多用户都会选择在各种电商平台进行消费,并且现在的电商平台对于推荐算法的机制更加精确;本文作者分享了关于如何从0到1搭建一个离线推荐系统的全流程,我们一起来了解一下。
文章插图
之前文章讲了《数据中台:2个实战案例教你搭建自动化营销平台》;这篇文章我们以一个电商类推荐系统项目为例,介绍从0到1搭建一个离线推荐系统的全流程。
一、离线推荐系统设计思路对于电商类产品来说,实时的推荐系统已经是标配的功能,因此我们的目标是做一个实时的推荐系统,但如果我们还没有推荐系统,那么一步做出实时推荐系统还是有些难度的。
我们可以分两个阶段实施,第一阶段先设计一个离线的推荐系统,做到隔天推荐,第二阶段再基于这个离线的推荐系统进行改造,做出实时推荐系统。
搭建推荐系统的核心问题是召回算法的选择,在刚开始搭建推荐系统时可以选择一些经过验证的、逻辑清晰、运营稳定的召回算法;基于物品的协同过滤算法、基于商品内容的推荐算法都比较适合电商产品,一些大型的电商巨头如亚马逊、淘宝也都在使用。
二、离线推荐系统算法选型在实际项目中,我们使用的第一个召回算法是基于物品的协同过滤算法。
构建推荐系统的最基础的算法是基于用户的协同过滤算法和基于物品的协同过滤算法,这是标配。
上文曾提到这两个算法的优缺点,对于电商产品来说,其实更适合使用基于物品的协同过滤算法,该算法的核心原理是:如果大多数人购买商品a的同时又购买了商品b,那么我们就可以向买了商品a的用户推荐商品b。
在实际项目中,我们使用的第二个召回算法是基于商品分词的算法。整体思路是:先基于用户的历史行为数据找出用户可能喜欢的商品,将商品名称通过ES搜索引擎进行分词操作,并且给每个分词进行打分,然后通过分词搜索商品库中能够匹配到的商品,搜索引擎会自动给出匹配的分数。
比如一个用户喜欢的商品的名称为“秋冬新款韩版破洞宽松长袖T恤”,通过分词处理后就可以得出用户偏好的分词有秋冬、新款、破洞、宽松等,通过这些分词在商品库中搜素就能得到可能和“秋冬新款韩版破洞宽松长袖T恤”相似的商品;这种推荐方式也属于内容推荐的一种,实现起来比较容易。
在冷启动的情况下,我们会用到保底算法。在实际项目中,我们使用的保底算法基于商品的热度模型。商品的热度模型定义了商品近60天的销售指数,商品的浏览人数、加购人数、收藏人数等指标被分别赋予不同的权重,用来计算商品的热度。对于一个新用户,或者一个使用各种召回推荐算法都没有算出感兴趣商品的用户,我们可以在热销商品中筛选出基于用户偏好的热销商品。如果无法确定用户的偏好,我们可以直接推荐热销的商品给用户,这是保底策略。
接下来要选择排序算法,每个召回算法都会计算出用户感兴趣的商品,那么我们如何从这些召回算法推荐出来的商品中选出一部分推荐给用户呢?
前文已经讲过——如果每个地方出来的状元都彼此不服,那么我们就再统一进行一次考试,通过考试的成绩决定,也就是将这些不同算法推荐出来的商品进行排序;推荐的最终目的是让用户浏览我们的商品,最理想的结果就是让用户购买我们推荐的商品。我们需要预测用户是否会点击我们的商品,从而根据预测的点击率排序。
接下来笔者介绍一下推荐算法中常用的排序算法:“GBDT+LR”算法。
笔者简单介绍一下“GBDT+LR”算法。GBDT(Gradient Boosting Decision Tree),即梯度提升决策树;LR(Logistic Regression),即逻辑回归。使用“GBDT+LR”算法预测点击率需要两个数据:特征和权重。
特征比较好理解,比如一个用户的年龄、地址,该用户近期浏览过某品类的商品的次数,加购过这个品类的商品次数类似等,都是特征。
权重是由人工制定并通过数据再不断优化的参数。比如一个用户如果浏览过这个品类,我们觉得用户有40%的可能喜欢该品类;一个用户如果加购过这个品类,我们觉得用户有60%的可能喜欢该品类。这里面的40%和60%,就是我们设定的权重。
【数据中台:从0到1打造一个离线推荐系统】GBDT模型的具体操作可以理解为:不断对一个用户提问。
- 比如向用户提问:是女性用户吗?
- 如果答案为“是”,再问:喜欢毛衣吗?
- 优派|美国很满意:150多家芯片厂商,都“自愿”提交了详细数据
- 苹果|要是不看真实数据,我还以为国产机将iPhone打成下一个三星了呢
- 量子计算|从微商到直播,一个顶流江湖的兴衰
- 何树山|合肥国际互联网数据专用通道开通
- 互联互通|从3999跳水至2399,小米11加速退场,你还选择骁龙870吗?
- Python|联想真的没有问题?中国院士公布数据,胡锡进改变立场
- 目标|目标用户从哪来?
- 叮咚|从商品采购到商品开发,叮咚买菜打造生态型供应链体系
- 马云|媒体采访马云:如此富有为何从不“花天酒地”?马云回答引人深思
- 龚文祥|从微商到直播,一个顶流江湖的兴衰