金角大王将宝葫芦倒置,喊声:孙行者。悟空应了一声,嗖的一声便被吸了进去。金角大王查看时,里面除了孙悟空,还有行者武松、苍井空、孙权、六耳猕猴、金刚等一干人。金角大王惊讶道:只喊孙行者,怎来了这许多。宝葫芦开口言到:这都是你“可能感兴趣的人”。
在大家平时生活中一定也遇到过不少类似的事情,最常见的当然就是在大家网上购物时的了,当你搜索一个物品或者点赞一个抖音之后,系统便会给你推荐相关物品或者同类型的抖音短视频,也就是“可能感兴趣的物品和视频”,通过推荐系统的计算,顾客不需要花费大量的时间才能找到自己想买的商品,商家也可以用更低的成本将自己的产品更精准的推送到用户面前。推荐系统在电商网站、新闻网站、电影和视频、音乐、社交网络、广告等领域已经得到了广泛的应用,其作用越来越受到重视。
推荐算法过程
在讲东西推荐给用户之前,推荐系统首先要做的是分析用户。这时我们就需要大量的用户数据了,用户的数据越多越详细推荐就会越精准。在物品和用户分析方面,一些关键字和用户的基本信息比如用户年龄、性别、购物偏好、评分以及查看过哪些物品甚至地区等因素来进行分析,通过推荐引擎将不同的物品推荐到不同的用户面前让他们看到。
在推荐中,又分为大众化推荐、差异化推荐、个性化推荐;大众化推荐,顾名思义是对大众进行推荐的,其主要是推荐一些热销产品,精品等;而差异化推荐则会通过用户的浏览记录、购买记录这些来进行推荐;个性化推荐,就会根据用户的个人偏好了。
协同过滤算法
协同过滤推荐算法是诞生最早,并且较为著名的推荐算法。主要的功能是预测和推荐。算法通过对用户历史行为数据的挖掘发现用户的偏好,基于不同的偏好对用户进行群组划分并推荐品味相似的商品。协同过滤推荐算法分为两类,分别是基于用户的协同过滤算法(user-based collaboratIve filtering),和基于物品的协同过滤算法(item-based collaborative filtering)。简单的说就是:人以类聚,物以群分。下面我们将分别说明这两类推荐算法的原理和实现方法。
于用户的协同过滤算法是通过用户的历史行为数据发现用户对商品或内容的喜欢(如商品购买,收藏,内容评论或分享),并对这些喜好进行度量和打分。根据不同用户对相同商品或内容的态度和偏好程度计算用户之间的关系。在有相同喜好的用户间进行商品推荐。简单的说就是如果A,B两个用户都购买了x,y,z三本图书,并且给出了5星的好评。那么A和B就属于同一类用户。可以将A看过的图书w也推荐给用户B。计算用户之间的相似度,根据相似度排序选择n个用户,将这些用户喜欢的物品集合中的目标用户还没有产生行为的物品推荐给目标用户
相似度计算有几种经典的算法:杰卡德系数、欧氏距离、杰卡德系数 、欧氏距离、余弦相似度 、皮尔逊相似度都是比较常见的
在这里不多做介绍了,如果大家有兴趣可以加图片下方的群去了解一下,关于推荐系统的理论和实战会像实时交易监控系统那样录制成视频免费分享给大家。
大多数情况下,几种方式计算的结果是一致的
杰卡德系数关心的是样本间共同具有的特征,只能处理符号或布尔值类型的维度数据
欧氏距离能够体现个体数值特征的绝对差异,所以更多的用于需要从维度的数值大小中体现差异的分析
余弦相似度更多的是从方向上区分差异,而对绝对的数值不敏感,更多的用于使用用户对内容评分来区分兴趣的相似度和差异
皮尔逊相似度相当于中心化后再计算余弦相似度,当维度取值范围不一致时可以得到更精确的结果
基于物品的协同过滤
协同过滤的选择
基于用户:
基于物品:
关于大数据推荐系统的理论与实战的详细讲解,我分成两期录制了视频,如果大家对推荐系统感兴趣和想学习大数据的同学可以加群:724693112免费领取视频学习,群里还有其它大数据相关的学习资料可以领取。
推荐流程
海量Item、召回、候选集合、排序、排序列表、规则、topN、展示、结果页面。
各大企业推荐系统架构
下面我们看看亚马逊、优酷、携程、陆金所等知名企业的推荐系统架构是怎样的
通用架构
电影推荐系统
最后和大家一起看看电影推荐系统的一个架构
推荐数据源:
第一类:视频数据流,视频元数据(标题,描述等)
第二类:用户活动数据,主要分为两种。
1 -> 直接活动:对电影评分,对电影点赞,订阅一个上传
2 -> 间接活动:用户观看电影的时长
本文由威海软件开发公司半岛科技转载整理2018.07.07