科技教室丨每周五更新 奈飞的机器学习影片推荐体系

上节我们讲到奈飞为每部影片提供非常详细的电影标签,并通过机器学习优化网站推荐体系

奈飞实际上形成了一套比较系统的电影标签词库体系,这一词库详尽到包括经常出现的形容词,地理位置(东方或西方),电影的来源(真实生活还是基于古典文学),基于哪一时代(如“爱德华时代”)甚至更细致的时间段,比如自1980年以来,或适于儿童8岁到10岁

有研究者利用爬虫技术爬取奈飞的标签数据,发现并归纳总结了很多有趣的现象: 奈飞最受欢迎的主题是婚姻,忠诚,亲子关系,重新团聚的恋人等; 奈飞最受欢迎的主题是婚姻,忠诚,亲子关系,重新团聚的恋人等; 奈飞电影经常使用的地理位置主要包括欧洲,亚洲,澳大利亚、新西兰等

奈飞影片最受欢迎的影片年代为80年代,其次为70年代

当然利用详细标签和机器学习来提高影片推荐的精准性并不是奈飞所使用的唯一手段

另外一种方法就是利用电影预测评分体系

这种方法的最基本原则就是综合考虑电影本身的受欢迎程度评分和根据观众个人口味预测的评分,如下图的二维图显示如何利用线性回归综合考虑这两种因素,这样做的好处是能够避免某些即使不受大众欢迎但是为“某人所爱”的边缘电影被冷落在推荐范围之外

另外,在这个模型当中怎样才能决定这两个因素哪个的权重更重呢?一个是通过A/B 对比测试

然而这种方法是比较耗时的

另外一种方法就是通过机器学习,从历史数据中找出正反参考样本,并利用算法让机器自动学习,这种环境跟搜索引擎和定向广告的环境原理非常相似

当然除了观众整体受欢迎程度和观众自我评分这两种因素,奈飞也考虑过其它一些网站功能特点因素

有一些因素则对评分推荐体系有正相关影响,有一些则对提高评分推荐体系没有什么明显的影响

如下图所示,在计入了一些其他网站功能特点因素并提高机器学习运算体系之后,能够大大提高依靠评分体系推荐的准确度



欢迎投稿 职场/创业方向. 邮箱wangfzcom(AT)163.com:王夫子社区 » 科技教室丨每周五更新 奈飞的机器学习影片推荐体系

点评 0

评论前必须登录!

登陆 注册