type
status
date
slug
summary
tags
category
icon
password
推荐系统:
 
资讯推荐系统,本质上要解决用户,环境和资源的匹配
 
第一个维度:内容,需要考虑怎样提取不同的内容类型特征做好推荐。
第二个维度:用户特征,兴趣标签,职业,年龄
第三个维度:环境特征,移动互联网的特点,在工作场合,通勤,旅游等不同场景,信息偏好有所偏移
 
典型推荐特征:
一: 相关性特征,评估内容的属性与用户是否匹配,显性匹配:关键词,分类,来源,主题, 隐性匹配:用户向量与内容向量
二: 环境特征: 地理位置,时间
三: 热度特征: 全局热度,分类热度,主题热度,关键词热度,内容热度信息在大的推荐系统,特别是用户冷启动的时候非常有效
四: 协同特征: 帮助解决算法推荐越来越窄的问题。通过用户行为分析不同用户之间的相似性,比如点击相似,兴趣分类相似,甚至向量相似,扩展模型的探索能力。
 
文本特征
  1. 没有文本特征,内容冷启动非常困难,
  1. 协同类特征无法解决冷启动问题
  1. 颗粒度越细的文本特征,冷启动能力越强 【拜仁慕尼黑】vs【体育】
 
文本实体词识别算法
 
分词&词性标注 =》 抽取候选 -》 去歧义 -》 计算相关性
 
用户标签
 
兴趣特征:
  • 感兴趣的类别和主题
  • 感兴趣的关键词
  • 感兴趣的来源
  • 基于兴趣的用户聚集
  • 各种垂直兴趣特征(车型,体育球队,感兴趣股票)
 
身份特征:
  • 性别
  • 年龄
  • 常驻地点
 
行为特征:
  • 晚上才看视频
 
 
流式计算和批量计算混合使用
大部分 user profile 采用流式计算
  • 多个粒度的兴趣标签
  • 垂直领域 profile
 
对时效性不敏感的 user profile 采用 batch 计算
  • 性别, 年龄
  • 常驻地点
 
 
Elon Musk 传记是谁阻碍你看到真相?