# 策略

召回阶段需要从海量的标的物中选取，通常使用不同的召回策略满足内容的多样性，新颖性等要求。

# 基于规则的召回

比如热门内容等。

比如按人群特征推荐不同内容。

也叫做标签召回，这类召回的核心是基于item自身的属性，表达为tag，cate，也可以用来表达用户ID，用户类型，更可以通过交叉验证的方式，对内容提取向量，将内容表达为连续向量的方式进行召回。

核心思想是推荐操作过的物品相似的物品，或者推荐相似用户喜欢的物品。优点是不需要其他用户的数据，捕获用户的特定兴趣。缺点是item特征工程需要手工设计，并且用户兴趣过窄。通常可用于冷启动。

协同过滤依赖大量用户的行为，核心思想是推荐操作过物品的相似物品（ItemCF），或者推荐相似用户喜欢的物品（UserCF），以及基于模型（Model-Based）。和基于内容的召回的区别是，基于内容的召回的相似性基于物品和用户自身的属性，协同过滤基于用户和物品的行为矩阵。

通过Embedding计算相似度，分为深度学习u2i，内容语义i2i，图表征i2i。

离线将i2i或u2i关系计算并存到数据源，在线服务从数据源读取。数据源是数据库，比如MySQL，PostgreSQL，Redis，HBase等。

对于新商品或新用户需要有兜底方案，比如热门商品。

离线或在线计算item embedding和user embedding间距离最近的embedding，通常不直接计算相似度，而是通过向量召回引擎如faiss²⁸。

局部敏感哈希。