用户特征
用户行为序列特征
用户行为序列的构成,可以从多个方面进行考虑:
- 用户历史全网/场景点击的行为序列;
- 用户历史全网/场景点击后行为的序列,例如购买、收藏、加购、评论等;
- 用户历史全网/场景曝光序列或曝光未点击序列;
- 用户历史全网/场景分时间窗口聚合行为序列,将时间窗口内 items 的 Embedding 进行信息聚合。其在没有SIM和MIMN(长用户行为序列的处理模型)建模方式之前用于拉长用户行为序列覆盖时间;
除了包含行为 item_ID 外,还有以下可以考虑:
- 该 ID 的拓展属性特征,例如对应的类目 ID 等粗粒度;
- 用户行为瞬间的 side information,例如点击后的收藏加购、行为时间距离当前请求的时间差、用户行为后的停留时长、行为 timestep 中的位置、来自推荐域还是搜索域等;
- 拓展当天 timestep 的上下文信息,例如当天行为 item 的类目的曝光/点击频次,TF-IDF等,避免某类目或 item 过度曝光导致的问题;
用户统计反馈特征
- 时间窗口内的统计数据,主要为Dense特征,例如UV、PV、CTR等;
- 对 Embedding 进行统计数据,例如用户30天内的类别聚类特征结果为 {cate_id_1: freq1, cate_id_2: freq2 …} 那么可以计算 sum(Emb1 * freq1) 输入模型当中,同样是一种统计层面的特征提取;
用户静态属性反馈
- 基础人口属性:年龄、性别、城市等;
- 基础社会属性:会员、购买力、婚育等;
- 兴趣偏好类:用户画像/标签,例如美食、旅游等;
拓扑特征
构建拓扑关系的通常是好友关系、相同购买、相同行为等等;
通常将拓扑关系转化为 Embedding 输入模型进行训练;同时也可以考虑统计层面的特征;
用户搜索词特征
因为搜索词可以很好的展示用户的主观意识,主要可以从以下三个方面去进行探索:
- 处理搜索词的信息并输入模型;
- 处理搜索词对应的 item 信息并输入模型;
- 处理相似搜索词的用户信息并输入模型
Item特征
属性特征
- 基础属性:item的各种类目、品牌等 ID 属性;图片数量等
统计反馈
- 静态统计:一定时间窗口内的点击量、CTR等;
- 动态统计:由于 item 存在周期性或者时效性,变化趋势可以考虑作为特征;
兴趣人群特征
统计 item 过去反馈行为在不同人群特征上的聚合,主要有三种处理方式:
- 将其展开为多个特征进行处理,例如直接使用或者 Attention;
- 统计类特征,例如平均年龄;
- Embedding 类特征,统计各个类目的分布再进行 sum,例如 emb1 * freq1 + emb2 * freq2;
拓扑特征
一般是基于共现关系生成 i2i 拓扑结构,例如常见的相似物品、相似类目等信息
内容特征
主要为图像、文本和视频特征,涉及到多模态的融合;
场景特征
- 场景属性:场景 ID,搜索/推荐场景、场景平均点击率、转化率等;
- 请求属性:当前请求的时间、系统、地理位置、第几次请求等;
- 上下文:上下文 item 集合的属性特征表达(精排可拿上文、重排可拿上下文);
交叉特征
交叉特征指的是不同类型的特征进行特征交叉组合,例如“性别-年龄段”、“性别-爱好”等。最典型的则是笛卡尔积特征、Hit特征和Lookup特征;
笛卡尔积特征
最常见的是不同的Feature Group进行两两组合形成新的特征ID(需要考虑维度爆炸)
但粗粒度的组合一般可以被DNN的隐式特征交叉学习到,因此尝试在细粒度上进行笛卡尔积特征。
例如序列笛卡尔积特征,具体操作是将候选商品(item_id)和用户的历史行为序列(item_id_seq)做笛卡尔积,得到一个新的行为序列(item_id-item_id_seq)对其在进行 emb+pooling 处理;
Hit 特征
Hit 特征意为“命中特征”,利用用户在不同类目下的点击情况来反映用户的兴趣偏好的特征。
例如用户历史上点过和目标商品同一类目的商品,那么这个类目(cate_id)就是一个 Hit 特征,它可以增加用户点击商品的概率;
Lookup 特征
Lookup 特征一般是笛卡尔积特征和 Hit 特征前置下的二级特征,例如“性别-年龄-城市”这种笛卡尔积组合下对应人群的类目偏好特征,对应偏好作为对应用户的一个特征;
级联模型特征
最早可以追溯到“GBDT + LR”的级联方案,前期模型的输出作为后期模型的输入,但本质上并没有代码信息增量,因此逐渐被更好的DNN所代替。而此处的模型特征是带来了信息增量的考虑,展现形式主要有以下三种:
预估类别标签
最为常见的预估类别标签就是用户画像特征,通过分类模型 + 监督/半监督/无监督等模型获取用户画像特征;
预估特征向量
预估特征向量最简单的形式就是预估质量分,例如用户的点击质量分,商品的图片风险分等。