推荐系统:基本件

阅读量 ,评论量

函数变换

q_adjuster

有时模型预估值分布得较为密集,为了让不同的item更有区分性,方便下游使用,经常用一些函数变换来分布。这里列一些常用的。

一种是拉伸q值较小部分的: \[ q_{adjust} = \frac{q * (1+\text{factor})}{1+\text{factor} * q} \] 其中factor越接近于0,变换后的分布越等价于不变,越大越拉伸q值较小的部分,一般用1.5就差不多了。

norm

1、除以q的均值

2、batch norm

3、layer norm

4、group layer norm

门控机制

element-wise multi

做gate时,用于计算gate的特征一般要先freeze掉:避免互相影响。

gate输出的值,一般都用[-15, 15]截断后过sigmoid再乘个2:正则化&保持输出的期望在1上。

feild gate

poso

senet

ppnet、epnet都属于这种。

cgc

attention

MHA的计算逻辑为: \(\text{softmax}(Q \times K^T + mask) \times V\)

几种掩码:

一些技巧:

hstu

hstu的计算逻辑为: \(\text{FFN} \textcolor{red}(((\text{sigmoid}(Q \times K^T+bias) \odot mask) \times V) \odot (mask \times U)\textcolor{red}) + X\)

ID系统

离散ID

语义ID

向量量化变分自动编码器(VQ-VAE)

残差量化变分自动编码器RQ-VAE

局部敏感哈希(LSH)