自然语言处理:RAG

阅读量 ,评论量

背景

组成部分

文档检索

tf-idf:词频统计 &中心词加权。

BM25:tf-idf的优化版本。

DSSM/simnet:利用搜索用户点展数据(和一些人为设置的hard negatives)的有监督学习,基于词袋/CNN/RNN的双塔模型(即双编码器架构)。

Contriever:借鉴word2vec、逆完型填空和对比学习的无监督学习,基于transformer的双塔模型,参考[1][2]