自然语言处理:RAG

阅读量，评论量

背景

GraphRAG相较RAG能额外带来的增益：

提升数据质量与相关性对取得优异成果的重要性,甚至可能超过模型优化。

基于启发式的检索：
- 实体链接：通过文本匹配将query链接到TopK实体上；
- 关系匹配：通过文本匹配将query链接到TopK边上；
- 图遍历：通过图遍历算法扩展集合，以获取更多相关信息；
  - 检索到的所有实体间距离小于L的所有路径；
  - 检索到的实体周围的L跳子图；
- 图核：通过随机游走/WeisfeilerLeman算法实现低机器成本&相对高泛化的子图匹配；
- 领域专业知识：增加领域知识的特殊逻辑，提高集合扩展的有效性；
基于学习的检索：
- 浅层嵌入（Walk-Based GE）：
  - 基于邻近性的嵌入：是否有边的链接预估；
  - 基于角色的嵌入：邻域结构是否相同的网络相似度预估；
- 深度嵌入（Message-Passing GNN）：
  - 表征能力更强，通过Message-Passing解决graph不断更新的问题；
高级检索策略：
- 集成检索：综合利用基于启发式的检索器和基于学习的检索器，定制化设计检索流程编排；
- 迭代检索：通过Loop持续检索，直到收集到足够信息来回答问题；
- 自适应检索：额外增加一个是否需要检索外部知识的判别器，依此来决定收集多少信息来回答问题；

对检索内容进行处理和优化，使其更适合生成器使用，从而进一步提升下游内容生成质量。

图剪枝：
- 基于语义的剪枝：对检索结果再做一次与query的相关性过滤，去掉扩展集合中的无关信息；
- 基于语法的剪枝：结合具体业务规则实现的逻辑剪枝，如语法依存分析；
- 基于结构的剪枝：基于入度、出度、pagerank之类的图结构信息的剪枝；
- 动态剪枝：检索过程中的剪枝，非对结果的处理；
重排序：对检索的N条信息组装成prompt的先后顺序；（其价值受限于基座模型）
图增强：图结构增强、图特征增强，对检索到的结果做进一步扩展；
语言化：将检索到的三元组、路径或图转换为大语言模型可理解的自然语言。
- 线性言语化：
  - 基于元祖：罗列 \((实体A, 关系1, 实体B)\) 这种元祖；
  - 基于模板：Hop‐Field概览模板等；
- 基于模型的言语化：
  - 图到文本言语化：使用微调模型/大语言模型将检索结果转换为自然语言；
  - 图摘要：根据检索结果和query，使用微调模型/大语言模型做摘要生成；

基于判别的生成器：用于节点/边/图分类等任务
基于大语言模型的生成器：
- 语言化：基于第3步最终语言化的结果作为prompt前文；
- 嵌入融合：将检索结果转为图嵌入（提前通过adapter与大语言模型的文本嵌入对齐），作为前序信息输入；
- 位置嵌入融合：位置编码进一步适配图嵌入，以将图结构信息保留下来；
基于图的生成器：用于分子生成等图生成相关的任务

规划或推理图刻画了不同实体间固有的逻辑流程，其中实体通常代表具体规划或推理子步骤，边则表示它们的逻辑关系。

基于启发式：确定性最强；
基于嵌入：有一定泛化能力，但没有发散能力，或者说该方式不适合将发散能力建设进来；
思维传播检索：可以建设发散能力，根据query大语言模型提出一组类似问题，然后应用既定的提示技术(如思维链(CoT))来推导解决方案，最后通过聚合模块整合这些类似问题的解决方案，从而增强原始输入问题的解决过程；