挨踢牛魔王 25-09-27 14:37
微博认证:科技博主

RAG很难做,到现在都没有太大的核心突破。
这里介绍一个香港科技大学的RAG的项目:RAG-Anything
这个项目的特点是利用 MinerU进行多模态处理,供大家参考。

核心特点:
RAG-Anything 实现了有效的多阶段多模态流水线,从根本上扩展了传统的 RAG 架构,通过智能编排和跨模态理解无缝处理多样化的内容模态。

关键组件:
⚙️ MinerU 集成:利用 MinerU 在复杂的布局中进行高保真文档结构提取和语义保留。
🧩 自适应内容分解:自动将文档分割为连贯的文本块、视觉元素、结构化表格、数学方程和专门的内容类型,同时保留上下文关系。
📁 通用格式支持:通过专门的解析器提供对 PDF、Office 文档(DOC/DOCX/PPT/PPTX/XLS/XLSX)、图像和新兴格式的全面处理,并针对特定格式进行优化。

2. 多模态内容理解与处理
系统通过优化的渠道自动对内容进行分类和路由。它使用并发管道进行并行文本和多模态处理。在转换期间保留文档层次结构和关系。

关键组件:
🎯 自主内容分类和路由:通过优化的执行渠道自动识别、分类和路由不同的内容类型。
⚡ 并发多流水线架构:通过专用处理流水线实现文本和多模态内容的并发执行。这种方法最大限度地提高了吞吐效率,同时保持了内容完整性。
🏗️ 文档层次结构提取:在内容转换过程中提取并保留原始文档层次结构和元素间关系。

3. 多模态分析引擎
系统为异构数据模态部署模态感知处理单元:

专业分析仪:
🔍 可视化内容分析器:
集成视觉模型进行图像分析。
根据视觉语义生成上下文感知的描述性标题。
提取视觉元素之间的空间关系和层次结构。
📊 结构化数据解释器:
对表格和结构化数据格式进行系统解释。
实现统计模式识别算法,进行数据趋势分析。
识别多个表格数据集中的语义关系和依赖关系。
📐 数学表达式解析器:
高精度解析复杂的数学表达式和公式。
提供原生 LaTeX 格式支持,以便与学术工作流程无缝集成。
在数学方程和特定领域的知识库之间建立概念映射。
🔧 可扩展模态处理程序:
为自定义和新兴内容类型提供可配置的处理框架。
通过插件架构实现新模态处理器的动态集成。
支持针对特殊用例对处理管道进行运行时配置。

4. 多模态知识图谱索引
多模态知识图谱构建模块将文档内容转化为结构化的语义表示。它提取多模态实体,建立跨模态关系,并保留分层组织。该系统应用加权相关性评分来优化知识检索。

核心功能:

🔍 多模态实体提取:将重要的多模态元素转换为结构化知识图谱实体。该过程包括语义注释和元数据保存。

🔗 跨模态关系映射:在文本实体和多模态组件之间建立语义连接和依赖关系。这是通过自动关系推理算法实现的。

🏗️ 分层结构保存:通过“belongs_to”关系链维护原始文档组织。这些链保留逻辑内容层次结构和部分依赖关系。

⚖️ 加权关系评分:为关系类型分配定量相关性分数。评分基于文档结构中的语义接近性和上下文重要性。

5. 模态感知检索
混合检索系统将向量相似性搜索与图遍历算法相结合,实现全面的内容检索。它实现模态感知排名机制并保持检索到的元素之间的关系一致性,以确保上下文集成的信息传递。

检索机制:

🔀 向量图融合:将向量相似性搜索与图遍历算法集成。这种方法利用语义嵌入和结构关系进行全面的内容检索。
📊 模态感知排名:实现自适应评分机制,根据内容类型相关性对检索结果进行加权。系统根据特定于查询的模式首选项调整排名。
🔗 关系连贯性维护:维护检索到的元素之间的语义和结构关系。这确保了连贯的信息传递和上下文完整性。

项目地址:github.com/HKUDS/RAG-Anything

发布于 江苏