专栏名称: 老刘说NLP
老刘,NLP开源爱好者与践行者。主页:https://liuhuanyong.github.io。老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
目录
今天看啥  ›  专栏  ›  老刘说NLP

Flowchart流程图做RAG如何实现?一种基于Graph的方案

老刘说NLP  · 公众号  · 程序员  · 2025-08-02 13:33
    

主要观点总结

本文主要介绍了在电信领域的技术文档中,如何利用flowchart流程图RAG思路进行文档解析和多模态问答。文章详细描述了基于图表示的多模态QA方法的核心流程,包括图像分类、图表示生成、检索优化等步骤。

关键观点总结

关键观点1: 电信领域技术文档中的流程图包含大量关键信息,现有视觉语言模型直接生成流程图描述存在准确性低、信息丢失等问题。

文章指出了现有视觉语言模型在生成流程图描述时的问题,强调了准确获取流程图信息的重要性。

关键观点2: 文章介绍了一种基于图表示的多模态QA方法,使用微调的文档图像变换器(DIT)模型对图像进行分类,识别出流程图图像。

该方法的流程包括图像分类、图表示生成等步骤,旨在提高流程图识别的准确性。

关键观点3: 文章采用了通过微调的VLM(Qwen2-VL)将流程图转化为带属性的有向图结构,每个块表示为一个节点,节点内的文本作为节点属性;块之间的链接表示为边,边上的文本作为边属性。

这种转化方式有助于更好地表示和解析流程图中的信息。

关键观点4: 文章还介绍了检索优化方面的探索,包括三种图结构分块策略和两种嵌入模型的使用。结果显示,当使用整个图表JSON作为一个块时,性能较高,对于节点相关问题可以获得更好的性能。

这表明在不同的分块策略和嵌入模型下,流程图的检索和解析效果会有所不同。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照