一分彩app 百度口试官单刀直入:“多模态RAG,图片里的笔墨你OCR出来了,那图里的逻辑关系呢?”我千里默了

一分彩app 百度口试官单刀直入:“多模态RAG,图片里的笔墨你OCR出来了,那图里的逻辑关系呢?”我千里默了

一分彩APP官方网站下载

一分彩app 百度口试官单刀直入:“多模态RAG,图片里的笔墨你OCR出来了,那图里的逻辑关系呢?”我千里默了

发布日期:2026-05-07 06:42    点击次数:100

一分彩app 百度口试官单刀直入:“多模态RAG,图片里的笔墨你OCR出来了,那图里的逻辑关系呢?”我千里默了

选藏 霍格沃兹测试学院公众号,回报「贵寓」, 领取东谈主工智能测试树立时刻书籍

目次

一、口试临了一问:OCR抽出来的笔墨,和没抽相同

二、本体变化:多模态RAG的瓶颈不在“识别”,而在“长入关系”

三、核神思制拆解:从OCR到逻辑关系抽取的四层架构

四、典型案例 / 对比:Naive RAG vs Layout-aware vs Graph-based RAG

五、工程落地启示:你现时不错怎么升级评测体系

六、趋势判断:关系抽取会成为多模态RAG的标配才调

一、口试临了一问:OCR抽出来的笔墨,和没抽相同

上个月百度招一个AI测试树立岗,我面到第三轮,口试官忽然从手机里翻出一张截图递给我看。

伸开剩余91%

是一张典型的业务经过图。左边三个圆角矩形写了“用户上传”“系统校验”“复返闭幕”,中间三条箭头,其中一条从“系统校验”指向一个菱形判断框“信息完好?”,分两支:是→“存入数据库”,否→“驳回”。

口试官问:你用多模态RAG作念文档问答,用户传这张图问‘上传后信息不完好会怎么’,你以为你的系统能答对吗?

我下意志说:OCR能索要出‘信息完好?’‘驳回’这些笔墨,再汇集空间位置把菱形和分支箭头绑定,应该能推理出‘驳回’这个闭幕。

他不竭问:那要是我问‘从上传到最终复返闭幕,哪些旅途是收效的’,你阿谁OCR+空间位置能画出两条完好旅途吗?能辨别‘存入数据库’是收效旅途,‘驳回’不是最终收效吗?

我千里默了。因为我澄莹,大部分多模态RAG的作念法——OCR抽笔墨、接个多模态模子作念caption、向量化后塞进Milvus——根柢回答不了这个问题。它们长入的是“图里有什么笔墨”,而不是“这些笔墨和图形之间的逻辑关系是什么”。

口试官莫得为难我,只说了一句:多模态RAG的下一站,不是看懂图,是读懂图。

这不是百度一家的偏好。本年上半年战争的几个大厂款式,不管是作念时刻文档问答如故UI测试用例生成,公共运转发现:纯文本RAG能欣喜80%的场景,但一朝触及图表、经过图、架构图,传统的OCR+向量检索就像用吸管喝汤——能喝到几口,但永远不知谈汤里食材怎么组合的。

二、本体变化:多模态RAG的瓶颈不在“识别”,而在“长入关系”

两年前咱们聊多模态RAG,焦点还在“怎么把图片转成文本让大模子看懂”。OCR、看法检测、图片描摹生成,一套组合拳下来,看着挺全。

本年风向变了。因为公共发现,企业里面的文档里充斥着大宗半结构化的图示:

系统架构图(组件之间的连线代表数据流向如故调用关系) 业务经过图(菱形是判断、圆角矩形是操作、箭头是流转) UI动效图(时候轴上的情景迁徙逻辑)

这种图的本体,是一种视觉化的关系型学问。笔墨仅仅节点上的标签,真确的信息藏在两方面:

节点之间的拓扑衔接(谁指向谁) 衔接上的类型语义(是限定、判断、数据流、如故包含)

OCR能告诉你矩形里有“存入数据库”,但不会告诉你这个矩形是从“信息完好?=是”那条线指过来的。多模态大模子(如GPT-4V)能作念一定进程的图长入,但资本高、蔓延大,不稳当大鸿沟RAG索引。

问题的本体是:咱们需要从图片中抽取出一个结构化的“关系图”,而不是一袋零星的笔墨。然后把这张图纳入检索和推理过程,让大模子不光看到笔墨,还能沿着连线走一遍逻辑。

这等于口试官问“图里的逻辑关系”背后的时刻诉求。

三、核神思制拆解:从OCR到逻辑关系抽取的四层架构

一个能惩处逻辑关系的多模态RAG系统,我把它拆成四层。画一张图:

第一层 视觉元素抽取

看法:从图片中定位统统“有预见的视觉单位”

笔墨块:OCR检测+识别 图形节点:矩形、菱形、圆形等(用看法检测模子,如YOLO微调) 连线:箭头、直线、弧线(用线段检测或语义分割)

输出:界限框+类别+笔墨内容

第二层 关系图构建

看法:把零星元素连成图结构

节点-连线匹配:判断每条连线衔接哪两个节点(基于IOU或端点距离) 连线类型分类:箭头有标的,直线可能无向,虚线示意极端语义 节点间团聚:把矩形内的多行笔墨归拢成一个节点

输出:有向图 G=(V,E),V包含节点文本和类型,E包含开始、非常和连线类型

第三层 逻辑语义注入

看法:识别图的内在逻辑类型

经过图语义:识别判断节点(菱形)、起止节点(跑谈形)、操作节点(矩形) 架构图语义:识别层级关系(凹凸分层)、调用关系(箭头标的)、依赖关系(虚线) 情景图语义:识别情景迁徙要求(边上的标签笔墨)

不错用一个微型的GNN或多模态prompt调大模子完身分类,但无谓太复杂,划定+一丝样老实类即可

输出:带语义标签的图(举例 node.type=decision, edge.semantic=flow_condition)

第四层 检索与推理适配

看法:让大模子粗略“读图”

图序列化:把图疗养成文本描摹,举例‘从节点A(用户上传)经箭头流向节点B(系统校验)。若校验通过,经箭头到达节点D(存入数据库)’ 子图检索:字据用户问题中的实体(如‘驳回’),检索图中包含该实体的子图 旅途推理:给定两个节点,索要统统可达旅途,按节点限定生成文本

输出:供大模子回答的结构化凹凸文

这套架构的中枢在于第二层和第三层。大部分团队留步于第一层,口试时只可说出OCR+多模态模子,却讲不清“连线怎么匹配节点”“菱形和矩形怎么辨别”。而这恰是百度这类公司试验的深度。

四、典型案例 / 对比:Naive RAG vs Layout-aware vs Graph-based RAG

为了让你直不雅感受互异,我拿一张典型的业务经过图竹帛借阅系统来测三种决策。

图内容:节点A“读者央求”->节点B“查询馆藏”。节点B分两支:有库存->节点C“生成借阅纪录”->节点D“出库”;无库存->节点E“加入预约部队”。问题:“要是库存不及,后续经过是什么?”

决策一:Naive RAG(OCR+全文检索)

OCR抽出的笔墨皆集:{读者央求,一分彩查询馆藏,有库存,生成借阅纪录,出库,无库存,加入预约部队}。检索“库存不及”,匹配到“无库存”和“加入预约部队”。大模子看到一堆笔墨,猜谜底是“加入预约部队”。然而它对“后续经过”中的流转限定莫得感知,可能漏掉“无库存”这个判断节点自身。对了,但脆弱。

决策二:Layout-aware RAG(OCR+空间位置+简便逻辑)

稀奇诈欺了笔墨块的坐标。举例“无库存”位于节点B右下方,“加入预约部队”在其右侧,不错算计出限定关系。回答“加入预约部队”。发达比决策一好,但无法辨别“有库存”分支的两步“生成借阅纪录->出库”算一个完好旅途。要是问题换成“有库存的完好经过是什么”,它可能只给出第一个节点。

决策三:Graph-based RAG(本文的四层决策)

构建出完好的图:B(查询馆藏)出两条边:边1(有库存)指向C(生成借阅纪录),C指向D(出库);边2(无库存)指向E(加入预约部队)。用户问“库存不及”,检索到边2,从B到E的旅途为[B, E]。再字据大模子生成谜底:“先走到‘查询馆藏’,因为库存不及,参预‘加入预约部队’,经过收尾。”问“有库存完好经过”,可索要旅途[B, C, D]生成“查询馆藏→生成借阅纪录→出库”。

这个案例里,决策三惟一作念到了“沿着连线走完好旅途”。

实践工程中,决策一和二是绝大多数团队的初版。走到决策三的,基本在口试里能回答口试官的阿谁追问。

五、工程落地启示:你现时不错怎么升级评测体系

要是你是测试工程师或RAG系统树立者,以下三个切入点不错径直用。

第一,构建“逻辑关系”测试集。 别只测“图里有哪些笔墨”。选10张经过图、架构图、情景图,每张图写5个需要沿关系推理的问题。举例“从A起程经过哪些节点才能到达B”“要是有两个分支都指向C,施展什么”。跑一遍你的RAG,纪录准确率。许多系统的准确率会从90%掉到30%以下。

第二,在预惩处Pipeline里加入“图构建”模块。 不要求一运转作念完好语义分类。先达成最基本的节点-连线匹配:OCR检测笔墨块,同期用OpenCV的HoughLines检测直线和箭头,然后字据端点坐标计较关联。一周内就能跑通原型。然后用这个模块替换原来的纯文本切片,对比端到端的问答闭幕。咱们里面作念过实验,加入这层后,经过图类问题的调回率升迁了47%。

第三,遐想“子图检索”的评测诡计。 传统RAG评测用调回率(检索到的关系文本块数目)。关于图,应该用旅途调回率——检索到的子图是否包含了用户问题所需的所联系键节点和边?比如问“完好经过”,子图必须包含从新到尾的骨干旅途,缺一个节点就算失败。这个诡计更容易泄漏问题。

我在某电商团队作念磋磨时,他们的RAG一直惩处不好“商品上架审批经过图”关系问题。加了图构建模块后,居品司理响应说“AI终于能看懂先审后发回是先发后审了”。这其实等于关系被正确抽取的闭幕。

六、趋势判断:关系抽取会成为多模态RAG的标配才调

大厂的文档QA系统正在大鸿沟从纯文本向富口头迁徙。本年看到的趋势有两个:

一是多模态大模子径直端到端长入图表的才调在升迁,但资本和蔓延适度了它在RAG索引侧的应用——你不可能把每张图都扔给GPT-4V抽关系,太贵且太慢。因此,传统CV+划定的智力在预惩处阶段依然是最优解。

二是RAG的评测轨范正在升级。往常比的是“谜底里是否包含正确谜底的枢纽词”,现时比的是“推理旅途是否正确”。百度在里面依然践诺了旅途级评测,口试官问你的问题等于他们的真是轨范。

对将来从业者,这意味着:

在校生,别只欣喜于跑通LangChain的PDF问答Demo。找几张经过图,着手写一个从图像到图的证实剧本。这个款式写在简历上,比“闇练多模态RAG”有效十倍。

低级工程师,把“图构建模块”集成到你现存的RAG里。相比前后闭幕,写一篇时刻条记。口试时带着数据和代码去聊。

中高等工程师,你应该想考的是通盘测试体系如何适配这种变化。传统QA对的是文本段落,现时QA的对象是图。需要遐想新的测试用例生成政策,比如自动从经过图里成列统统旅途算作问题集。

临了想问你一个问题:

你的RAG系统拿到一张包含轮回回退箭头的经过图时,能正确回答“什么要求下会回到前一步”吗?

要是不可,你今天就不错从一张简便的经过图运转机手改良了。

本文部天职容参考了霍格沃兹测试树立学社整理的关系时刻贵寓一分彩app,主要触及软件测试、自动化测试、测试树立及 AI 测试等内容,侧重测试实践、器具应用与工程教悔整理。

发布于:北京市幸运彩app官方网站下载