你聘请了一位超级主管来管理公司的日常运营。这位主管读过世界上所有的书,能瞬间回答任何问题,言辞流畅、才华横溢。你问他:“这个项目能花5万欧元吗?”他毫不犹豫地回答:“当然可以!这是个绝佳的主意!”
然而,他忽略了三件至关重要的事情:公司正处于支出冻结期、你的部门早已超支、你的授权额度远低于这个数字。
这就是当前企业AI面临的根本性悖论:越是“聪明”的模型,越容易凭借其海量知识库给出流畅回答,却越可能忽略当下具体的规则约束。研究者将这种现象命名为“虚假准确”——答案听起来合理,推理过程却与企业实际规则完全脱节。
传统AI的设计哲学可以概括为“速度优先”:收到问题,检索知识,生成回答。这套流程在消费级场景中表现优异——问天气、查菜谱、写邮件,速度就是体验。
但在企业场景中,这套逻辑暴露了致命缺陷。企业的每一个决策都嵌入在复杂的规则网络中:预算冻结期、部门额度限制、个人授权边界、合同有效期、合规审查要求……这些约束条件时刻在变化,且往往相互冲突。
用友AI实验室近期发的论文核心洞察正在于此:企业AI不能直接回答“静态知识库说了什么”,而必须回答“在当前场景约束下,演化后的规则图谱说了什么”。这两个问题之间的差距,正是传统AI系统性失败的根本原因。
用友AI实验室研究团队提出的LOM-action架构,彻底重构了企业AI的决策流程。其核心原则可以概括为四个字:模拟先行。
在任何决策发生之前,系统首先建立并维护一个鲜活的规则管理局——论文中称为企业本体(Enterprise Ontology)。这里不仅存放静态的法律法规,还实时更新着当前合同、部门预算、个人权限、审批流程等动态信息。
这是企业的“真相来源”。任何不在本体系中注册的规则,AI无权引用;任何未经本体系授权的操作,AI不得执行。
当一笔报销申请、一次采购请求或任何一个业务事件到达时,LOM-action不会立即查询真实的本体库。相反,它执行一个关键操作:创建一个精确的副本,放入隔离的沙盒中。
这个沙盒是一个安全的实验场。在这里,AI可以大胆地增删改查,而不会影响真实的企业数据。更重要的是,沙盒为每一笔业务创建了专属的规则快照——同一时刻发生的不同事件,各自拥有独立的沙盒环境,互不干扰。
这是整个架构中最具创新性的一环。AI在沙盒中扮演“导演”角色,根据当前业务事件的具体条件,对规则副本进行精确修改:
经过这一系列操作,原始的通用规则图谱被演化成一个定制化的场景有效图谱。这个新图谱只包含与当前事件相关的规则、节点和路径,排除了所有不适用于当下情境的约束。
AI现在仅基于沙盒中演化后的图谱做出决策。问“有没有预算”,它查看的是预算已被移除的副本;问“审批路径”,它走的是合同仍有效的边。
最关键的是:沙盒中的每一步操作都被完整记录。删除哪个节点、添加哪条边、依据哪条规则——全部写入不可篡改的审计日志。当审计员追问“为什么拒绝”时,AI可以展示完整的操作录像:“根据规则第X条,预算已冻结,故移除资金节点,导致无有效审批路径。”
LOM-action并非一味追求模拟的完整性而牺牲响应速度。它采用双模执行架构,根据任务性质智能切换:
技能模式处理常规任务——查询余额、检查权限、获取节点信息。这类操作有预设的工具函数可用,AI直接调用API,如同工人熟练使用扳手。原始图谱数据从不进入LLM上下文,响应快速且精准。
推理模式应对复杂新案例——冲突消解、资源分配、路径优化等无预设函数支持的分析任务。AI将沙盒中经过属性剪枝的图谱加载到上下文,进行自主推理。这是唯一允许原始图谱内容进入LLM上下文的情况。
研究团队在11个图操作任务上进行了系统评估,对比对象包括Doubao-1.8和DeepSeek-V3.2等前沿模型。结果揭示了两个关键发现。
传统模型在表面准确率上达到约80%,看似与LOM-action的93.8%差距不大。但深入分析发现,这些“正确答案”中有相当比例是通过绕过模拟阶段获得的——模型依靠参数化记忆中存储的静态知识直接作答,而非基于场景演化后的有效图谱。
论文通过一个典型案例证明了这一点:在50个随机抽样的模型输出中,47个产生了正确的二值答案但零次工具调用。这意味着模型仅凭“记忆”就完成了推理,完全没有与沙盒交互,也没有产生任何审计痕迹。
真正的分水岭出现在工具链F1分数上——这一指标衡量的是决策过程的正确性,而非结果的正确性。传统模型在此指标上仅为24-36%,而LOM-action达到98.7%。
这一近四倍的差距,量化了“虚假准确”的真实规模:传统模型虽然经常答对结果,却系统性跳过了模拟阶段,其推理过程与企业规则脱节。在需要严格合规的场景下,这种“过程错误、结果碰巧正确”的行为是不可接受的AI人工智能。
论文定义的虚假准确性指数(IA = 准确率 – 工具链F1)进一步佐证了这一判断:传统模型约为0.44-0.56,而LOM-action为-0.05——负值意味着流程正确性高于结果准确率,这正是模拟优先架构的预期特征。
论文还提出了LOM-action生产部署的四项核心原则,为从研究原型走向实际应用提供了工程指导:
原则一:最小化代码逻辑,最大化本体逻辑。所有业务规则应编码在企业本体中,而非嵌入流水线的过程代码。这确保规则变更无需修改代码,且全程可审计。
原则二:全上下文本体锚定。任何进入推理流程的实体、指标、约束,必须在模拟开始前解析至企业本体的标准ID。未解析的原始字符串一律拦截。
原则三:优先使用LOM推理。能够由较小、本体微调的LOM模型处理的推理,就不应委托给通用大模型。后者仅在LOM能力不足时作为后备。
原则四:治理环境可检查。LOM不仅治理单个决策,还治理整个执行环境。企业本体模式、活跃场景条件、图谱查询逻辑必须通过可读接口暴露,供人工检查。
将LOM-action与传统AI对比,一个清晰的图景浮现出来:传统AI像一名只读地图不看路的乘客——他熟知每一条道路的名称和长度,却看不见前方的“此路不通”标志。他能快速给出“最优路线”,但这个“最优”是基于过时信息的。LOM-action像一个智能GPS导航仪——它在规划路线前,先检查施工信息、实时路况、车辆限行规定,在虚拟地图上完成所有验证,然后才给出建议。它可能多花几秒钟,但每一条推荐路线都是当下可行的。
对于企业决策而言,“可验证的正确”远比“直觉的正确”更有价值。LOM-action通过强制性的沙盒模拟、可审计的决策痕迹和双模式执行架构,将企业AI从“靠直觉猜测的顾问”转变为“用模拟证明的管理者”。原文出处:企业AI的“速度-正确”悖论:LOM-action如何打破僵局,感谢原作者,侵权必删!
发表回复