与过去不同,今年的AI高考不再只是让大模型写一篇作文、解几道题,而是更接近真实考试场景:同一套试题、相同提示词、限定联网条件,并邀请一线教师和专家按照高考阅卷标准评分。也正因为如此,这场评测不只是一次模型成绩排名,更像是一次面向真实标准的综合压力测试。
从目前公开的多项测评结果看,讯飞星火大模型在数学、中文作文、英文写作三个维度都进入第一梯队,并在数学评测中表现最为突出。
在《新京报》6月8日组织的2026年新高考I卷数学评测中,讯飞星火以148分/150分位列第一,高于Kimi、DeepSeek、智谱、MiniMax、ChatGPT等国内外主流模型。更关键的是,讯飞星火不是只给出了正确答案,而且在规范分、结果分和推理清晰度上保持一致。参与评测的北京市中学数学特级教师点评称,压轴题成为区分模型复杂推理能力的分水岭,星火在数形结合、图形几何性质研究等方面明显优于其他模型。
语文作文方面,澎湃新闻在6月7日组织9款国内外主流大模型挑战上海卷作文,讯飞星火以65.5分位列第一。在南方日报、南方Plus6月7日的相关测评中,讯飞星火在全国I卷作文评测中以55.5分居首。观察者网6月10日组织的中英作文盲评里,讯飞星火在语文新课标I卷作文和英语新课标I卷应用文写作中同样处于第一梯队。中文作文能够把握题意深层要求,英文写作能够稳定控制语法、词性、词数和表达层次,这说明讯飞星火的能力并非集中在单一学科,而是在真实复杂任务中呈现出综合稳定性。
如果只把这些结果理解为一次“模型考试成绩”,意义反而被看小了。高考之所以值得关注,是因为它提供了一个高度中国化、标准化、可评价的任务场景。它既考知识,也考推理;既考语言AI人工智能,也考规范;既考结果,也考过程。一个大模型能不能在高考中取得高分,本质上检验的是它是否真正理解中国语境、中国知识体系、中国评价标准和中国用户的表达习惯。
从这个角度看,讯飞星火在高考中的表现,指向的不只是教育能力,而是讯飞星火作为全国产底座大模型的综合能力。
高考数学尤其能说明问题。数学不是简单的知识记忆题,也不是普通问答题。新高考I卷中的解答题和压轴题,要求模型读懂复杂条件,完成多步骤推理,并在推导过程中保持逻辑稳定。很多模型可以在基础题上取得不错成绩,但在长链条推理中容易出现跳步、漏条件、结论先行、过程不完整等问题。讯飞星火在数学评测中拿到148分,说明它不仅能给出答案,更能完成接近真实高考标准的推理表达。
大模型真正进入产业应用,不能只看闲聊能力,也不能只看单点生成效果。政企客户更关心的是,模型能不能处理复杂任务,能不能在标准严谨的场景中保持稳定,能不能输出可解释、可追溯、可验证的结果。高考数学恰好是一类典型测试:题目有明确答案,过程有评分标准,推理链条足够复杂,能够较好地检验模型的理解、推理、规划和表达能力。
讯飞星火在这一场景中的表现,说明其底座能力已经不是“能用”的阶段,而是进入了“可承担复杂任务”的阶段。对于政务、教育、医疗、能源、金融、司法、央国企等场景来说,这种能力非常关键。因为这些场景里的问题往往不是简单问答,而是复杂流程、专业知识、规则约束和责任边界交织在一起。模型必须既懂问题,也懂规则;既能生成,也能推理;既能给结果,也能说明依据。
当前行业里谈“国产大模型”,容易混淆两个概念:一个是模型在国产算力上部署推理,另一个是在国产算力上完成训练。前者解决的是“能不能跑”,后者解决的是“能不能持续进化”。对政企客户来说,真正决定长期安全边界和能力上限的,恰恰是后者。
公开报道中,刘庆峰曾明确提到,讯飞星火是中国首个基于全国产算力平台训练的全栈自主可控大模型。他同时指出,大模型在国产算力上训练和推理面临的是完全不同层次的挑战。推理更像是把已经训练好的模型运行起来,而训练则要解决大规模集群调度、通信效率、算子适配、模型结构、训练稳定性、数据吞吐、断点恢复等一整套工程难题。
这也是为什么“国产算力训练”不能被简单理解成一句口号。它考验的是一家企业对算法、数据、工程、硬件、平台和应用场景的系统能力。科技日报、中国日报等媒体报道显示,科大讯飞团队持续翻越国产算力训练大模型的无人区,将攻克长思维链强化学习训练效率从30%提升至84%,MoE模型全链路训练效率提升至93%。这些数字背后,指向的是国产算力不再只是“可用”,而是在大模型关键训练环节逐步走向“好用”。
6月11日,科大讯飞发布了星火多模态大模型X2-VL。该模型基于讯飞星火 MoE 架构,采用原生多模态范式训练,具备轻量化视觉编码器、快慢思考统一模型等技术特点,在视觉推理、图文理解、文档分析、图表理解等任务中表现突出,进一步增强了对图像、文字、表格、场景等多模态信息的综合理解与推理能力。在以多模态学科答题为代表的推理任务中,星火多模态大模型X2-VL展现出强劲实力。基于2026年度全国各地高考模拟试卷中的多模态试题测试,星火多模态大模型全学科平均答题准确率接近95%。在教育领域,科大讯飞依托X2-VL等多模态大模型能力,持续升级AI答疑辅学、智能批改、课堂互动等智慧教育产品。模型可构建严密的逻辑思维链,并通过动态图形化全方位拆解数理难题,帮助学生提升直观认知与解题能力,同时为教师减负增效。
由此来看,讯飞星火在高考数学测评中取得第一,并非单一考试场景下的偶然表现,而是其多模态理解、复杂推理能力以及国产算力训练体系持续迭代共同作用的结果。
因为政企客户选大模型,本质上不是选择一个“回答问题的工具”,而是在选择未来智能化系统的底座。这个底座要进入政务服务、城市治理、应急管理、公共安全、教育评价、医疗辅助、能源生产、央国企业务管理等关键系统。如果底座训练体系不可控,就意味着能力迭代、数据安全、系统迁移和长期演进都存在不确定性。
国产算力训练的价值,正是在这里显现出来。它意味着模型能力可以在自主可控体系内持续升级,意味着行业数据和场景反馈能够形成安全闭环,意味着客户不必把核心业务智能化建立在外部不可控的算力和模型体系之上。对于政务和关键行业来说,这不是技术偏好,而是基础设施安全问题。
这也是讯飞星火区别于很多大模型的地方。它不是先在通用能力上追逐榜单,再寻找行业落地;而是沿着“全国产算力底座+通用大模型能力+行业场景深耕”的路线推进。底座模型解决通用理解、推理、生成和智能体能力,行业模型把政务、教育、医疗、能源、工业等场景中的知识、规则和流程注入进去,最终形成可交付、可运行、可持续优化的行业智能系统。
市场数据也在验证这一路线。沙利文和智能超参数相关报告显示,2025年科大讯飞在通用大模型厂商中以210个中标项目、约23.16亿元披露金额位居前列,项目覆盖政务、教育、工业、能源等多个领域。进入2026年,大模型招投标市场进一步从“底座采购”转向“智能应用落地”,应用类项目占比持续提升。对政企客户来说,这说明大模型已经不再停留在演示阶段,而是开始进入真实业务流程。
这组数据和高考评测之间,其实存在相同的逻辑:一个模型能不能在标准化考试中稳定得分,和它能不能在真实业务中稳定交付,本质上都在考验底座能力。前者是公开场景下的压力测试,后者是产业场景中的长期验证。
因此,从高考第一看讯飞星火,不能只看到“会做题”。更应该看到的是,一个基于国产算力持续训练和迭代的底座大模型,正在通过标准化评测和行业项目双重验证自身能力。
高考给了外界一个直观入口:讯飞星火更懂中文、更懂推理、更懂规范、更懂中国标准。国产算力训练则给了政企客户一个更底层的答案:讯飞星火的能力不是建立在不可控底座上,而是在全国产体系中持续生长出来的。
这才是“最懂中国的全国产底座大模型”的真正含义。它不是一句传播概念,而是一条技术路线、一套工程体系、一种场景方法论,也是面向政企和关键行业客户更有确定性的AI基础设施选择。原文出处:从高考第一,看见最懂中国的全国产底座大模型,感谢原作者,侵权必删!
发表回复