在高考这场没有硝烟的战争中,数学宛如一座高耸入云的堡垒,令无数考生望而生畏。而在 2025 年新课标 Ⅰ 卷高考数学的舞台上,除了莘莘学子们奋力拼搏,六大人工智能模型也震撼登场,与考生们一同迎接这场知识与智慧的考验。它们分别是字节跳动的豆包、腾讯的元宝、阿里的通义、百度的文心 X1Turbo、深度求索的 DeepSeek 以及 OpenAI 的 o3。

为了保证这场跨圈对决的公正性,所有 AI 模型在答题时都被 “断网”,失去了系统提示和联网搜索的助力,每个模型仅能交出一份答卷。最终成绩令人惊叹,豆包和元宝展现出非凡的数学推理天赋,同以 68 分的高分并驾齐驱,勇夺头筹。而反观 DeepSeek 和通义,成绩稍显暗淡,分别拿下 63 分和 62 分。文心 X1 和 o3 的表现则难言理想,尤其是 o3,仅收获 34 分,面对国内高考数学题目明显水土不服。
在具体题型的比拼中,豆包、通义和元宝在单选题环节大放异彩,各自斩获 35 分。DeepSeek 因在两道题上出现失误,单选题成绩定格在 30 分。而 o3 的单选题惨遭 “滑铁卢”,仅得 20 分,一半题目都未能给出正确答案。在多选题领域,豆包、DeepSeek 和元宝如入无人之境,三道题全部攻克,展现出令人钦佩的稳定性。然而,通义虽答题迅速,却因关键时刻的判断失误,与高分失之交臂。
此次高考数学挑战赛,犹如一面镜子,映照出各大 AI 模型在应对高考数学时的优势与短板。对比去年,这些模型在细节把控、公式运用以及逻辑推理等多个维度都取得了长足进步,推理能力和反思能力的提升尤为显著。尽管仍有瑕疵,但它们在这次考试中所展现出的成长潜力,无疑为未来 AI 数学能力的进化奠定了坚实基石。
晓得智能 — 助力企业在数字化浪潮中脱颖而出,实现智能化转型。
