2025年AI圈巨变:多模态和Agent如何改变我们的生活?
2025年AI圈巨变:多模态和Agent如何改变我们的生活?
你有没有发现,最近和AI聊天的方式正在悄悄改变?
以前,你可能习惯于输入一段文字,等待AI生成回复。如今,你可以直接给AI发一张图片,让它分析图表数据;也可以告诉AI”帮我整理一下这个月的报销”,然后看着它自动打开网页、填写表单、完成操作。
2025年4月,多模态大模型和AI Agent成为各大科技公司竞逐的新焦点。AI正在从”能说会道”走向”能看会做”。这场变革将如何影响每个人的生活?
一、多模态大模型:AI的”五感”正在觉醒
什么叫多模态?简单说,就是AI不仅能处理文字,还能理解图像、音频、视频等多种信息形式。就像人类有视觉、听觉、嗅觉、味觉、触觉五感一样,多模态AI正在拥有自己的”感官系统”。
4月,字节跳动旗下的火山引擎发布了豆包1.5深度思考模型。它不仅能”深度思考”,还能”看图思考”——上传一张航拍照片,AI会自动分析地貌特征,判断某区域是否适合开发;给AI一张企业项目管理流程图,它能迅速理解逻辑关系并回答你的问题。
OpenAI最新发布的o3和o4-mini模型同样具备强大的多模态能力,首次实现了”用图像思考”。Google发布的Gemini 2.5混合推理模型也在多模态方面取得突破。
阿里旗下的夸克App推出了”拍照问夸克”功能——拍照或截屏,AI就能理解你的意图。这意味着,未来你可能不再需要”组织语言”来描述问题。
火山引擎总裁谭待有个形象的比喻:”模型要有能力做好思考、计划和反思,并且一定要支持多模态,就像人类具备视觉和听觉一样,Agent才能更好地处理复杂任务。”
二、AI Agent:从”回答问题”到”代替做事”
如果说多模态解决的是”让AI更好地理解我们”,Agent要解决的是”让AI替我们做事”。
什么是Agent?它能理解你的意图、分解任务步骤、调用各种工具、完成复杂任务。它不再只是回答问题,而是真正”动手”帮你完成任务。
2025年初,一款名为Manus的通用Agent产品引发广泛关注。用户只需输入一个想法,Agent就能自动规划步骤、调用工具、生成结果。随后,字节的”扣子空间”、百度的”心响App”、360的”纳米AI”等相继推出。
这些Agent产品的共同特点是:不再是一个简单的对话窗口,而是提供了一个”工作空间”。你可以让Agent帮你写市场调研报告,它会自动搜索信息、整理数据、生成PPT;也可以让它帮你比价购物,它会自动打开多个电商平台、对比价格。
实现真正的Agent能力,需要三个关键能力:
1. 连接第三方工具的能力。 Agent需要调用日历、文档、浏览器、代码编辑器等各种服务。为此,Anthropic推出了MCP协议,Google推出了A2A协议,让不同Agent之间能够互相协作。
2. 编码能力。 AI编程是Agent解决复杂问题的重要工具。生成文档、创建网页、制作图表、开发小游戏,都需要代码作为执行载体。
3. 任务理解能力。 这是Agent最底层的能力。Agent需要准确理解用户意图,把模糊的需求拆解成可执行的步骤。
OpenAI给投资者的预测显示:到2025年底,AI Agent的销售额将超越ChatGPT,达到30亿美元;到2029年,Agent业务将为OpenAI贡献290亿美元。Agent正在成为AI商业化的下一个增长点。
三、AI编程工具:开发者的新伙伴
AI也在深刻改变程序员的工作方式。
2025年4月,火山引擎发布了国内首个AI IDE——Trae。这是一个”AI原生的集成开发环境”,把AI能力深度嵌入到开发每一个环节。开发者不仅可以用AI辅助写代码,还可以让AI帮你设计架构、调试bug、优化性能。
这类工具让编程门槛大幅降低。以往你需要学习复杂的语法和工具链才能开发软件,现在只需用自然语言描述需求,AI就能帮你生成可运行的代码。你不需要成为程序员,也能把想法变成产品。
当然,AI编程工具目前还处于早期阶段。处理简单任务时表现出色,但复杂系统设计、代码审查等场景仍需要人类工程师的把控。但那句话同样适用:AI不会取代程序员,但会用AI的程序员会取代不会用AI的程序员。
四、浪潮之下:我们该如何应对?
这些技术变化跟你有什么关系?
答案很简单:它们正在重新定义人与机器的关系。
过去,我们学习操作电脑、学习打字——这些技能的本质是”适应机器的规则”。现在,AI正在反向适应人类:你可以用自然语言和机器对话,可以用图片表达需求,可以把复杂任务交给AI去执行。
未来的核心竞争力,不再是掌握多少工具操作技巧,而是能否清晰地表达需求、有效地利用AI。
对于普通人,现在正是适应AI Agent时代的好时机。试试夸克的”拍照问”功能,感受多模态交互的便利;也体验一下扣子空间或心响App,看看Agent如何帮你完成一个复杂任务。AI不是威胁,而是一个越来越强大的助手。
对于企业和开发者,多模态和Agent代表着新的机会。火山引擎数据显示,豆包大模型的日均tokens调用量已超过12.7万亿,是一年前的106倍。这背后是海量应用场景的爆发——客服、教育、金融、医疗、电商……每一个行业都值得用AI重新做一遍。
2025年,AI竞争已进入”下半场”。上半场的主题是”生成”,AI能创作文章、图片、代码,展示令人惊叹的创造力。下半场的主题是”执行”,AI不再只是回答问题,而是真正介入工作流程,成为解决问题的参与者。
未来的AI将更加”像人”——它能看、能听、能说、能做;它理解你的意图,记住你的偏好,主动帮你处理事务。
而我们需要做的,是学会与这个新”伙伴”相处,让它成为我们能力的延伸。
风暴已至,乘风而行 🚀