字节豆包Seed2.1系列模型上线：强化通用Agent能力，赋能专业与个人场景新突破

发布时间：2026-06-23 22:17 来源：快讯作者：快讯

字节跳动旗下火山引擎今日宣布，正式推出豆包Seed 2.1系列大模型，涵盖Pro和Turbo两个版本，同时对Seed-Evolving模型进行迭代升级。此次更新聚焦于提升模型在复杂场景下的实际应用能力，通过引入用户反馈和真实案例优化方向，重点强化跨工具、跨环境的任务执行效率。

在通用Agent能力方面，Seed2.1实现了显著突破。模型可稳定处理高经济价值的办公任务，如项目规划、文件处理和工具调用等，同时支持个人生活中的复杂咨询场景。例如，用户提供多格式资料（文档、PDF、图片）后，模型能综合分析并给出可靠建议，甚至自主调用工具完成后续操作。这一能力在Workspace Bench和Agent Startup Bench基准测试中得到验证，其中Seed2.1 Pro在GDPval基准（衡量真实工作场景的经济价值）中取得最高分。

代码工程领域是Seed2.1的另一大升级方向。模型端到端交付能力显著提升，可完成企业级开发任务的全流程，包括需求理解、功能实现、bug修复和运行环境搭建等。在专业评测中，Seed2.1 Pro在Agents' Last Exam（ALE）基准中跻身第一梯队，展现出处理复杂专业任务的优势。该测试因发布时间短，模型难以针对性优化，更能反映泛化能力。

多模态能力方面，Seed2.1对视觉信息和视频内容的处理精度进一步提升。模型不仅能理解文档、图片和空间结构，还能基于多视角图像生成户型图，或根据视觉信息完成检索、内容生成和代码编写。在Claw-eval (MM)等视觉Agent基准测试中，模型表现出强劲竞争力。例如，在内部自建的Image2FloorPlan评测集中，模型需通过分析多张真实照片绘制平面图，任务难度极高。

针对真实工作流的跨环境需求，Seed2.1优化了通用型Computer-Use Agent（CUA）能力。模型可在聊天、搜索、代码仓库和外部工具间无缝切换，在手机GUI任务中表现尤为突出。在MobileWorld基准测试中，Seed2.1取得最高分，能稳定完成屏幕内容理解、连续操作和跨应用切换。通过强化学习优化，模型在OSWorld基准中将任务平均步数减少16%，执行效率大幅提升。

在创意生产场景中，Seed2.1覆盖Notion、Canva和Figma等代表性环境，支持文档管理、视觉设计和界面编辑等任务。模型可自主分解复杂目标，在工具调用与GUI交互间灵活切换。例如，在Seed自研的CreativeWork基准测试中，模型需协同使用图形界面和MCP工具完成任务，展现出强大的环境适应能力。

更多>同类内容