字节跳动旗下火山引擎今日宣布,正式推出豆包Seed 2.1系列大模型,涵盖Pro和Turbo两个版本,同时对Seed-Evolving模型进行迭代升级。此次更新聚焦于提升模型在复杂场景下的实际应用能力,通过引入用户反馈和真实案例优化方向,重点强化跨工具、跨环境的任务执行效率。
在通用Agent能力方面,Seed2.1实现了显著突破。模型可稳定处理高经济价值的办公任务,如项目规划、文件处理和工具调用等,同时支持个人生活中的复杂咨询场景。例如,用户提供多格式资料(文档、PDF、图片)后,模型能综合分析并给出可靠建议,甚至自主调用工具完成后续操作。这一能力在Workspace Bench和Agent Startup Bench基准测试中得到验证,其中Seed2.1 Pro在GDPval基准(衡量真实工作场景的经济价值)中取得最高分。

代码工程领域是Seed2.1的另一大升级方向。模型端到端交付能力显著提升,可完成企业级开发任务的全流程,包括需求理解、功能实现、bug修复和运行环境搭建等。在专业评测中,Seed2.1 Pro在Agents' Last Exam(ALE)基准中跻身第一梯队,展现出处理复杂专业任务的优势。该测试因发布时间短,模型难以针对性优化,更能反映泛化能力。
多模态能力方面,Seed2.1对视觉信息和视频内容的处理精度进一步提升。模型不仅能理解文档、图片和空间结构,还能基于多视角图像生成户型图,或根据视觉信息完成检索、内容生成和代码编写。在Claw-eval (MM)等视觉Agent基准测试中,模型表现出强劲竞争力。例如,在内部自建的Image2FloorPlan评测集中,模型需通过分析多张真实照片绘制平面图,任务难度极高。

针对真实工作流的跨环境需求,Seed2.1优化了通用型Computer-Use Agent(CUA)能力。模型可在聊天、搜索、代码仓库和外部工具间无缝切换,在手机GUI任务中表现尤为突出。在MobileWorld基准测试中,Seed2.1取得最高分,能稳定完成屏幕内容理解、连续操作和跨应用切换。通过强化学习优化,模型在OSWorld基准中将任务平均步数减少16%,执行效率大幅提升。
在创意生产场景中,Seed2.1覆盖Notion、Canva和Figma等代表性环境,支持文档管理、视觉设计和界面编辑等任务。模型可自主分解复杂目标,在工具调用与GUI交互间灵活切换。例如,在Seed自研的CreativeWork基准测试中,模型需协同使用图形界面和MCP工具完成任务,展现出强大的环境适应能力。
















