苹果在最新全球开发者大会(WWDC)上正式发布第三代Apple Foundation Models(AFM),涵盖五款针对不同场景优化的模型。此次升级不仅强化了端侧AI处理能力,更通过与谷歌、英伟达的技术协作,在隐私保护与算力扩展之间找到新平衡点。
端侧模型包含AFM 3 Core和AFM 3 Core Advanced。前者作为主力升级型号,在文本生成与图像理解任务中表现显著提升,全球用户偏好度较前代增长45.6%。后者采用200亿参数稀疏架构,通过Instruction-Following Pruning技术将核心权重存储于DRAM,动态专家参数置于NAND闪存,实现推理时仅激活10-40亿参数。这种设计使模型在保持多模态能力(语音合成、识别与视觉理解)的同时,突破移动设备内存限制,苹果2023年论文中提出的"LLM in a Flash"概念由此落地。
云端模型分为AFM 3 Cloud、ADM 3 Cloud和AFM 3 Cloud Pro。AFM 3 Cloud继承并行轨迹混合专家架构,在长上下文推理与信息召回能力上取得突破,全球语言区域用户偏好度飙升至64.7%。ADM 3 Cloud专注图像生成与编辑,支持多纵横比与分辨率处理,通过适配器架构实现照片空间重构、触控编辑等个性化功能。作为性能旗舰,AFM 3 Cloud Pro专门优化智能体工具调用与复杂推理任务,苹果宣称其性能已达谷歌Gemini前沿模型水平,但所有数据处理均通过私有云计算架构完成。
技术协作呈现差异化特征。四款面向Apple Silicon的模型采用专有数据训练,在优化阶段借助Gemini模型进行知识蒸馏,而非直接部署谷歌模型。唯一例外是AFM 3 Cloud Pro,该模型运行于谷歌云的英伟达GPU集群,但通过苹果设计的系统编排器实现严格隔离:设备仅与经过苹果签名的软件通信,数据全程不落地且不可被第三方访问,隐私保护机制已通过第三方持续验证。
实际测试数据显示,AFM 3 Core Advanced在语音交互领域取得关键进展。文本转语音(TTS)测试中,新模型在MOS评分中获4.15分,较前代提升0.28分,日常会话场景得分更高达4.24分。语音转文本测试中,新模型以44.7%对17.6%的优势全面超越现有系统,在标点处理、口误修正等七个维度均表现优异。
系统编排器作为核心调度中枢,可智能判断请求处理路径:简单任务由端侧模型独立完成,复杂需求则通过私有云计算平台调用云端模型。这种分层架构既保障了基础功能的响应速度,又为深度推理任务提供算力支撑,同时确保用户数据始终处于加密传输状态。
苹果软件工程团队强调,所有模型优化均基于专有数据集完成,与谷歌的合作仅限于训练阶段的非敏感技术协作。这种"数据主权与算力扩展"的平衡策略,为消费电子厂商布局生成式AI提供了新范式,特别是在隐私保护日益严格的全球监管环境下,其技术路径具有显著示范效应。























