人工智能、机器学习·

苹果的设备端和服务器基础语言模型 [译]

苹果在 2025 年全球开发者大会上推出了一代新语言基础模型,提升了 Apple Intelligence 特性并引入新的 Foundation Models 框架。

我们将强大的生成式 AI 深度集成到人们每天使用的应用程序和体验中,同时保护他们的隐私。在 2025 年全球开发者大会上,我们推出了一代新语言基础模型,旨在增强我们最新软件版本中的 Apple Intelligence 特性。我们还推出了新的 Foundation Models 框架,它为应用开发者提供了直接访问 Apple Intelligence 核心的设备端基础语言模型的权限。

更新 - 2025 年 7 月 17 日:本文中的数据已更新以反映今天发布的技术报告中使用的模型版本和评估方式。更多细节,请参见论文:Apple Intelligence Foundation Language Models Tech Report 2025

我们为广泛范围的智能特性开发了这些生成模型,这些特性在我们的平台上进行了集成。这些模型改进了工具使用和推理能力,理解图像和文本输入,运行速度更快且更高效,并设计支持 15 种语言。我们最新的基础模型经过优化,可高效运行在 Apple silicon 上,包括一个小型的约 30 亿参数模型,以及一个基于服务器的专家混合模型,采用了一种新颖架构,专为 Private Cloud Compute 设计。这两个基础模型是苹果为支持用户而创建的更大系列生成模型的一部分。

在本概述中,我们详细介绍了我们设计的模型架构、用于训练的数据、采用的训练策略、优化推理的方法及与可比模型的评估结果。在整个过程中,我们强调了在增强功能和质量改进的同时如何提高设备端和 Private Cloud Compute 上的速度和效率。最后,在我们持续致力于维护核心价值观的同时,我们展示了如何将负责任的 AI 原则贯穿于整个模型开发过程。

图 1:苹果基础模型的建模概述

模型架构

我们开发了设备端和服务器模型,以满足各种性能和部署需求。设备端模型经过优化,以提高效率,并专为 Apple silicon 调整,使得低延迟推理,资源使用最低,而服务器模型则旨在为更复杂的任务提供高准确性和可扩展性。两者共同形成了针对多种应用的互补解决方案。

我们通过开发新模型架构改进了这两种模型的效率。对于设备端模型,我们将完整模型分为两个深度比为 5:3 的模块。模块 2 的所有键值 (KV) 缓存直接与模块 1 最后一层生成的缓存共享,从而减少 37.5% 的 KV 缓存内存使用,并显著改善首次标记生成时间。我们还为服务器模型开发了一种新架构,采用平行轨道的专家混合 (PT-MoE) 设计。该模型由多个较小的变换器组成,称为轨道,独立处理标记,仅在每个轨道模块的输入和输出边界应用同步。每个轨道模块还有自己的一套专家层。结合轨道独立性所启用的轨道级并行性,这种设计显著减少了同步开销并允许模型在保持低延迟的同时高效扩展,而不影响质量。

图 2:PT-MoE 架构示意图。

为了支持更长的上下文输入,我们设计了一个交错注意力架构,将滑动窗口局部注意力层与旋转位置嵌入 (RoPE) 以及没有位置嵌入 (NoPE) 的全局注意力层相结合。此设置改善了长度泛化,减少了 KV 缓存大小,并在长上下文推理期间保持模型质量。

为了启用视觉能力,我们开发了一个在大规模图像数据上训练的视觉编码器。它由一个提取丰富特征的视觉主干和一个将特征与 LLM 的标记表示对齐的视觉-语言适配器组成。我们在服务器模型中使用了具有 10 亿参数的标准视觉变换器 (ViT-g),而在设备端部署中采用了更高效的具有 3 亿参数的 ViTDet-L 主干。为了更有效地捕捉和整合局部细节和更广泛的全球上下文,我们在标准的 ViTDet 上添加了一种新颖的注册窗口 (RW) 机制,从而有效捕获全局上下文和局部细节。

训练数据

我们相信使用多样且高质量的数据来训练我们的模型。这包括我们从出版商处获得的授权数据,从公开可用或开源数据集中整理的数据,以及我们的网络爬虫 Applebot 抓取的公开可用信息。我们在训练基础模型时不使用用户的私人个人数据或用户交互。此外,我们采取措施应用滤镜以移除某些类别的可识别个人信息,并排除脏话和不安全内容。

此外,我们继续遵循道德网络爬虫的最佳实践,包括遵循被广泛采用的 robots.txt 协议,允许网络出版商选择退出他们的内容被用于训练苹果的生成基础模型。网络出版商对 Applebot 可见的页面及其使用方式拥有细致的控制,同时仍然在 Siri 和 Spotlight 的搜索结果中显现。

文本数据

在尊重上述选择退出的情况下,我们继续从 Applebot 抓取的网络内容中获取大量预训练数据,跨越数百亿网页,涵盖广泛的语言、地区和主题。鉴于网络的嘈杂特性,Applebot 采用先进的抓取策略,以优先获取高质量和多样化的内容。特别是我们重点捕获高保真 HTML 页面,这为数据集添入了文本和结构化的元数据,以对齐媒体与周围的文本内容。为了提高相关性和质量,系统利用多个信号,包括域级语言识别、主题分布分析和 URL 路径模式启发式。

我们特别注意准确提取文档和现代网站的内容。我们利用无头渲染增强文档集合,实现完整页面加载、动态内容交互和 JavaScript 执行,这对于从网络架构中提取数据至关重要。对于依赖动态内容和用户交互的网站,我们启用了完整的页面加载和交互模拟,以可靠地从复杂页面提取有意义的信息。我们还将大语言模型 (LLMs) 纳入我们的提取流程,特别是对于领域特定文档,因为它们通常优于传统的基于规则的方法。

除了先进的抓取策略外,我们显著扩展了我们训练数据的规模和多样性,并纳入了更多高质量的一般领域、数学和编程内容。我们还扩大了我们的多语言支持,以支持今年晚些时候将推出的新语言。

我们认为高质量的过滤在整体模型性能中起着至关重要的作用。我们通过减少对过于激进的启发式规则的依赖以及引入更多基于模型的过滤技术来优化数据过滤流程。通过引入基于模型的信号,我们能够保留更多的信息内容,从而获得更大且更高质量的预训练数据集。

图像数据

为了增强我们的模型并提升 Apple Intelligence 特性中的视觉理解能力,我们在预训练流程中引入了图像数据,利用高质量的授权数据以及公共可用的图像数据。

通过我们的网络抓取策略,我们获取了一对对的图像和对应的替代文本。除了过滤法律合规性之外,我们还过滤了数据质量,包括图像文本的对齐。在去重后,此过程产生了超过 100 亿对高质量图像-文本对。此外,我们通过保留在抓取文档中所观察到的文本上下文中的图像来创建图像-文本交错数据。经过质量和法律合规性的过滤后,这产生了 1.75 亿个交错的图像-文本文档,包含超过 5.5 亿个图像。由于网络抓取的图像-文本对通常较短且常常无法全面描述图像的视觉细节,因此我们使用合成的图像描述数据来提供更丰富的描述。我们开发了一种内部图像描述模型,能够在不同的详细程度下提供高质量的描述,从关键词到段落级的综合描述,生成了超过 50 亿个图像-描述对,供预训练阶段使用。

为了提高我们模型的富文本视觉理解能力,我们策划了多种富文本数据集,包括 PDF 文档、手稿、信息图表、表格和图表,这些数据通过授权数据、网络抓取和内部合成获取。然后我们从图像数据中提取文本并生成转录和问答对。

我们策划了多种类型的图像-文本数据:

  • 高质量描述数据和基础描述:我们采用对比语言-图像预训练 (CLIP) 模型和光学字符识别 (OCR) 工具作为过滤器,以获得上述合成图像描述数据中的高质量图像。然后,我们利用内部的基础模型来定位描述中的名词,并在名词后附加坐标形成基础描述。
  • 表格、图表和情节:对于图表和情节,我们首先提示内部语言模型生成合成数据字段及其对应值,然后要求语言模型编写代码,以基于先前合成的数据样本生成各种类型的图表和情节。最后,我们将图表、情节和数据样本输入教员模型生成用于模型训练的问答。对于表格,我们从公共可用网站解析表格并将其转换为 Markdown,然后使用图像-Markdown 配对和教员模型生成的图像-合成问答进行模型训练。

预训练

我们的预训练策略已经演变,以扩展 Apple Intelligence 的能力,支持更多语言以及更广泛的特性,包括需要图像理解的特性。

预训练分为多个阶段进行,第一阶段是计算密集型的,仅针对文本模态。我们使用蒸馏损失训练设备端模型,但并没有使用大型密集模型作为教师模型并从头开始预训练,而是对一个 64 个专家、每 2 层的专家混合 (MoE) 进行稀疏升级,从预训练的约 30 亿模型中使用少量最高质量的文本数据。这减少了训练教师模型的 90% 的成本。然而,我们对稀疏服务器模型进行了从头开始的训练,总共使用了 14 万亿个文本令牌。

为了在此阶段更好地支持新语言,我们将文本分词器的词汇量从 10 万扩大到 15 万,通过仅增加 25% 的词元数量,实现对许多额外语言的表征质量。同时,为了实现视觉感知,我们使用 CLIP 风格对比损失训练了设备端和服务器视觉编码器,以对齐 60 亿对图像-文本,生成了一个具有良好视觉基础的编码器。

在预训练的第二阶段,我们联合训练视觉编码器和视觉-语言适配模块,使用小模型解码器将图像特征与模型的表示空间通过高质量文本数据、交错的图像-文本数据以及领域特定的图像-文本数据进行对齐。然后我们利用这些视觉编码器和预训练模型来改善代码、数学、多语种、长上下文理解,并通过多个继续预训练阶段融入图像理解。

在继续预训练的阶段中,我们适应数据集混合比,同时纳入经过正确性验证的合成数据以改善代码、数学和多语种能力。在这一阶段,我们从头开始训练了一个视觉-语言适配模块,以将视觉编码器与两个模型连接。在最后的继续预训练阶段,我们训练模型以处理显著更长的上下文长度,使用样本来自自然发生的长文数据、设计以针对特定能力的合成长文数据,以及先前预训练轮次中的混合数据。

后训练

与预训练的方法相似,我们改进了后训练流程,以支持语言扩展和视觉理解。

我们通过结合人类撰写的演示和合成数据,扩大了监督微调 (SFT) 的规模,重点放在核心视觉能力上。这包括一般知识、推理、文本丰富的图像理解、文本和视觉基础以及多图像推理。我们进一步通过检索额外图像并合成其对应的提示和响应来自助增加视觉 SFT 数据的多样性。

我们利用这一步 SFT 阶段进一步实现工具使用和多语种支持。我们设计了一种过程监督注释方法,注释员向工具使用代理平台发出查询,返回平台的整个轨迹,包括工具调用细节、对应的执行响应和最终响应。这使得注释员能够检查模型的预测并纠正错误,从而生成用于教学的树状数据集。为了扩展到更多语言,我们默认将输出语言与输入语言匹配,但我们还通过创建多样化的数据集来启用不同语言的提示和响应。

我们在 SFT 阶段和 RLHF 阶段之后应用了人类反馈强化学习 (RLHF) 用于设备端模型和服务器模型。同时,我们提出了一种新型提示选择算法,基于模型多个生成结果的奖励变异来策划 RLHF 训练的提示数据集。我们的评估显示,在人类和自动基准测试中,RLHF 都带来了显著提升。而且,虽然我们在 SFT 和 RLHF 阶段引入了多语种数据,我们发现 RLHF 在 SFT 的基础上提供了显著的提升,在人类评估中达到 16:9 的胜率。

为了继续提升我们模型在多语种表现上的质量,我们使用了指令跟随评估 (IFEval) 和 Alpaca Evals 作为评判。我们收集了每种支持语言中的 1000 个由母语人士编写的提示。经过仔细的提示调整,我们在自动评估和人类评估间达成了良好的对齐,从而实现在快速迭代上的提升。

优化

在过去一年中,我们扩展了 Apple Intelligence 的能力,并在提高推理效率和降低设备端和服务器模型的能耗的同时进行了质量改进。

我们通过量化感知训练 (QAT) 将设备端模型的权重压缩到每个权重 2 位 (bpw),采用新颖的可学习权重裁剪和权重初始化组合。服务器模型则使用称为自适应可扩展纹理压缩 (ASTC) 的基于块的方法进行压缩,虽然最初是为图形管线开发的,但我们发现对模型压缩同样有效。ASTC 解压缩在 Apple GPU 中实现,使用专用硬件组件允许权重在不增加额外计算开销的情况下被解码。

对于两个模型,我们将嵌入表量化为每个权重 4 位——同时应用 QAT 的联合训练以适配设备端模型的基础权重,和对服务器模型进行后训练量化。KV 缓存量化为每个权重 8 位。接着,我们利用额外数据训练低秩适配器,以恢复由于这些压缩步骤而造成的质量损失。通过这些技术,我们观察到一些轻微的质量回归,甚至出现轻微的改善,例如设备端模型在 MGSM 上的 ~4.6% 回归和在 MMLU 上的 1.5% 改善,以及服务器模型在 MGSM 上的 2.7% 和 MMLU 上的 2.3% 回归。

设备端服务器
解码器权重2-bpw 通过 QAT3.56-bpw 通过 ASTC
嵌入4 位 通过 QAT4 位 后训练
KV 缓存8 位8 位
适配器恢复

表 1. 设备端和服务器基础模型的压缩及比特率。

Foundation Models 框架

新的 Foundation Models 框架使开发者能够开始创建自己的可靠的、生产质量的生成 AI 特性,使用 ~30 亿参数的设备端语言模型。Apple Intelligence 核心的 ~30 亿语言基础模型在各类文本任务中表现出色,包括总结、实体提取、文本理解、精炼、短对话、生成创意内容等。它并不是旨在成为一个用于一般世界知识的聊天机器人。我们鼓励应用开发者使用此框架构建针对其应用的有用特性。

我们框架的亮点是直观的 Swift 方法,称为引导生成,进行受限解码。使用引导生成,开发者通过在 Swift 结构或枚举中添加 @Generable 宏注释,直接与丰富的 Swift 数据结构进行工作。这是由于模型、操作系统和 Swift 编程语言的垂直整合。它始于 Swift 编译器宏,将开发者定义的类型转换为标准化的输出格式规范。当提示模型时,框架将响应格式注入提示中,模型能够理解和遵循该格式,因为在特别设计的引导生成规范的数据集上经历了后训练。之后,操作系统守护进程采用高度优化的互补实现来提升推理速度,同时提供强有力的保障,确保模型的输出符合预期格式。基于这些保障,框架能够可靠地从模型输出中创建 Swift 类型的实例。这简化了开发者的体验,使应用开发者能够编写更简单的代码,同时得益于 Swift 类型系统。

工具调用为开发者提供了通过创建工具来自定义 ~30 亿模型能力的强大功能,这些工具为模型提供特定类型的信息源或服务。

该框架的工具调用方法基于引导生成。开发者提供简单的工具 Swift 协议的实现,框架会自动且最优地处理可能复杂的并行和串行工具调用的调用图。模型在工具使用数据上的后训练提升了该框架特性下模型的可靠性。

我们精心设计该框架,以帮助应用开发者充分利用设备端模型。对于需要教授 ~30 亿模型全新技能的专业用例,我们还提供一个 Python 工具包用于训练 32 等级适配器。通过该工具包生成的适配器与 Foundation Models 框架完全兼容。然而,适配器需在每个新版本的基础模型下重新训练,因此在充分利用基础模型的能力后,应视为高级用例进行部署。

评估

我们使用人类评判员对设备端和基于服务器的模型进行了线下质量评估。我们评估标准包括标准基础的语言和推理能力,包括分析推理、头脑风暴、聊天、分类、封闭式问答、编码、创意写作、抽取、数学推理、开放式问答、重写、总结和工具使用。

随着我们对额外语言和地区的模型支持扩展,我们扩展了评估任务集,使其符合特定地区的特点。人类评判员评估模型在该地区用户的反应自然流畅的能力。例如,当模型回答一位来自英国用户的英语体育问题时,期望其使用“football”这一更适合本地的用语,而非“soccer”。评判员可以标记模型的响应存在许多问题,包括未本地化的术语或不自然的短语。特定地区的评估采用类似于美国英语地区的类别,除了排除诸如数学和编码等基本上天生没有地区局限的技术领域。

我们发现,设备端模型在所有语言上对比稍大些的 Qwen-2.5-3B 时表现良好,并且在英语中与 Qwen-3-4B 和 Gemma-3-4B 的较大模型竞争。我们的服务器模型在与 Llama-4-Scout 对比时表现良好,该模型的总体大小和参数活跃数量与我们的服务器模型相当,但落后于 Qwen-3-235B 和专有的 GPT-4o 等更大的模型。

文本响应的人类评估

苹果设备端模型对比结果

英语
  1. 苹果设备端与英语 Qwen-2.5-3B 的对比:胜 35.3%,平 51.8%,负 12.9%。
  2. 苹果设备端与英语 Qwen-3-4B 的对比:胜 25.6%,平 51.7%,负 22.7%。
  3. 苹果设备端与英语 *Qwen-3-4B-AWQ 的对比:胜 19.9%,平 59.4%,负 20.7%。
  4. 苹果设备端与英语 Gemma-3-4B 的对比:胜 21.0%,平 57.1%,负 21.9%。
  5. 苹果设备端与英语 Gemma-3n-E4B 的对比:胜 25.8%,平 54.0%,负 20.2%。
  6. 苹果设备端与英语 *Gemma-3n-E4B 的对比:胜 21.8%,平 52.6%,负 25.6%。
英语(美国以外)
  1. 苹果设备端与英语(美国以外) Qwen-2.5-3B 的对比:胜 39.5%,平 44.7%,负 15.8%。
  2. 苹果设备端与英语(美国以外) Qwen-3-4B 的对比:胜 35.4%,平 45.3%,负 19.2%。
  3. 苹果设备端与英语(美国以外) *Qwen-3-4B-AWQ 的对比:胜 25.6%,平 58.9%,负 15.5%。
  4. 苹果设备端与英语(美国以外) Gemma-3-4B 的对比:胜 34.2%,平 45.9%,负 19.9%。
  5. 苹果设备端与英语(美国以外) Gemma-3n-E4B 的对比:胜 30.5%,平 51.0%,负 18.5%。
  6. 苹果设备端与英语(美国以外) *Gemma-3n-E4B 的对比:胜 21.1%,平 54.1%,负 24.8%。
PFIGSCJK
  1. 苹果设备端与 PFIGSCJK Qwen-2.5-3B 的对比:胜 36.8%,平 47.7%,负 15.5%。
  2. 苹果设备端与 PFIGSCJK Qwen-3-4B 的对比:胜 25.9%,平 50.1%,负 24.0%。
  3. 苹果设备端与 PFIGSCJK *Qwen-3-4B-AWQ 的对比:胜 29.1%,平 45.6%,负 25.3%。
  4. 苹果设备端与 PFIGSCJK Gemma-3-4B 的对比:胜 30.7%,平 44.2%,负 25.1%。
  5. 苹果设备端与 PFIGSCJK Gemma-3n-E4B 的对比:胜 42.5%,平 35.3%,负 22.2%。
  6. 苹果设备端与 PFIGSCJK *Gemma-3n-E4B 的对比:胜 36.0%,平 37.6%,负 26.4%。

苹果服务器与

英语
  1. 苹果服务器与英语 Llama-4-Scout 的对比:胜 22.7%,平 59.6%,负 17.7%。
  2. 苹果服务器与英语 Qwen-3-235B 的对比:胜 20.7%,平 54.8%,负 24.5%。
  3. 苹果服务器与英文 GPT-4o 的对比:胜 16.7%,平 68.3%,负 15.0%。
英语(美国以外)
  1. 苹果服务器与英语(美国以外) Llama-4-Scout 的对比:胜 29.1%,平 54.1%,负 16.8%。
  2. 苹果服务器与英语(美国以外) Qwen-3-235B 的对比:胜 28.1%,平 48.9%,负 23.0%。
  3. 苹果服务器与英语(美国以外) GPT-4o 的对比:胜 15.4%,平 58.3%,负 26.3%。
PFIGSCJK
  1. 苹果服务器与 PFIGSCJK Llama-4-Scout 的对比:胜 26.5%,平 56.5%,负 17.0%。
  2. 苹果服务器与 PFIGSCJK Qwen-3-235B 的对比:胜 20.1%,平 52.4%,负 27.5%。
  3. 苹果服务器与 PFIGSCJK GPT-4o 的对比:胜 17.1%,平 58.6%,负 24.3%。

在对比评估中,结果根据 3 个地区组呈现,我们以此视角来审视 Apple Intelligence 的国际化。例如,美国以外的英语包括英国英语和加拿大英语等。PFIGSCJK 是指葡萄牙语、法语、意大利语、德语、西班牙语、简体中文、日语和韩语。*表示与苹果设备端压缩模型进行测试的模型。

随着我们的模型支持扩展到图像模态,使用图像-问题对的评估集来评估图像理解能力。该评估集包含与文本评估集类似的类别,以及图像特定类别,例如信息图表,这要求模型推理文本丰富的图像。我们将设备端模型与具有相似规模的视觉模型进行比较,即 InternVL-2.5-4B、Qwen-2.5-VL-3B-Instruct 和 Gemma-3-4B,而我们的服务器模型则与 Llama-4-Scout、Qwen-2.5-VL-32B 和 GPT-4o 进行比较。我们发现,苹果的设备端模型在与更大的 InternVL 和 Qwen 相比时表现良好,并与 Gemma 竞争,而我们的服务器模型在 Qwen-2.5-VL 上表现突出,其推理 FLOPS 仅为后者的一半,但在 Llama-4-Scout 和 GPT-4o 仍落后。

图像响应的人类评估

苹果设备端模型对比结果

  1. 苹果设备端与 InternVL-2.5-4B 的对比:胜 36.7%,平 46.3%,负 17.0%。
  2. 苹果设备端与 Qwen-2.5-VL-3B 的对比:胜 35.5%,平 45.4%,负 19.1%。
  3. 苹果设备端与 Gemma-3-4B 的对比:胜 34.3%,平 47.4%,负 18.3%。

苹果服务器与

  1. 苹果服务器与 Llama-4-Scout 的对比:胜 23.2%,平 51.0%,负 25.8%。
  2. 苹果服务器与 Qwen-2.5-VL-32B 的对比:胜 30.7%,平 43.6%,负 25.7%。
  3. 苹果服务器与 GPT-4o 的对比:胜 15.3%,平 50.2%,负 34.5%。

在对比评估中,苹果基础模型与可比模型的图像响应偏好比例结果显示了我们模型的竞争力。

除了评估基础模型的通用能力外,还对适配器进行了特定功能的评估。例如,考虑使用适配器的视觉智能特性,从传单图像创建日历事件。收集了广泛环境设置、相机角度和其他具有挑战性的场景中的传单评估集。这被用来评估模型准确提取传单信息的能力,包括日期和位置,以正确创建日历事件。

负责任的 AI

Apple Intelligence 在每一个步骤中都依据我们的 核心价值观 设计,并建立在行业领先的隐私保护基础之上。此外,我们创建了负责任的 AI 原则来指导如何开发 AI 工具,以及支撑它们的模型。这些原则在使 Apple Intelligence 能力得以实现的架构的每个阶段都有体现,连接特性和工具与专用模型:

  1. 赋予用户智能工具的能力:我们识别出可以负责任地使用 AI 的领域,为解决具体用户需求创建工具。我们尊重用户如何选择使用这些工具来实现他们的目标。
  2. 代表我们的用户:我们致力于构建深具个性化的产品,旨在真实地代表全球用户。我们不断努力避免在我们的 AI 工具和模型中延续刻板印象和系统性偏见。
  3. 细致设计:我们在流程的每一个阶段,包括设计、模型训练、特性开发和质量评估中采取预防措施,以识别 AI 工具可能会被误用或导致潜在伤害的情况。我们将继续监控并积极改善我们的 AI 工具,借助用户反馈。
  4. 保护隐私:我们利用强大的设备端处理和创新基础设施如 Private Cloud Compute 保护用户隐私。我们在训练基础模型时不使用用户的私人个人数据或用户交互。

这些原则指导着我们在整个产品开发周期中的工作,影响着我们的产品设计、政策、评估和减轻措施。作为苹果对负责任的 AI 承诺的一部分,我们继续识别并减轻使用基础模型所固有的风险,如幻想和对提示注入的脆弱性。我们的安全分类法帮助我们识别需要小心处理的敏感内容。

为了评估 Apple Intelligence 的安全性,我们在部署前对基础模型及使用这些模型的每个特性进行了评估。对于基础模型,我们结合内部和外部人类评估与自动评分,并将我们的模型与外部模型进行基准比较。我们构建了针对性的安全评估数据集,以评估基础模型在总结、问答和头脑风暴等高风险和敏感内容任务上的表现。对于单个特性,我们设计了专注于用户面临的风险的数据集,以特别识别不希望出现的结果,及质量问题在应用特定敏感内容时可能造成的任何影响。例如,我们在设计新的 Foundation Models 框架及其支持资源时非常小心,旨在帮助改善生成 AI 的安全性。该框架强制执行基本安全级别,内置安全护栏以减轻有害的模型输入和输出。为了帮助应用设计师和开发者将 AI 安全有效地融入其应用,我们创建了教育资源,如新的 生成 AI 人机界面指南 以符合负责任的 AI 原则。

随着我们将特性扩展到新语言,我们在不同地区和文化中扩展了安全性表示,并继续改进以考虑用户的广泛文化和语言多样性。除了遵循当地法律法规外,我们利用高质量的外部代表性数据源,联络内部和外部的法律、语言和文化专家,并审核过去产品决策的先例,以确保我们的做法具有情境特征和相关性。为了为多语言使用设计我们的缓解步骤,我们首先在基础模型层进行多语言后训练对齐,然后扩展到专为安全性对齐数据集成的特征特定适配器。此外,我们扩展了拦截有害提示的护栏模型,并保持多语言适配器,同时引入特定语言的训练数据。我们开发了定制数据集,以减轻模型输出中的文化特定风险、偏见和刻板印象。类似地,我们将评估数据集扩展到多语言和地区,使用机器翻译和针对性合成数据生成等工具,所有这些通过母语使用者进行精细修正。最后,我们在各特性上进行人类红队评估,以识别每个地区独特的风险。

我们持续监控并积极改善我们的特性,利用用户反馈。在 Image Playground 中,例如,用户可以通过点击“点赞”或“点踩”来反馈生成的图像,并可以选择添加评论。应用开发者同样可以通过 反馈助手 提供反馈。用户和开发者的反馈以及评估数据和其他指标有助于我们不断改进 Apple Intelligence 特性和模型。

结论

我们很高兴能够使 Apple Intelligence 核心的语言基础模型更加高效和强大,解锁多种在我们的软件平台中集成的有用特性,并为我们全球的用户提供多种语言的支持。我们还向应用开发者提供了直接访问我们的设备端语言基础模型的权限,通过新的 Foundation Models 框架。应用开发者可以利用无成本的 AI 推理,只需几行代码,就能为他们的应用带来文本提取和总结等功能。我们最新的基础模型在每个步骤中都建立在我们的核心价值观之上,例如对隐私的承诺,以及我们的负责任 AI 方法。我们期待在未来的技术报告中分享关于我们语言基础模型更新的更多细节。

相关阅读和更新

技术报告: 更多详细信息请参见论文:Apple Intelligence Foundation Language Models Tech Report 2025

原文链接:https://machinelearning.apple.com/research/apple-foundation-models-2025-updates


© 2025 智人飞扬