IT之家 3 月 20 日报道,开发者 Dan Woods 最近在配备 M3 Max 芯片和 48GB 统一内存的 MacBook Pro 上成功运行了 209GB 超大 AI 模型(Qwen3.5-397B,通常只有数据中心才能容纳),实现了超过 5.5 个令牌/秒的速度。 IT House 援引博客文章称,Qwen3.5-397B 型号占用约 209GB(压缩后 120GB)磁盘空间,远远超过普通笔记本电脑的内存限制,因为通常需要将数百亿个参数加载到大量高速内存中。为了克服无法加载 48GB 内存的 209GB 模型的物理限制,Woods 求助于苹果在 2023 年发表的一篇题为“闪存中的大语言模型”的论文。这项研究提出了一个创新的解决方案。将模型参数存储在高速固态驱动器 (NVMe SSD) 中,并使用推理成本模型指南按需将数据以更大、更高效的数据块传输到内存。伍兹指出这一方案的成功实施很大程度上得益于苹果芯片独特的统一内存架构。这种架构打破了传统的孤岛,允许 CPU、GPU 和内存紧密协作。同时,Woods还利用了Qwen模型中出现的“混合专家(MoE)”架构特征。由于 MoE 模型在每个代币的生成过程中只需要激活几个参数,因此我们将每次激活的“专家”数量从 10 个简化为 4 个。开发者 Simon Willison 分析称,这种折衷方案显着降低了内存需求,同时保持了模型的核心性能,允许直接从闪存读取主动权重。伍兹并不仅仅依赖于手动编写这些复杂的低级优化代码。有件事值得一提。他将苹果的论文输入到他的 AI 助手 Claude Code 中,并以自动化研究模式进行了 90 次实验。最终,AI 自动生成高度优化的 MLX Objective-C 和 Metal 代码,这是直接在 Apple 芯片上运行的底层计算语言。该项目的测试结果和详细技术文档目前已在 GitHub 上开源。
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由SOC网易号用户上传并发布。官方媒体平台,仅提供信息存储服务。