双料齐发！明略科技(2718.HK)正式开源 Cider 端侧推理加速框架与 Mano-P 端侧模型|模态|智能体|gui|大模型

📰 谷德专业资讯网 ⏰ 2026-05-06 15:48 👁 27032 阅读

近日，明略科技正式开源自研 Cider 推理加速 SDK（软件开发工具包），以及端侧 GUI 智能体模型 Mano-P。继此前开源的 Mano-CUA skill 之后，本次 Mano-P 模型的开源直观展现了端侧模型在真实业务闭环中的巨大潜能。而 Cider 框架则从计算算子与硬件调用机制的底层出发，赋能端侧大模型在 macOS 系统本地算力下以更高效率、更低内存占用流畅运行。

Mano-P：验证端侧智能体落地潜能

Mano-P 是明略科技自研的端侧 GUI-VLA 智能体模型。它能够通过纯视觉方式理解并操作图形界面，既不依赖传统 API 对接，也不局限于浏览器场景，而是可以直接作用于桌面软件、网页系统以及更复杂的图形化工作流。

复杂的图形界面交互天然要求模型具备强大的多模态视觉理解能力，模型必须持续、高频地处理屏幕截图，精准定位微小的界面元素，并结合视觉反馈执行后续操作。在传统的云端大模型架构下，这种高频的视觉交互所带来的 token成本消耗极为高昂。

相比之下，参数规模为 4B 的 Mano-P 端侧模型，不仅在 CUA 任务上展现出了媲美云端大模型的准确率，更将原本极其高昂的云端接口调用成本直接清零。在完全离线的本地模式下，所有的应用截图、交互过程与任务数据均被严格锁定在用户的本地设备之中，将隐私安全成为一种“物理隔离”的必然。

Cider：面向 Apple Silicon 的端侧推理加速框架

真正决定端侧模型可用性的核心指标，在于本地推理速度、硬件利用率、内存占用、接入成本以及长期稳定性。如果推理速度过慢，AI 的交互体验便会大打折扣；如果内存占用过高，模型就难以在主流设备上广泛部署；如果接入成本居高不下，企业和开发者便难以将端侧能力快速融入自身的业务线。

Cider 正是在这一背景下应运而生。作为明略科技自研并开源的 SDK（软件开发工具包），Cider 基于 Apple MLX 生态构建，专为 macOS 与 Apple Silicon 打造。它精准补齐了 MLX 原生框架在激活量化与特定张量计算能力上的缺失，是一套面向广泛开源模型生态的高效端侧推理框架。

图片来源：明略科技

当前，Apple MLX 原生架构已支持 W4A16、W8A16 等权重量化模式。在此基础上，Cider 进一步提供了 W8A8 与 W4A8 推理路径。通过深度融合在线激活量化、INT8 TensorOps 计算、量化矩阵乘和反量化流程，Cider 充分释放了 Apple Silicon 的底层计算潜能，让开源模型不仅“能在 Mac 上跑”，更能以更高效率、更低内存占用的姿态流畅运行。

在实测数据中，Cider 在 W8A8 模式下的算子速度相较原生 MLX 模式提升约 1.4 至 1.9 倍，具体表现视 Batch Size 而定。而在 W4A8 模式下，Cider 能够比 W8A8 模式进一步降低 50% 的权重内存占用，并在高并发场景下与原生 MLX 的全精度 W4A16 方案计算速度相抗衡。

图片来源：明略科技

针对 Qwen3-VL 系列主流视觉语言模型，Cider 在端到端预填充场景中展现出了极为显著的加速效果。在不同长度的提示词下，相较于原生 MLX W8A16 模式，Cider 的 W8A8 PC 模式为 Qwen3-VL-4B 模型带来了约 17% 至 22% 的预填充速度提升；而在 Qwen3-VL-2B 模型上，这一提速更是跃升至约 57% 至 61%。

图片来源：明略科技

此外，Cider 还针对多图推理中的 RoPE 位置处理等技术难点进行了深度优化与非侵入性修复，大幅提升了复杂视觉任务的推理稳定性。由于视觉交互任务通常需要处理更长的上下文、更复杂的截图信息以及更密集的推理请求，这种量级上的性能跃升对于端侧 VLM 和 GUI 智能体而言尤为关键。

此外，Cider 积极探索了基于 M4 芯片的 Apple Neural Engine 与 GPU 的异构协同。长期以来，端侧大模型推理主要依赖 GPU，而 Apple 芯片中 Neural Engine 的潜力并未被充分挖掘。Cider 通过引入 ANE+GPU 的异构张量并行机制，让两类计算单元协同作战，在部分测试场景下额外斩获了约 3% 至 16% 的加速效果。

极简接入，让更多开源模型获得本地加速能力

Cider 能够无缝兼容任意 LLM 模型，涵盖 Qwen、Llama、Mistral 以及 Qwen3-VL 等 VLM模型，并内置 OpenAI 兼容的 VLM 推理服务。企业及开发者无需重写模型结构，仅需极少量的代码适配，即可实现便捷接入。

在预填充阶段，Cider 支持启用 W8A8 INT8 TensorOps 以大幅拉升计算速度；而在解码阶段，框架能够智能回退至原有权重路径，有效避免引入不必要的额外开销。

无论是企业期望在内部网络中部署高度定制化的本地大语言模型，还是开发者致力于构建垂直领域的私有化人工智能应用矩阵，Cider 都提供了一套坚实、可靠且极具延展性的底层推理基础设施支撑。

面向私有化 AI，构建本地智能基础设施

过去，大模型应用大多依赖云端算力。云端模型具备更强的规模化能力，但在企业级场景中，数据传输成本、隐私安全、调用费用和网络依赖也成为不可忽视的问题。特别是在涉及内部系统、核心业务流程、敏感界面截图和任务数据的场景中，端侧 AI 可以让模型更靠近数据发生的地方，在降低传输风险的同时，提升响应速度和自主可控性。

Cider 通过提升本地推理效率，让“数据不出设备”得以更接近真实可用的工程方案。当本地模型具备更好的推理性能，企业便拥有了在诸如本地智能助手、企业内部 Agent、离线任务执行、端侧多模态分析以及高保密要求的自动化流程等更多场景中探索私有化 AI 的底气。

后续，明略科技还将开源完整的 Mano-Action 训练方法和相关工具。帮助企业和开发者基于自己的数据训练定制化 GUI 智能体模型，或在 Mano-Action 基础上开发新的训练技术等，全面赋能企业定制与算法创新。

图片来源：明略科技

明略科技正将自身在智能体、多模态模型和企业级 AI 应用领域的深厚积淀，进一步向下延伸至底层推理框架与端侧模型研发的根基之中。我们致力于为广大开发者与企业用户提供一套完整、开箱即用的私有化人工智能基础设施，让 AI 真正走向私有化部署、低成本运行与可信落地。

本文标签：科技芯片人工智能AI

双料齐发！明略科技(2718.HK)正式开源 Cider 端侧推理加速框架与 Mano-P 端侧模型|模态|智能体|gui|大模型

经济发展报告

2024全国两会

科技创新前沿

双料齐发！明略科技(2718.HK)正式开源 Cider 端侧推理加速框架与 Mano-P 端侧模型|模态|智能体|gui|大模型

📚 相关阅读

经济发展报告

2024全国两会

科技创新前沿