华为将发布UCM推理加速技术 突破AI高并发瓶颈

8月12日,华为将在2025金融AI推理应用落地与发展论坛上发布全新UCM(推理记忆数据管理器)技术,该技术通过创新性的KV Cache分级管理机制,显著提升AI推理效率,实现高吞吐、低时延的推理体验。

据悉,UCM技术核心突破在于:

智能缓存管理:采用多类型缓存加速算法,动态优化KV Cache内存占用,将大模型上下文窗口扩大3倍;成本优化:通过精细化Token管理,降低单次推理成本40%,特别适合金融风控、高频交易等实时性要求高的场景;硬件协同:与昇腾AI处理器深度适配,在Llama3-70B等主流模型上实现2000+Tokens/秒的推理速度。

华为昇腾计算业务总裁表示,UCM可解决当前AI推理面临的"内存墙"问题,预计将率先应用于智能投顾、反欺诈检测等金融场景。随着大模型应用爆发,该技术或重塑AI推理基础设施标准,助力企业降低算力成本。目前已有工商银行、平安科技等机构参与技术验证。

http://50061.net/xinwendongtai/337429.html

QQ咨询

QQ: