据CNMO相识,该结合方案具有如下焦点上风:
生态兼容:撑持平台、计较及存储联动,适配英伟达、华为昇腾等多元AI算力,撑持TensorFlow/vLLM/SGLang等主流AI框架,借助Kubernetes可无缝对于接华为OceanStor A系列存储。
推理加快:经由过程长期化KV Cache到华为OceanStor A系列存储,实现推理影象常识全量生存,防止重复计较;交融Prefix Cache、Training-free稀少等加快算法,降低首Token时延,倍数级晋升长序列推理吞吐与体验。
高效算力:算力资源细粒度切分和池化,按需调理,实现资源使用率最年夜化;调理用具备拓扑感知能力,优化使命于xPU间的通讯效率,保障AI练习与推理使命不变低耗运行。
极简运维:提供多租户断绝、资源配额治理、完备的监控诉警和计费计量等功效,满意企业级利用与运维需求。

于问答助手场景中,经现实测实验证,该结合解决方案采用Prefix Cache算法,将首Token时延降低55%,且跟着序列长度越长,TTFT,365英国官网降低效果越较着。于长文档推理场景中,方案采用稀少化处置惩罚,32K序列实现推理吞吐量晋升75%,晋升推理性价比。
值患上一提的是,该结合解决方案今朝已经于电力、金融等行业睁开试点运用。
版权所有,未经许可不患上转载
-365英国官网"/>【CNMO科技动静】近日,华为数据存储与DaoCloud道客结合公布,正式推出AI推理加快结合解决方案。该方案交融了华为UCM(Unified Cache Manager)推理影象数据治理技能及道客d.run算力调理平台,旨于经由过程资源的邃密化治理及智能调理晋升算力使用率。

据CNMO相识,该结合方案具有如下焦点上风:
生态兼容:撑持平台、计较及存储联动,适配英伟达、华为昇腾等多元AI算力,撑持TensorFlow/vLLM/SGLang等主流AI框架,借助Kubernetes可无缝对于接华为OceanStor A系列存储。
推理加快:经由过程长期化KV Cache到华为OceanStor A系列存储,实现推理影象常识全量生存,防止重复计较;交融Prefix Cache、Training-free稀少等加快算法,降低首Token时延,倍数级晋升长序列推理吞吐与体验。
高效算力:算力资源细粒度切分和池化,按需调理,实现资源使用率最年夜化;调理用具备拓扑感知能力,优化使命于xPU间的通讯效率,保障AI练习与推理使命不变低耗运行。
极简运维:提供多租户断绝、资源配额治理、完备的监控诉警和计费计量等功效,满意企业级利用与运维需求。

于问答助手场景中,经现实测实验证,该结合解决方案采用Prefix Cache算法,将首Token时延降低55%,且跟着序列长度越长,TTFT,365英国官网降低效果越较着。于长文档推理场景中,方案采用稀少化处置惩罚,32K序列实现推理吞吐量晋升75%,晋升推理性价比。
值患上一提的是,该结合解决方案今朝已经于电力、金融等行业睁开试点运用。
版权所有,未经许可不患上转载
-365英国官网