
30日,南边+记者从高效用 AI Token 坐蓐职业商趋境科技获悉开云体育,该公司细腻发布全新一代 AI 推理平台——趋境 ATaaS 高效用 AI Token 坐蓐职业平台,破解大额硬件参预难以回荡为优质 Token 产能、资源花消与本钱空耗隆起的行业窘境。
硬件高参预并不等同于高效Token产出,如行业面对硬件负载分化,过度依赖GPU,CPU、内存等资源闲置空耗;软硬件迭代失衡,芯片硬件快速更新,配套软件生态适配滞后;算力建立失准,脱离业务SLO精粹化调整,轻佻盲配激勉资源冗余损耗;架构演进失衡,开源模块丰富,但拼接式集成难以复古界限化坐蓐等。
趋境 ATaaS平台依托四大自研中枢时间模块,构建遮掩异构整合、智能调整、弹性扩容的全链路才略,并将算力与动力封装为分层、面向具体应用场景定制的高效用Token职业,为国产算力提质增效、破解异构算力孤岛、闭幕界限化降本增效。
趋境科技重构算力、电力与 Token 产量之间的效用弧线。如,深度会通 CPU+GPU、国产与非国产算力异构PD区别等时间,重构模子计算逻辑,并基于算子与任务特征进行智能分流:CPU承载低计算密度任务,国产算力卡搞定高密度Prefill,大显存显卡承载高访存 Decode。万卡级智算集群举座运营本钱压降20%以上。
通过架构重构,将正本依赖不菲显存承载的KV Cache存储空间推广百倍至千倍,酿成近乎无穷的缓存池资源,缓存射中率最高可达90%,径直削减90% GPU算力支出。
基于算子级精粹仿真,推演大模子Token生周密链路的笼统、时延与访存进展,闭幕算力资源的智能预标的与动态调优;围绕业务SLO分级需求,精着实分异构算力配额并约束资源优先级,可将万卡级智算集群硬件详细股源应用率最高耕作数倍。
依托系统化工程才略,闭幕万亿参数大模子7秒快速拉起与动态建立变更、数百节点超大界限EP弹性调整,以及智能容灾重构和负载平衡,酿成平台原生支抓万卡级高性能横向推广的要害才略。在落地初期,便鼓励某在线公司的AI业求闭幕千卡集群笼统闭幕翻倍耕作。
南边+记者 郜小平
【作家】 郜小平
【泉源】 南边报业传媒集团南边+客户端开云体育
