博士生孟凡安关于集群资源管理的论文被《IEEE Transactions on Services Computing》发表

发布时间:2025年11月07日 点击量:

近日,2024级博士生孟凡安为第一作者、戴鸿君教授为通讯作者的论文《CATScaler: A Convolution-Augmented Transformer Scaling Framework for Cloud-Native Applications》被国际服务计算领域权威期刊《IEEE Transactions on Services Computing》正式接收,拟发表于2025年第18卷第5期,页码范围2659-2672。《IEEE Transactions on Services Computing》是服务计算领域的顶级期刊,被中国计算机学会(CCF)推荐为A类国际期刊,具有广泛的学术影响力。

 

论文聚焦于云原生环境中容器资源动态伸缩的关键挑战。与传统的基于静态阈值的反应式伸缩机制相比,CATScaler提出了一种基于预测的主动伸缩框架,有效解决了Kubernetes默认伸缩器在应对突发负载时存在的延迟与资源浪费问题。该框架由负载预测与弹性伸缩两大核心模块构成。在预测模块中,CATScaler引入卷积增强的Transformer结构,结合可逆实例归一化(RevIN)技术,显著提升了负载序列在局部与全局特征上的建模能力,并缓解了训练数据与真实负载之间的分布偏移问题。在伸缩决策模块中,采用LightGBM回归模型,准确估计未来所需的Pod实例数量,实现了基于预测的主动资源调度。

实验部分基于东山集群、阿里云与华为云的真实负载数据集展开,结果表明,CATScaler在预测精度、响应延迟和服务等级协议(SLA)违规率方面均显著优于现有方法。在Kubernetes集群中,CATScaler将响应时间降低了1.1倍,SLA违规率下降了3.2倍,展现出优异的资源调度效率与服务保障能力。

该研究首次在云原生场景中系统性地将卷积增强Transformer与可逆归一化技术结合,构建了具备高精度预测与高效决策能力的主动伸缩系统,为未来智能化的云资源管理提供了重要技术支撑。下一步,团队计划进一步拓展模型在东山集群联合调度与异构负载场景下的适应性,推动云原生系统向RISC-V集群方向发展。