美国橡树岭国家实验室 (ORNL) 即将推出的E级超级计算机Frontier在其测试阶段每天都会出现硬件故障。
Frontier 于 2019 年首次发布,预计将提供 1.5 exaflops 的性能。该系统是世界上最快的超级计算机,也是第一个突破百亿亿次大关的超级计算机。Frontier由 74 个机柜组成,有 9,408 个 HPE Cray EX 节点,总共有 37,632 个 GPU、8,730,112 个内核。这台超级计算机占地 372 平方米(4,004 平方英尺),峰值功耗为 40MW。
InsideHPC报告说,系统当前的问题似乎集中在 Frontier 在执行高要求工作负载时的稳定性上,其中一些问题集中在 AMD 的 Instinct GPU 加速器上。橡树岭领导力计算设施 (OLCF) 的项目主管Justin Whitt表示,这些问题是以前在实验室测试和调整超级计算机时遇到的典型问题。
|