高性能计算机中互连网络的可靠性研究
2015年7月09日 17:30 作者:刘晓婷 贾志淳 渤海大学信息科学与技术学刘晓婷 贾志淳 渤海大学信息科学与技术学院 辽宁锦州 121000
【文章摘要】
高性能计算机属于一种计算机系统,能够比较好的处理大型应用和大数据。高性能计算机在为用户提供服务时,系统的可靠性是提供服务质量的主要保证。尤其是近年来高性能计算机得到了快速的发展,系统内的组件变得越来越多,这样一来,用于组件连接的互联网络规模就会相应增加,由此使得故障结点发生的可能性大增,进而导致互联网络的可靠性出现问题,最终影响整个计算机系统的可靠性,因此,互联网络的可靠性非常重要,本文对高性能计算机中互联网络的可靠性进行了必要的研究,以便于保证互联网络具有较高的可靠性。
【关键词】
高性能计算机;互联网络;可靠性
0 前言
随着计算机技术以及科学技术的发展,高性能计算机技术得到了广泛的应用,在技术应用加深的过程中,对高性能计算机的系统可靠性提出了更高的要求。所谓系统可靠性,是指能够保证系统正常运行,从而提供更为优质服务的技术。但是在高性能计算机发展的过程中,为了使系统具有很多的功能,增加了很多的组件,这样一来,其所具有的互联网络规模急剧增加,而互联网络的稳定性对系统的稳定性有着很大的影响,因此,对互联网络的可靠性研究具有十分重要的现实意义。
1 当前高性能计算机所采用的可靠性技术
1.1 避错技术
所谓避错技术,是指在进行设计时,通过正确的设计以及科学的质量控制方法,将可能出现在系统的故障避免掉,同时将器件发生失效的概率降至最低,在避错技术中,包含了比较多的内容,比如热设计、降额设计等。在进行高性能计算机可靠性设计时,所选择的组件均要具有较高的可靠性,同时,所选择的组件要具有较高的集成度,以便于减少组件的数目,减小互联网络的规模,增强可靠性。另外, 在高性能计算机发展的过程中,功耗会变得越来越大,由此,避错技术的热设计就变得越来越重要,通过科学的热设计,可以将组件的结温降低,从而提高组件的可靠性,最终提高系统的可靠性。
1.2 静态冗余
静态冗余技术也被称为故障屏蔽技术,在该项技术中,承认系统是会存在的故障的,在基础上,通过科学的措施将故障可能会带来的影响消除,一般来说,可采取的措施有硬件冗余、信息冗余,目前,静态冗余技术广泛的应用于高性能计算机的可靠性设计中。在高性能计算机中, 出现频率最高的故障就是电源故障,因此在利用静态冗余技术进行设计时,需要各层次全方位的电源冗余设计,从而有效地保证电源的可靠工作。
1.3 动态冗余
在动态冗余技术中,一旦计算机系统出现故障,就会采用标准模块配置对故障进行检测,进而准确的诊断出故障发生的位置,之后通过重组或恢复的措施使系统再次正常运行。动态冗余技术由三个环节组成,一是故障检测与诊断,在该环节中,故障所发生的位置将会被准确的诊断出来,无论联机与否,故障检测与诊断都可以正常工作,不过在联机的状态下,才能有效的提高系统的可靠性;二是重组技术,这是一个非常重要的环节,主要的作用是防止失效的产生影响系统的操作,如果系统发生的故障是无法进行恢复的, 那么系统就会启动重组技术,利用备用的组件来保持系统的继续运行,但是如果没有备用的组件,重组技术就可以将产生故障的组件隔离掉,从而保证系统的正常运行;三是恢复技术,重组技术针对的是不可恢复的故障,而当检测出来是瞬态故障时,就会采用恢复技术贵故障进行恢复,同时,将故障的影响消除掉,从而使系统继续运行,在恢复技术中,最为重要的方法就是重试。
1.4 在线替换
当高性能计算机系统的组件发生故障时,可以通过在线替换技术将故障组件替换掉,以此来保证系统的继续运行,在线替换技术在进行工作时,要与冗余技术互相配合,这样一来,系统的可靠性就会得到较大的提高。高性能计算机系统中所包含的组件比较多,并不是所有的组件都可以应用在线替换技术,也不是所有的组件利用此种方式都能获得较为理想的效果,一般来说,可以进行在线替换的组件有替换单元板、磁盘、风扇、电源等。
2 互联网络可靠性的度量指标
2.1 容错性
对于计算机系统来说,故障是客观存在的。计算机系统具有规定的功能,当实际的功能表现与规定不一致时,就说明系统存在了故障。当系统中节点或者链路发生故障时,如果计算机依然可以正常工作,那么这就是系统的容错性在发挥作用。因而,从某种意义上来说,容错性可以等同于可靠性,可以有效地减少故障到来的影响,保证系统的正常运行。容错性的概念于1971 年被正式提出,随后高性能计算机出现之后,容错性技术得到了广泛的关注,并进行了推广及应用,容错性技术的应用,对于高性能计算机的可靠性有着十分重要的意义。在计算机系统中,容错性包括硬件容错和软件容错,硬件容错是指当系统发生故障时,通过容错功能部件的作用,系统可以恢复到正常运行的状态,而且故障之前所运行的计算方法或程序也可恢复正常;软件容错是指在容许的程度之内,软件的出错不会影响到系统的运行。在容错性中,比较重要的两个衡量标准分别为图的嵌入能力和图的连通性,首先是图的嵌入能力,对于计算机系统来说,如果具备容错能力,就必须要解决互联网络系统正确执行何种算法以及会发生何种类型的故障的问题;其次是图的连通性,所谓连通性,是指在未发生故障的节点之间,存在完整的通信链路,从而有效地保证互联网络的正常运行。
2.2 故障诊断
随着市场的发展,要求计算的成本要变得更低,同时计算投资人的利益还要得到保护。现今,科学计算的应用领域变得越来越广,而且应用的程度越深,对性能的要求就越高,而且在很长的一段时间内,这种状况都会保持着增长的趋势。基于这项要求,高性能计算机在提高自身性能时,最为关键的问题就是结点的互联网络。当前,在高性能计算机中的互联网络中,为了实现结点之间的互联,采取了比较典型的互联系统,然而在这些系统中,结点之间的通信边都存在着发生故障的概率,这些故障一旦发生,就会带来严重的损失。因此,对于高性能计算机系统的稳定性来说,互联网络的可靠性最为重要。一般来说,高性能计算机系统可靠性所采取的技术为容错性技术,在容错性技术中,动态冗余是经常被依赖的一种方式,动态冗余技术中,包括故障检测和诊断环节,在对故障进行检测和诊断时,首先需要进行测试,之后再进行诊断。测试的主要目的的确定系统中是否存在故障,因此,也被成为故障检测;而诊断除了要确定是否存在故障之外,还需要确定故障发生的位置,因此,诊断工作的难度非常大。在度量系统的可靠性时,故障诊断能力也是一项比较重要的指标。在故障诊断中,最为有效的方法就是系统级诊断,从范围上来看,系统级诊断包括四类:门级、芯片级、子系统以及系统级。
3 高性能计算机中互联网络的可靠性研究
3.1 互联网络的容错性
(1)OTIS 网络的容错性研究
OTIS 是指光电转换网络,在这种类型的互联网络中,处理器由n 个簇造成, 而每个簇又包含至少一个芯片,在同一个簇中,通过电来实现处理器的互联,而在不同的簇之间,实现互联所依赖的是光信号。在并行系统和分布式的系统中,所拥有的比较重要的特性就是容错性,在互联网络中,处理器或承载处理器的芯片以及处理器之间的通信比较容易发生故障,通过抽象理解,这两大故障可以看作是结点和边故障。对于OTIS 网络的结构设计来说,需要格外注意的因素为网络的可靠性,为了提高互联网络的可靠性,就需要进行网络限制连通设计。由此一来,该类型的互联网络将会具有较好的容错性。
(2)光互联网络hypermesh 的容错性研究
随着高性能计算机的发展,通信要求151
网络通信
Network Communication
电子制作
得到不断地提升,这样一来,传统的电互联方式已经无法满足要求,需要研究出新的互联方式,由此,光互联网络应运而生。大部分的光互联网络在进行设计时,以分布式光交换开光为基础,但是这种设计方式的缺陷是图论定义不精确,因此, 为了改善这个问题,就研究出了光互联网hypermesh,在这种类型的互联网络中,图论结构以超图规则为基础。高性能计算机中的光网络技术得到了快速的发展,为了保证网络的可靠性,就需要提高系统的容错性能。
3.2 互联网络的故障诊断
(1)诊断模型
互联网络故障诊断模型主要有两种类型:第一种类型为PMC 模型,在这一网络故障诊断模型当中,将网络系统进行了划分,将其分为若干结点机,这些结点机之间可以进行互相测试。在测试时,模型会根据测试者给出的测试程序来进行,测试完成之后通过比较测试结果,能够最终得出被测试者处于正常状态还是故障状态。第二种类型为比较模型,在利用比较模型对互联网系统进行故障诊断时,需要借助一些相关的故障诊断算法,最终来实现对互联网系统故障的诊断。
(2)OMMH 的故障诊断
OMMH 为光互联网络光多网格超立方体,是超立方体和网格网络的完美结合,这一故障诊断模型在建立时兼取了网格网络和超立方体的所有优点,避免了其所具有的缺点。因此,在利用OMMH 网络对互联网系统进行故障诊断时,具有高效及快速的特点,而且故障诊断的准确性非常高,极大的提高了互联网故障诊断的整体效率。
(3)折叠立方体互联网络的悲观故障诊断
故障诊断也需要容错技术的支持,以便于有效的保证最终的故障诊断结果的有效性,在折叠立方体互联网络中,利用悲观故障诊断策略,可以有效节省故障诊断的时间,提升故障诊断准确性以及有效性。
4 结论
随着计算机技术及科学技术的发展,高性能计算机的功能得到了有效的提升, 由此一来,高性能计算机所具有的组件就会增加许多,使得互联网络的规模变得越来越大,这样一来,互联网络的可靠性就受到了很大的影响,因为,为了提高互联网络的可靠性,就需要对容错性及故障诊断进行研究,通过这两项技术的提高,使得互联网络的可靠性增强,从而提升高性能计算机的可靠性,保证系统为用户提供更为优质的服务。
【参考文献】
[1] 王凯,陈飞,李强等. 一种面向高性能计算机的超节点控制器的研究[J]. 计算机研究与发展,2011, (01):1-8.
[2] 肖利民,祝明发. 浅谈超级计算中心的高性能计算机系统面临的挑战及应对[J]. 科研信息化技术与应用,2010,(01):27-34.
[3] 李晖,吴俊敏,陈国良. 一种新的高性能计算机互连网络及其并行仿真[J]. 小型微型计算机系统, 2010,(09):1697-1701.
[4] 蔡晔,刘刚,毛睿等.KD-90 普及型个人高性能计算机系统设计与性能优化[J]. 深圳大学学报(理工版),2013,(02):138-143.
【作者简介】
刘晓婷,出生日期:19941026,性别: 女,籍贯:安徽省阜阳市,学历:大学本科,专业:软件开发。
贾志淳,出生日期:1982.10.29,性别:女,籍贯:天津,学历:博士,专业:计算机应用技术,职称:副教授。