从2007年5月初开始,主线UNIX系统频频出现问题,具体表现为中控室的三台监控显示器逐渐反应缓慢,直至完全无反应,死机,最后变为黑屏,无法显示.重启系统,复位,均不能正常运行,必须将硬盘重新装系统才能恢复正常。但是,恢复正常后,过一段时间(时间长短不确定,对于现存的两个硬盘情况也不尽相同,有个(以前一直在用的)时间稍为长一点)故障就会继续发生。周期一般为一个星期左右。
发生这种问题后,曾经和有关人员讨论过,开始怀疑是硬盘的问题,因为硬盘使用的时间已经很长了,而且他们以前也曾怀疑过硬盘存在问题。试过借用五车间的硬盘拿过来试用,但是不能够安装系统。后来,李宗健买回来四个新硬盘,拿到车间试用。全部试过,有三个装了系统(即BOS磁带)以后,不能继续安装其它的磁带(ROOT,USER1,USER2和APROL磁带),其中有一个甚至不能进行格式化。硬盘的疑问暂时不能解决,于是开始寻求其它方面的尝试。硬件方面,准备试用新的数据线,但是由于备用的那条数据线较短,没有实行。
硬件方面暂时无法入手后,于是尝试在软件方面入手。由于是经常是到一定时间就出现死机,怀疑是原先的安装程序有问题,或者是在安装的过程中忽略了某个步骤。请五线的电气管理员张添喜过来帮忙安装(在试用新硬盘时也曾经请他过来帮忙安装过,但也不成功)。他安装的步骤和资料上的一样,所以结果也和我们安装的一样,没有成功。我们于是对我们自己的安装磁带的质量产生了怀疑,设想用五线的系统磁带安装公司到我们的系统上。由于所用的UNIX的系统是一样的,但安装的软件不一样,所以只拿了他们的那个系统磁带过来安装。不幸的是,结果还是跟我们以前的一样,用的时间一般都不超过一个星期。
重新怀疑是硬件的问题,打算拿我们的硬盘到五线去试,利用他们的硬件条件,用我们自己的磁带安装。在实施这个计划之前,我们再对电脑的硬件系统做一次全面的检查。最后,我们发现,电源的两个小风扇不转了。我们暂时得出一个结论,就是冷却的不足导致温度的升高,使硬盘工作于过高的环境温度,导致某些电子元件失常,丢失数据,最后死机。于是,我们将有两个小风扇备件电源装上去,并且重新装过系统试用。经过一个多星期的时间都没有再出现过系统问题。这样一来,就可以肯定是电源的原因了。一直到现在,过了一个多月都没有出现过问题,除了系统的时间自动改变(这个问题从“千年虫”问题以来一直都出现过)。这个问题可能要寻求解决,和车间商量过,有机会的话将时间调到滞后8个小时(系统改变时间一般都是超前8小时)。
后来,将拆下来的电源作检查,发现当电源不带负载时输出12V能够满压输出,但当接上风扇时,12V的输出电压马上降低几伏。而硬盘的额定工作电压为12V,由此可以估计出硬盘经常死机的主要原因:就是电压的不足导致硬盘工作不稳定,最后出现丢失数据,甚至死机。至此,电脑主线系统频繁出问题得到了暂时解决。
为了防止此类故障再次发生,可以采取以下的方法措施:
1,检查电源的电压输出是否达到额定值。周期大约为每3个月一次,最好是在停机状态下进行。
2,控制电柜内的温度,特别要注意背包空调的开启情况,保证系统在合适的温度下运行。