【技术分析】数据中心测试验证的前世今生(上篇)
数据中心从规划设计到建造投产,是一个专业度很高而且漫长的过程,其中包括大量设备和部件的选型安装,以及配电、暖通、监控、消防等多个子系统之间的紧密配合,才能实现数据中心正常运转。
测试验证作为一个系统性检验数据中心的重要环节,早期在国内并不被重视,原因是多方面的。
国内传统建设项目实施理念是“以始为终”,从设计角度出发,根据设计图纸建设施工,在过程中结合现场情况深化实施方案,遇到问题进行变更,以验收为结论,最终往往会与整体初衷出现偏差;
现代数据中心建造推崇“以终为始”的观点作为方法论,以人为出发点的构思,性能式的思考逻辑,考虑人为导向的风险管理数据中心,基于建造使用性能的评估系统进行测试验证,从而确保生命财产安全,也是企业在考虑员工生命安全为前提之下的可用性、可靠性、高品质服务的数据中心基础建设评估系统。
两种不同观念的差别,产生了对测试验证不同的重视程度,也是测试验证在国内数据中心全生命周期中没有作为必要选项的原因之一。
测试验证是一项造价不菲的服务工程,不仅需要投入专业的人员,各种精密的仪器设备,还要消耗大量的自然能源。根据数据中心规模的不同,进行一项完整的测试验证,往往需要花费数十万甚至数百万元,对于捉襟见肘的项目预算,是不可承受之痛。
测试验证时间节点位于建设末期,建设工期如果发生延迟,投产迫在眉睫,留给用户的时间已经不多了。是继续完善收尾工作?还是做一次彻底的验证,把更多的隐患消除在开始阶段?对于每一个决策者都是一个不太容易的选择题。
以上各种原因,让数据中心建设者很难下决心把测试验证这件事进行到底,放弃了全面模拟检验数据中心运行状况的宝贵机会。
出来混,迟早要还的。当一个没有进行过完整测试的数据中心走上了运营之路,等待它的必然是悲剧人生,而且是无限续悲的那种。
1. 在业务运营初期,由于设备处于磨合期状态,运维人员对设备操作还没有达到厂商工程师的熟练程度,面对一些调试中没有出现过的状况束手无策,能做的就是挂起等待。好在这个阶段的业务量不是很多,还有充足的冗余设备可以调用,暂缓一下,可以渡过难关。
2. 随着业务量的不断上升,业务重要性也在不断递进,数据中心的关键设备承担的负载也越来越多,轻载工况中没有出现的问题开始显现:虚接发热、开关偷跳、热岛效应、错误报警……运维人员在这个时期如履薄冰。
3. 随着时间的推移,虽然一个初步稳定运行的数据中心终于步入正轨,但凡有风吹草动,仍然如临大敌,更不用说停电这类大事件了。在市电终止的情况下,从电气系统、暖通系统到监控系统需要一系列的切换和响应措施,来保证数据中心IT负载的运行不被中断。但是,由于各系统间没有进行过联合调试,从软件逻辑到机械动作很难做到万无一失,数据中心终于花光了所有运气,最后的结果就是运行业务被迫停止。
人生就是一个大舞台,每一天都是现场直播,没有彩排,没有导演,没有重来。如果再给数据中心一次机会,我相信它还是希望从局部到整体做一次全面的彩排——测试验证。
近年,在信息技术和大数据等趋势的推动下,信息数据需求不断增长,企业对于数据中心的认识、构建和规划也正在发生转变。数据中心作为互联网和云计算服务的重要基础设施,面临日益严苛的运行条件要求,对运维管理也提出新的课题。
测试验证作为数据中心建设与运维的桥梁,
-
通过检验数据中心的可用性,降低初始故障率,提高系统效率;通过模拟负载运行,记录各种工况数据,为运维策略提供有效依据; -
运维团队参与多种演练场景,提高实战能力,减少人为操作故障; -
通过完整的检验,获得系统性优化的可操作运维方案,来保证数据中心平稳交付,最终实现数据中心稳定持续的运营。