数据中心场地基础设施运维管理标准(2015首次发布)

数据中心场地基础设施运维管理标准(2015首次发布)
积分0.00
特惠
积分0
VIP全站资料免积分下载
立即下载
同类资料根据编号标题搜索
文档
仅供个人学习
反馈
标准编号:
文件类型:.pdf
资源大小:2.1M
标准类别:电力标准
资源ID:225779
VIP资源

标准规范下载简介:

内容预览由机器从pdf转换为word,准确率92%以上,供参考

数据中心场地基础设施运维管理标准(2015首次发布)

数据中心场地基础设施投产前的测试验证是确保数据中心场地基础设施满足 设计要求和运行要求的关键环节

3.3.1 时间和预算

数据中心的业主应设立测试验证专项预算DB36T 1213-2019 商务楼宇服务规范,预算应包括外部测试验证 服务提供商的相关费用,以及在测试验证阶段产生的电费、水费、油 费等相关费用。 应制定测试验证的工期规划,以更准确地预测数据中心场地基础设施 交付投产的日期。

B.3.2测试验证参与方

项目建设管理部可作为测试验证工作的主体责任单位;运维管理部 门可作为测试验证工作的主体审核单位;第三方测试服务商可作为测 试验证的实施单位及整体组织工作的协调单位。但运维管理部门应要 求测试服务商预先提供测试方案,在运维管理部门审核后方可进行。 数据中心场地基础设施运维团队可参与测试验证工作,在此过程中熟 悉设施和设备,可建立相关运维技术文档库,为后期的运维工作做好 准备。 数据中心关键设备提供商及工程总包商,应积极配合测试验证工作 立在供应商合同中对此项有明确要求。

3.3.3测试验证内容

验证应覆盖所有关键子系统和设备应具备的功能和关键的操作程序, 确保满足设计要求,必要时可做故障情景模拟来检验。 测试验证中发现设计或者建设阶段的问题,应该在报告中充分体现; 可以改造的部分,应要求建设单位进行改造;不能改造或暂时不需改 造部分,应作为风险点在运维过程中予以特别的重视,并制定相关预案

3.3.4设施健康评估

当接手已在运行的数据中心场地基础设施的运维工作前,运维团队应 对设施的情况进行健康评估,了解潜在风险点,其中能够改造的部分, 应该申请予以优化改造。不能改造的部分,应该作为风险点在运维中 予以特别的重视,并制定相关预案。

完整并准确的技术文档是后期运行、维护、维修、故障诊断、优化改造的基 础。运维团队在开展运维工作前,应从业主或者原运维单位得到场地基础设 施的全套相关文档,包括但不限于:数据中心的规划设计资料及竣工图纸、 反映机房最近一次改造后真实现状的图纸、全套设备的清单及相关操作文档 和保修保养资料、机房自动操作系统的逻辑图及说明文档、监控系统的点表、 验收测试文档、数据中心所在建筑的建筑设计资料、竣工图纸 整体文档应在限定时限内进入运维管理知识库,并按照质量管理的原理和要求 设定文档的起草、变更、审核、批准、保存、分发等职责权限

为了明确管理责任,数据中心场地基础设施运维团队应将可能影响数据中心 场地基础设施运维目标达成的外界因素整合成管理边界报告,提交业主管理 层并组织研讨,形成明确的决策,制定完整的协调沟通机制及权责界限。这 些因素包括但不限于:不归本部门负责,但可能对于本部门有重大影响的供电, 供水、供暖、制冷、消防、安防、监控、运营商线路接入等系统

四、 安全管理和质量管理

数据中心场地基础设施运维团队要编制正式的数据中心生产环境(工作场所) 的安全方针,设定严格的安全生产规范;并根据安全方针制定有效的、明确 的安全计划,来教授和培训安全原则、危险识别、纠正缺陷和控制风险。并 加强对于该部分规范的合规度的培训、考试和审核检查,以确保数据中心运 维人员的人身安全。 相关安全生产规范主要包括: ? 数据中心生产环境安全管理规范; · 数据中心场地基础设施各系统安全管理手册; ·数据中心场地基础设施涉及安全的应急预案; ·数据中心场地基础设施管理过程涉及的技未方案中的安全管理策略。 数据中心场地基础设施中与电气相关的工作存在着固有危险。设施运维团队 应当创建一份正式电气安全计划,以最小化所有工作人员受到电气伤害的风 险,确保现场电气系统达到相关法规标准。电气安全计划中的条款应规定电 气工作人员在有资质和具备合理安全工作流程的前提下才能进行操作,并应 利用防护设备和其他控制手段,如上锁挂牌设备。此计划的创建在防正员 工受到电击、烧伤、电弧和其他潜在电气安全隐患,同时要求其遵守法规标准。 相关国家、行业规程包括但不限于: GB26860电力安全工作规程发电厂和变电站电气部分; DL408电业安全工作规程

在数据中心场地基础设施运维过程中建立完善的质量管理体系,是保障以上 数据中心场地基础设施运维趋于卓越的重要因素和手段。数据中心场地基础 设施运维团队的所有关键工作应包括以下的质量管理要素:

组织及人员 5.1.1组织架构 数据中心运维团队应有清晰的组织架构,同时对各岗位有明确的岗位 职责说明并在计算机化维护管理系统(CMMS)中实现权责匹配,同步 更新。 中大型数据中心场地基础设施运维团队中除现场负责人外,可按照工 作内容分设以下几个主要职能岗位: ·运维巡检团队 主要职责:对基础设备设施进行巡检,担任值班工作,第一时间发现 故障或问题,并作为管理程序的执行者。 ·技术管理团队 主要职责:对数据中心场地基础设施提供运维技术支持,解决技术问题 承担数据中心场地基础设施一般性的优化改造工程的项目管理工作 宜包括电气、空调、弱电等系统的技术人员。 ·物理环境安全管理团队

主要职责:对物理环境安全进行管理,进行安全巡检等工作。

场地基础设施运维人员的配备应根据运维管理目标或SLA来确定。中 高等级的数据中心,可按照724的运行要求配置运维人员。上岗人员 应具备国家要求的相应资格证书。应在运维管理程序中明确规定资质 等级与操作权限的一致性。 高等级以及具有一定规模的数据中心,每个班组应配备具有电力、暖 通、弱电专业能力的运维人员,以达到即时应急响应”的工作状态。 等级相对低的机房,每个班需要至少配备一人,达到”即时报警”的 工作状态。 运维团队的关键岗位应有人员备份和储备。 数据中心场地基础设施运维管理团队的关键管理人员或关键岗位人员 在正常运维工作开展中应采用A、B角色配置,日常工作中应注意角色 的分配和工作的配合。其它岗位人员宜建立良好的循环机制,人员可 进行岗位轮换和交叉培训,使所有人员掌握全面的基础知识

5.1.4人员管理制度

为了提高运维人员的技术技能、职业素养和提倡团队合作精神,专业地、 高效率地运行和维护场地基础设施,有必要建立人员的关键绩效指标, 定期对所有人员的短期和长期绩效进行评估,奖优罚劣,推动整个运 维团队技术和素质的发展和改进。

为了保障场地基础设施运维团队的创新性、稳定性、持续性,应通过 建立合理的人员管理制度,约束人员的工作态度、行为规范,提高人 员的工作热情、工作效率和执行力,激发人员正面影响,使团队一直 保有活力来共同努力达成服务等级协议的要求,运维团队应该建立运 维人员的各项管理制度。这些管理制度应该主要包含(但不限于): · 《日常活动管理制度》; :《人员安全操作制度》; · 《运维人员基本素质养成管理制度》; · 《安全运行奖惩制度》; · 《节能运行奖惩制度》; ·《技术创新奖励制度》; ·《人员普升制度》; ·《人才储备制度》; .2培训及认证 5.2.1员工培训及资格认证计划 对于场地基础设施运维团队新员工应进行完整及产格的培训,以确保 其尽快具备岗位需要之知识及能力。培训内容应包括数据中心基础设 施的所有系统的工作原理、操作流程、应急预案、以及管理制度等; 对于所有运维人员宜设定以知识更新、技能提高为目标的年度培训及 认证计划。宜要求运维人员不断提升理论知识,以便于在缺乏操作程 序的应急状态下进行止确的处置。 可借助行业第三方专业培训及职业技能鉴定平台,积极开展运维人员 任职资格的评定工作。

运维团队管理者应积极参与行业交流,了解行业最佳的运维管理实践, 并从行业故障案例中总结经验,做好自身整改。

5.3.1基础设施运维外包服务商的选择

数据中心场地基础设施属于关键性设施,选择外包运维团队时应考察 其数据中心基础设施的运维服务的资质、能力和经验。如数据中心作 为商业物业的一部分整体外包运维,应要求外包运维机构针对数据中 心基础设施设施部分设立专门的有数据中心基础设施运维经验的团队 并严格按数据中心基础设施的运维规程规范执行

5.3.2运维外包服务商的管理

对于外包服务商的员工的管理原则应该参照运维团队内部员工同等要 求,相关人员只有在进行培训并得到相关的认证后才能从事相关的工 作。 外包服务商需要严格遵循数据中心基础设施既定的操作流程和安全守 则。 数据中心基础设施运维管理的最终责任承担者是数据中心管理者,责 任无法外包。因此,数据中心应保留运维核心管理人员,对于外包团 队的工作进行审核、监督和绩效评估管理

对于外包服务商的员工的管理原则应该参照运维团队内部员工同等要 求,相关人员只有在进行培训并得到相关的认证后才能从事相关的工 作。 外包服务商需要严格遵循数据中心基础设施既定的操作流程和安全守 则。 数据中心基础设施运维管理的最终责任承担者是数据中心管理者,责 任无法外包。因此,数据中心应保留运维核心管理人员,对于外包团 队的工作进行审核、监督和绩效评估管理。

6.2.1预防性维护计划

预防性维护是为了延长设备的使用寿命和减少设备故障的概率而进行 的有计划的维护。其目的是通过定期检查和保养,使设备的某些缺陷 或隐患在变得更严重之前被发现。 运维团队应根据系统设备情况与供应商进行沟通,按照供应商的建议 提前制定年度、季度、月度预防性维护计划。各专业运维人员需按照 各设备系统特性、维护流程及规范,及时、完整地落实维护工作,并 形成客观实际的记录和报告予以存档。运维团队还应定期对设备的运 行状态数据进行统计和趋势量化分析,对于异常的趋势,做出报警及 相关预案,

预防性维护包括并不限于以下系统设备或内容: 冷水机组、精密空调; UPS,开关、和发电机组; 消防系统和监控系统检验; 蓄电池放电测试; 配电装置(高低压配电装置)的绝缘性定期试 二次保护定值实验; 柴油发电机启动测试; 每年雨季之前进行的数据中心防雷接地装置测

运维团队应建立预防性维护及保养的工单管理系统,工单应列出工作 内容、完成相应工作需要的工具及备件、工作预计完成的时间、工作 负责人等信息。

计算机化维护管理系统应该对每份工单从产生到完成进行全程的跟踪。

数据中心基础设施的所有操作,均应事先制定详细的操作流程,经过审核后 存档并在后期运行阶段严格执行。

6.3.1维护作业程序MOP

对数据中心关键基础设施设备的每次维护、维修、安装操作,都应事 先制定一份MOP。可要求设备供应商提供MOP的建议,但对于MOP 最终确认审核的责任在于运维团队,批准责任在于运维管理团队

6.3.2标准操作流程SOP

所有关键基础设施设备在各种情况下都能执行的常用操作都应制定标 准操作流程SOP。例如手动启动发电机组的操作流程,或将UPS转换 到旁路的操作流程等。

6.3.3应急操作流程EOP

应急操作流程适用于有可能发生的严重故障情况。以下为部分严重 障的例子: ·一路市电供电时中断; :双路市电供电时同时中断; ·发电机组启动失败; :发电机在带关键负载时故障停机; ·单个冷却塔时故障停机; 全部冷却塔都故障停机; 单台UPS时故障停机

运维团队应根据资产分类清单及其分类制定最低备件库存清单并及时补充备 件。 测试分析仪器仪表方面可配备进行电气性能参数测试、电池测试、接地电阻 测试、绝缘性能测试、设备运行温度测试、风速测试、环境温度测试、噪首 测试等的仪器仪表。仪器仪表应该定期校准。 应制定相关规定对操作工具、仪器仪表实行人员负责制或者交接班负责制等 管理制度。备件和工具应定期进行盘点。

应基于设施设备的合理生命周期,结合风险评估,制定设备维护、升级或更 换的计划及预算,及时报告给运维管理部门。 风险评估主要评估内容包括: ·资产重要性识别; ·资产威胁识别; ·资产脆弱性识别; :风险值的计算。 :在评估更换设备的方案时,可综合考虑原有设备的维护费用以及新设备在 能效方面的改进,做好综合投资回报分析。

对于余设备宜设立轮换运行机制,以延长整体设备的生命周期

数据中心可建立自动化维护管理系统(MMS),集中实现资产管理、维护调度、 信息安全、文档管理、工单管理的职能并记录所有的运维工作任务及完成情况。

7.1.5经营相关管理制度 ·员工行为规范; ·考勤管理制度; :人员管理考核制度。 7.2设施监控、巡检、及交接班管理 应配备环境、动力、安防等监控系统以便于运维人员及时了解设施各系统及 设备的运行状态和及时发现异常情况。 应规定相应的运行人员对设施运行状态的巡视频次、巡视工作内容及规范 运行人员交接班时应对当班执行的操作、变更及观察到的任何异常数据或现 象进行交接和签收

应划定保洁区域,定期做好机房保洁工作,保证地板及地板下的无尘状态。 重要区域进行保洁工作时应有运维人员现场监督和指导。

应建立针对数据中心场地基础设施设备和物理环境完整的、清晰的标签标识 管理系统。应至少包括: :设备标识:包括设备名称、型号、编号、资产编号等; :线缆标识:包括起始端信息、终止端信息、设备名称等; ·警示标识:如”设备已带电/危险”、”禁止合闸”、”禁止分闸”等; ·物理环境标识:如位置标识、区域标识等 :系统图展板标识:如电气、暖通、消防、弱电系统图展板。这类标识便于 运维人员清晰、快捷地掌握区域及整个数据中心系统的配电、制冷、消防、 弱电的原理及关键点位。

任何对于设施运行状态的变更应进行预先的风险分析,并基于风险等级,设 定相应级别的事前审核流程。在变更方案及变更时间窗口确认后,应进行相 应范围的告知。变更结束后,应向相应范围部门通报变更结果。

7.7.1设施应急预案演练

运维团队应针对应急操作流程EOP进行定期的演练工作,主要包括: :沙盘演练:参与演练的运维人员集合,并分别口述在发生紧急情况 下自身所应承担的职责及将会执行的方案及步骤; :跑位演练:参与演练的人员跑位到模拟故障现场,模拟处理故障, 参与人员应清晰地说出故障的处理方案及步骤。 应急演练的演练原则是:尽量接近真实情况,在条件充许的情况下尽 量真实地处理故障。在运行中的一些特定场景下也可以进行应急演练, 如发电机带载实验等。

7.7.2人员安全应急流程

数据中心场地基础设施运维团队应针对影响运维人员健康的人身事故 制定应急流程并定期演练。应急流程可包括设置现场急救包以及联系 当地医疗急救机构的方式等

容量管理可包括但不限于以下方面

量管理可包括但不限于以下方面: 8.1空间容量 ·IT设备摆放空间; ·基础设备设施摆放空间; 综合布线线路空间,配线架管理。

:电力供应容量; · 空调供应容量; ·综合布线信息点容量; :互联网接入容量。 设施运维团队应与IT部门定期沟通,动态了解IT需求的预测,并通报 设施容量的使用情况。可制定3个月至36个月周期的IT需求及设施 可用容量两者的对比分析表。 当场地基础设施不能满足IT增长的需求时,应提前制定并上报扩容或 者新建数据中心的计划

7.9.1能效监测 数据中心场地基础设施运维团队应了解并记录数据中心在不同工况及 不同外界气候条件下的电力使用效率PUE的变化情况,从中发现趋势 以不断优化运行方案。 7.9.2了解IT设备运行特征 数据中心基础设施运维人员应具备一定的IT设备相关知识,了解服务 器、网络、存储等设备的运行特点和功耗情况。还应了解客户或用户 的业务基本情况,了解IT设备的运行峰谷期。 应与客户或用户相关部门做好沟通,针对高密度IT负载的部署做出预 测,并制定相关应对方案。

7.9.3管理气流组织

应封堵设施建筑所有可能的漏风口,维持设施的正压。 应疏导设施内气流的流向、封堵所有可能的漏风口、对机柜内所有空 闲U位安装盲板、关闭不必要的出风口、保证冷空气的最佳使用效率。

7.9.4运行阅值设定

应基于安全性及运行效率的综合考虑,建立运行阈值设定指南,设置 监控报警阈值、空调回风温度等。

预算应包括但不限于以下内容: 基于SLA的人力预算; 备件及工具、仪器采购费用; 应急维护材料费用; 专业外包维保和应急服务费用; 政策性等强制检测服务费用; 整改或节能改造预算; 突发问题备用金。

八、附录:数据中心场地基础设施运维管理最佳实践

附录 A 测试验证的最佳实践

中科仙络咨询服务有限公司一王责

数据中心的测试验证是业主对于数据中心建造质量进行确认的一个过程。在欧美的 建筑行业,测试验证作为工程质量管理的规定步骤已经存在了30多年。近10年来,欧 美的数据中心客户已经把测试验证作为数据中心工程质量管理的规定动作,国内近几年 建设的大型数据中心也都开始把测试验证作为必须的要求。但相对起国外,行业人士预 计还有80%的国内数据中心没有聘用专业的第三方机构进行数据中心的测试验证,这 为数据中心的稳健运行埋下了隐患。

二、 数据中心测试验证概述

ASHRAE(美国采暖、制冷与空调工程师学会)对数据中心测试验证的定义 是:数据中心测试验证是一个系统性的质量验证过程。此过程验证并记录该数据 中心设施作为一个整体及其所有的设备、子系统满足用户的设计目标和运行要求。 测试验证处在数据中心建设和投产运行的关键的、承上启下的节点。数据中心的 规划、设计、建设阶段投资大,周期长,测试验证是确保投资达到预期目标的最 重要手段,可以看作是数据中心建设的终点。于此同时,测试验证也是数据中心 运行的起点,一个专业和完善的测试验证可以极大降低数据中心在其运行早期的 故障率,并为其全生命周期的稳健运行奠定基础。数据中心生命周期如图1所示。

图1数据中心的生命周期

二、确保测试验证实施效果的关键因素

数据中心的规模越大、设计等级越高、设备配置越复杂,需要测试验证的内 容也就越多。测试验证的内容可以按照实施的顺序和验证的对象两种方式来划分。 1.按照实施的顺序 测试验证工作从建造阶段就应该开始介入,直到数据中心上线之前结束,是机 房上线运行前的最后一道工序。按照实施的顺序,我们可以把测试验证分为厂 验、到货及安装、功能元件测试、功能系统测试、系统联调及故障模拟五个阶段。 (1)厂验 厂验是在设备发货之前,在设备原厂或者第三方的实验室进行的设备 运行和功率容量的基础验证。厂验的对象是机房的主要设备,包括发 电机、UPS、冷水机组、空调等。这些设备对机房整体系统有至关重要 的影响,所以发货前必须按照厂家或者行业标准的条件和步骤进行厂 验,自的就是验证设备的性能参数符合招投标文件,功能满足设计要求 避免设备发货前就有无法弥补的缺陷。测试验证的机构需要全程参加 验,测试报告由厂家提供,测试验证团队审核

测试验证团队需要在功能元件测试阶段完成设备的性能测试和启动测 试,并验证设备能够在基础负载下运行,这个阶段是针对单体设备的 测试验证,是为后面的系统测试验证做准备。 由于数据中心的设备非常繁杂,这个阶段的测试验证关键就是要保证 核心设备和核心系统的每入链条上的原件和路径都得到实际的测试和 验证。对于主要系统功能元件的测试验证内容,我们将在按照验证对 象的划分方式中详述。

(4)功能系统测试 功能系统测试是针对由单体设备组成的子系统来进行的测试验证工作。 主要内容包括验证子系统是否已经做好与其他系统联合运行并支持数 据中心运转的准备;测试、调整制冷系统,以保证风量和冷冻水流量 满足设计要求;分别在正常、维护和应急模式下,通过监控系统验证 设定点、报警、功率数和性能状态的反馈是否正确。 数据中心基础设施中对于可用性及可靠性影响最的子系统是供配电 子系统。随着数据中心热密度的上升,空调系统的重要性也随之上升。 而安防监控的参数设置可能影响以上两个系统的动作,因此这三个子 系统的测试验证也是数据中心验证的主要工作

(5)系统联调及故障模拟

2.按照测试验证的对象

数据中心基础设施主要由电气系统、暖通系统、安防与监控系统、消防系统和 装饰装修系统组成,测试验证的工作内容按照验证对象来划分也需要映射到这 五大系统中。另外我们将故障模拟单独列出,其实这项内容是包含在各个子系 统中的SN/T 3582-2013 进出口纺织品 纤维定性分析 麻类纤维,但它们又具备一定的共性,所以单独总结出来便于给读者更清晰的概 念。

数据中心基础设施主要由电气系统、暖通系统、安防与监控系统、消防系统和 装饰装修系统组成,测试验证的工作内容按照验证对象来划分也需要映射到这 五天系统中。另外找们将故障模拟单独列出,其实这项内容是包含在各个子系 统中的,但它们又具备一定的共性,所以单独总结出来便于给读者更清晰的概 念。 (1)电气系统 数据中心基础设施的电气系统不但承担看保障T设备电力供应和电能 质量的任务,还要解决空调设备、机房照明、应急照明、消防、监控 等其他设备的用电问题,是基础设施中最为重要的子系统,也是为数 据中心提供运行动力的基础,所以对电气系统的测试验证工作无为重 要。 电气系统的测试验证工作主要是验证电气设备及相关元器件的性能和 运行参数是否符合设计要求,验证电气系统是否能对设计负载提供稳 定、高质的电力供应,验证电气系统作为一个整体是否能满足运行要 求并与其他系统匹配运行,验证电气系统在故障情况下是否能做出预 期的反应并有一定的抗故障能力。电气系统的测试验证主要具体工作 内容见表2。

表2电气系统主要测试验证内容

表3暖通系统主要测试验证内容

T设备在运行过程中会产生大量的热,数据中心暖通系统的任务就是 消除这些热量,营造一个适合IT设备运行的稳定环境,对于该环境的 要求主要包括温度、湿度和洁净度三方面。虽然暖通系统不直接作用 于数据中心的产出(对IT业务的支撑),但却是数据中心产出的重要 保证,如果暖通系统不能正常工作,数据中心在短短几分钟可能就会 陷入瘫痪,所以对暖通系统的测试验证工作也是非常重要的。 暖通系统的测试验证工作主要是验证空调及相关设备的性能和运行参 数是否符合设计要求,验证暖通系统是否能满足设计负载对制冷量的 要求,验证系统作为一个整体是否能满足运行要求并与其他系统匹配 运行,验证系统在故障情况下是否能做出预期的反应并有一定的抗故 障能力。有关暖通系统的测试验证主要具体工作内容,见表3。

安防系统是运用安全防范产品和其它相关产品所构成的入侵报警系统、 现频安防监控系统、出人口控制系统、防爆安全检查等的集成电子系 统或网络。监控系统是对数据中心现场设备的工作状态、运行参数、 力史数据等进行实时的监控,完成强大的系统联网管理功能,同时也 是报警传递的第一途径,对于运维人员及时发现故障、快速处理解决 问题都有不可取代的作用。 安防与监控系统的测试验证工作主要是验证系统相关设备的性能和运 行参数是否符合设计要求GB/T 6458-1986 金属覆盖层 中性盐雾试验(NSS试验),验证系统作为一个整体是否能满足运行要 求并与其他系统匹配运行,验证监控系统是否能正确的反映被监控设 备的工作状态、运行参数、历史数据,验证安防系统是否能起到有效 保障数据中心安全的目标。有关安防与监控系统的测试验证主要具体 工作内容,见表4。

©版权声明
相关文章