移动安全 安全管理 应用案例 网络威胁 系统安全 应用安全数据安全 云安全
当前位置: 主页 > 信息安全 > 数据安全 >

现代数据中间暗藏着安然风险

时间:2013-07-15 09:54来源:TuZhiJiaMi企业信息安全专家 点击:
现代数据中间根本举措措施愈发复杂、各组件之间的依托关系也加倍慎密,我们很难预先鉴定某一组件呈现故障时会对全局造成何种影响。 跟着现代根本举措措施手艺在机能上的不竭爬升,其
Tags数据安全(840)数据中心(66)安全风险(103)  

  现代数据中间根本举措措施愈发复杂、各组件之间的依托关系也加倍慎密,我们很难预先鉴定某一组件呈现故障时会对全局造成何种影响。

  跟着现代根本举措措施手艺在机能上的不竭爬升,其复杂性与各组件之间的依托关系也变得加倍慎密。这类改变一方面使IT部门的平常工作加倍轻松高效,却也同时令故障加倍难以梳理与排查--某些故障乃至可能需要颠末数月乃至数年才被检测出来。

  过往,一套典型的企业数据中间可能包含多台办事器、某些机顶式及机底式收集互换机设备外加一些大年夜型存储阵列。这类环境中各设备间的联系关系性不言而喻:办事器的正常运作依托于收集与存储机制的可用性。而收集与存储(及存储相干收集)则相对较为自力。

  此刻,环境则完全不合。办事器当然还是存在,但刀片式机架的遍及普及为我们带来内置畅通领悟型收集系统、且将局域网与存储的连通工作纳进此中。而存储机制则作为附加设备直接接进全部别系。除此以外,畅通领悟型收集的某些关头性功能还可能需要借助刀片办事器上运行的软件方可正常起效。更加复杂的是,假定利用基于IP的存储方案,即便是拜候存储内容如许简单的诉求也需要触及数据中间内的所有组件。

  大年夜家很可能在还没有明白认知的环境下成立起如许一套环环相扣的轮回依托系统。假定命运不好,我们常常会在大年夜量组件呈现标题问题后才意想到设计中存在的严重缺点。要想真正避免这类轮回依托性的呈现,我们需要拿出大年夜量时候浏览申明文档、经由过程图表理解设备的依托关系,并经由过程严格测实验证本身的构思。

  真实案例

  虽然我在实际工作中已见识过良多此类状况,但此中最具代表性的例子当数EMC VMware vSphere环境下的思科Nexus 1000V虚拟互换机。需要夸大年夜的是,我可算是软件定义收集的果断拥戴者。当然软件定义收集尚不完美也称不上没法替代,但Nexus 1000V仍然是我所接触过的最强大年夜的产品之一。不外虚拟方案与采取物理互换机存在诸多差别,并且它与大年夜量外部及内部组件构成了周到的依托关系。

  在此次的实例中,vSphere主机配备有两块铜缆1Gbps网卡作为流量治理前端、还有两块传统(非nPAR/CNA)10Gbps网卡作为虚拟设备收集接进及拜候营业环境中NFS存储的连通机制。

  对不熟谙这款产品的伴侣,我在这里做一点简单申明。Nexus 1000V由两大年夜根基组件构成:虚拟监控模块(简称VSM)与虚拟以太网模块(简称VEM)。VSM充当模块化互换机中的监控模块,而VEM则作为接口卡。节制层与治理层由VSM实现,但数据层的互换工作则首要由VEM负责。

  从实践角度看,VMS被作为主机上运行的虚拟设备装配(作为高可用性需求下的可选次要装配)。VEM则作为软件模块被安装在每台主机上的vSphere治理法度傍边。当然,VSM与VEM之间的通信也很首要,这是因为VEM只有在VSM的辅助下才能体味需要履行的任务和具体建设编制。这中间明显存在强烈的依托关系。别的,VSM与VMware vCenter之间一样存在强烈的依托关系,后者的感化在于调和各vSphere主机之间的交互勾当。

  一旦VSM与VEM之间没法完成通信,VEM也就掉往了对流量的互换能力。而假定VSM与vCenter之间没法完成通信,用户对虚拟机收集建设进行的变动将没法生效(由两边同时触发)。比拟之下,在外部搭配两台物理互换机就要简单良多,只不外虚拟化方案的可治理性更超卓。

  在此次摆设工作中,我还犯下了一些严重的弊端--并且直到激发卑劣影响才被发现。那是一个假日,整套根本举措措施突然遭受供电间断;当然电力供给很快恢复,但手艺人员发现良多组件较着没法正常工作。最终我们花了八个小时来定位故障启事并找出解决编制。

  最终我们将故障启事回结为两项关头性疏漏:追踪监控缺掉与依托关系打算不足。先说第一条,Nexus 1000V的任务是打理vSphere办事器上的两块10Gbps网卡--两块网卡还负责拜候保留在存储设备中的虚拟机系统。我估计本身在摆设时可能一时走神,导致在将Nexus 1000V VSM导进SAN存储后竟然忘了将其移动到本地存储傍边。

  正因为在VEM未激活的环境下没法拜候存储机制,所以VSM在停电后不克不及正常启动--反之亦然。直到调剂以后,VSM才恢复了正常运作,而其它虚拟机也跟着VSM的启动而陆续上线。

  上述标题问题解决以后(需要操纵一些前端网卡来拜候存储设备),整体环境仍未恢复正常。当然vCenter虚拟机利用的是1Gbps网卡上的根基虚拟互换机(意味着与Nexus 1000V不存在依托关系),但该虚拟机运行所必需的甲骨文数据库却没法离开1000V自力起效。更糟的是,虚拟机因为包含有需要拜候10Gbps网卡的出产用数据库而没法被迁徙至1Gbps网卡这边。当然只是为了快速使系统恢复正常而对建设做出姑且变动,但数据库最终仍是被迁徙到另外一套虚拟机系统傍边。

  与手艺无关:两大年夜关头教训

  此次变乱给我和其他手艺人员上了一课,大年夜家意想到将Nexus 1000V摆设在出产环境中其实很不明智。(顺带一提,只要将1000V与vCenter组件运行于二者的治理环境以外,以上坚苦底子不会产生。)不外在具体手艺以外,我们还应当从中总结出一些更具遍及意义的教训--不管是不是实际利用1000V互换机。

  第一条关头教训在于,我们需要有条不紊对建设摆设加以严格查抄、而后才能将其纳进出产环境--这一点很是首要。良多手艺人员习惯于“知道了,过会儿就来措置”这类立场,但跟着IT工作强度的日趋增大年夜、我们真有余暇回头对已完成的工作进行从头核阅吗?在此次变乱以后,我会在每个项目中成立一份提示清单,借以提示本身在项目后期切实将遗留标题问题一一解决。假定做不到这点,我们很可能在项目中留下致命隐患、而本身却全不知情。

  第二项关头教训在于正视测试环节。在前面的案例中,我们本应当在实际投付出产之前对全局根本举措措施进行大年夜范围停电及恢复供电测试(一旦进进正常运行,我们将没法按照需求随便封锁根本举措措施)。在良多人眼中,这类严格测试仿佛是在华侈时候;但大年夜家完全可以操纵假期拉下电闸、再鄙人次上班时恢复供电,这不但可以或许切实完成测试工作、并且也不至于给员工带来额外承担。

  回根结底,立场决定一切。虽然良多人觉得IT部门在企业中的首要性已被大年夜大年夜减弱,但身为手艺人员、我们的小掉误仍然会在根本举措措施复杂性与依托关系日趋加强的今天给全局营业带来严重影响。此刻单一组件的感化弘远年夜于以往,一个简单的弊端就可让整套根本举措措施陷进瘫痪。而跟着数据中间根本举措措施鸿沟畅通领悟趋势的普及,这类牵一发而动全身的坚苦将更加常见。

------分隔线----------------------------

推荐内容