游龙科技IT运维一体化集成解决方案
IT运维的最终目标是实现业务与技术的融合,但我们在帮助一些企业做IT规划咨询项目时,对于业务部门的调查发现几乎都会遭遇一种“既普遍存在,而又与目标偏离轨道”的情况:IT运维部门与业务部门的矛盾重重。那么这种现象为何而产生,又是否能够通过调节而最终消除呢?游龙科技作为国内领先的IT运维厂商,针对IT运维与业务融合又有什么样的方法为企业支招呢?
经济危机下,IT运维外部环境恶化
老张作为IT部门的主管压力本就很大,其压力不仅来自部门内部,最近他还屡屡遭到了业务部门的“越级投诉”。部门中的其他几个运维工程师也都灰溜溜的,小道消息说IT部门来年的预算可能削减50%,而且要裁减人员数量,想想离年底还挺远的,这样的流言就已经传开了,未来的情况真让人担忧。
以“老张”为样本的情况在2008年底的时候开始大量出现,本就存在的“资金危机”和“信任危机”,随着全球性的金融危机一起,也就在企业中爆发了。首先,在财务报告中会显示IT部门的运维成本非常惊人,因此企业管理的高层们就开始加大了IT运维部门的“关心”程度。其次,在消耗大量资金的同时,领导层会拿出一些“老问题”说事,如果再出现业务部门在出现“新问题”,例如:对IT运维部门或者其中的几个具体人员抱怨不断;IT部门所维护的系统仍然让自己在“最关键的时候”出现无法访问的情况等等,以业务部门为首的矛盾借此可能被激发。与此相反,我们会发现IT部门则是另外一种景象:“以CTO为首的技术人员满腹怨言,认为运维部门整天忙碌,不仅换不来其它部门的一句赞扬或感谢,相反还要备受指责,IT运维预算有时还被抢跑……”那么, IT运维是不是走进了死胡同呢?
部门矛盾,激发运维一体化时代到来
运维部门与业务部门之间的矛盾已经是一个非常普遍的问题,不管是在大型企业还是在政府机关,类似的争执屡见不鲜。游龙科技在帮助一些客户分析运维瓶颈的同时,走访了企业中大量不同层面的人员,从中也获得这些不和谐问题的真正原因:“业务部门发现故障的时间点要比IT运维部门早,而运维部门的维护效率又比业务部门的期望值低”。这种局面下,业务部门由于作为故障的发现者,他们会通知IT部门检查问题,而IT部门了解故障的存在但又不能准确定位原因,分析过程耗费大量时间导致故障不能及时处理,给业务系统运行带来了负面影响。而作为一个企业的领导者,其重心必然是业务而非IT,如果矛盾激发,此时的结论则是“IT阻碍了业务”,而不是我们通常所说的“IT对业务的服务不够”,结果必然是IT预算的下降和地位的降低。
是不是IT部门不知道提升效率呢?并不是这样。我们发现很多企业的IT部门为了能够提升效率,大多都在信息化建设一开始就考虑或者购买了网络管理产品,但这些软件都会有着历史性和阶段性的安排,所以会出现针对不同应用的IT运维产品。正因为如此,IT运维产品才会出现“各自为政”的局面。例如某个企业的在很久以前就部署了网络设备管理软件,然后购买了服务器监控软件,而后又配置了流量监控软件,而随着IM通信软件、网络视频、多线程下载技术的滥用,企业又购买了上网行为管理软件,防止业务系统的正常流量被侵占……这么多的运维软件系统混合在一起,如果业务系统出现缓慢的情况,我们该用哪个系统去解决呢?“智能和关联的运维统一平台!”这种带有强烈肯定性语气,也再次佐证了游龙科技项目经理赵琛宇之前关于“IT运维一体化集成解决方案”需求产生原因的阐述,也是一体化方案中集成SiteView ECC、SiteView NMM、SiteView DM、SiteView EIM的主要目的。那么IT运维一体化集成解决方案又如何消除业务与IT运维的矛盾呢,如何提升效能的同时与业务部门共同创造价值呢?
一体化集成解决方案中的“双剑”
以一个业务部门和IT部门都尚不知晓的ERP系统故障为例,通过一体化解决方案中的SiteView ECC的监控功能,由于其内置了上千种各类专门的监测器,可采用插件外挂方式与系统集成,因此IT运维部门可以和业务部门一起进行需求分析,利用MsL语言快速开发自己应用系统专门的监测器,这样就做到针对业务部门需求的监测。一旦发生异常,会以运维与业务人员自己习惯性的通信方式(告警邮件、告警短信、NetSend、Trap)接收到告警信息,并且直接掌握是哪个业务关联部分出现了问题,是服务器主机性能、网络设备的某个端口、操作系统的内存分配状况、数据库的空间和利用率、中间件的负载还是Web平台。由于这种业务部门和运维部门一起设计的监控管理平台存在,因此在前期就消除了两者的信息不对称的情况,那么怎么才能从之前混乱“运维沼泽”中跳出来呢?
首先是“智能”。由于收到警告信息的方式可以自行设定,因此可以将这个警告信息设定为网络监管人员和业务监管人员都知晓。传统的方式下,这个信息同时从属于业务监控中心和网络监控平台的监控范围,势必属于这两个监控平台人员都会有所动作,“数据库管理员+系统管理员+网络管理员+网络安全员”也都会登录到自己监管的平台去处理这个事件故障,造成大量人工浪费。那么游龙科技的一体化集成系统在提供统一的入口的同时,则可以根据全面的数据采集平台和智能化的分析手段,通过系统内建的智能事件分析引擎,对告警信息进行标准化、压缩、归并关联处理,将重复的告警信息进行合并处理之后,提炼出事件的主要故障排除人员和辅助故障排除人员,将智能化之后的告警事件指派到具体负责人和协助人员,并分配不同的任务。
其次是“联动”。解决部门之间的矛盾为什么需要这个功能呢?还以上面的这个ERP告警信息为例,此时如果IT运维人员也接到了信息、但他有可能不在工作岗位上,而在上班的路上怎么办呢?因为所有的企业人员可能都在同一时间到达公司,但业务部门希望IT部门在他们上班之前就处理完这个问题,这也就是之前的提到的“期望值”。利用IT运维一体化集成解决方案中的故障管理中心的关联功能,对于主机和网络系统的监控参数(连通性、设备负载、TCP告警、端口状态以及流量、线路状态以及流量、服务器负载状况、服务器日志信息)都可以设置自动化执行脚本。例如本事件中发现ERP数据库的日志归档空间达到了饱和状态,自动化脚本则可以将ERP数据库日志自动转存到存储或者备份服务器上,然后释放数据库存储空间。
以智能分析与业务联动为基础,再通过针对不同人员的报表功能,业务部门和高层管理者也知道了有这样一次故障可能发生,也知道了IT部门所做的预防和处理工作,那么“一体化”将原本两个相抵触的部门又紧密的联系了起来。因为在业务中时时刻刻都体现着了IT部门“先天下之忧而忧”的管理模式,所以这种模式的落实,针对不同行业的企事业单位都具有化解矛盾的通用性。历经十年磨砺的游龙科技,本着“无监控”无运维的出发点将每个产品做到了从粗到精,再将所有精华汇聚的IT运维一体化集成解决方案中,如今一体化集成解决方案已经成为IT运维技术的前沿解决方案。