当前位置: 首页 > news >正文

虎嗅专访 | 运维数据治理如何增强业务连续性?

内容来源:虎嗅专访

近日,擎创科技的创始人兼CEO杨辰接受了国内知名科技媒体虎嗅的专访。在这次深度对话中,杨辰讲述了对能源电力行业数据治理现状和挑战的观察,并给出相关的解决方案建议以及实践分享。

数据治理这个话题如今在许多行业并不新鲜。随着企业数字化转型步入深水区,企业对于IT运维的依赖程度持续走高,数据治理的重要性愈发凸显。不同于传统的业务数据治理,运维数据治理主要针对业务应用在运行过程中产生的实时数据,统一进行管理、分类和治理,强调通过运维数据的治理来保障业务的连续性和成本投入的有效性。

本文聚焦能源电力行业的运维数据治理话题,深入探讨运维数据治理的重要性及其核心特点,并透过展示数据治理如何为能源企业带来提高运维效率,降低成本,增强业务连续性等价值点。

一、运维数据治理具备实时性高和运维对象特点--明确等特性

1.运维数据治理与业务数据治理的区别

运维数据治理是数据治理分支中的细分领域,从框架上会关注数据的统一管理、分类分层、开发和加工数据等工序。在应用层会根据不同应用需要生成相应的数据集市,对于数据质量、数据生命周期、数据血缘等领域会有相应的管理和控制。按照业务逻辑、成本运营等角度,把数据之间的关联性组织在一起,就能发挥数据的价值。而杨辰表示运维数据治理与我们熟知的业务数据治理有一些明显的区别。

(1)聚焦层面不同

从治理的数据上看,业务数据治理主要聚焦业务的结果数据,例如交易结果、客户信息等等,而运维数据治理更多关注的是一些机器数据、指标监控、报文数据、配置信息等业务应用在运行过程中实时产生的运维数据。这些数据离散在各种各样的工具系统当中,其信息量很大,信息密度比较低,但各数据间所蕴含的关联性价值非常大。

(2)对时效的要求不同

时效性上,运维数据治理对实时性的要求比较高。业务数据治理一般以事后的挖掘分析居多,无需在数据产生之后立即进行相关处理。客观来看,传统的数据平台或者数据仓库也不一定具备这样的能力。

运维是一个非常不一样的场景,尤其对于工业制造或能源电力等行业来说,基本需求是要在秒一级(最慢也要在一分钟之内)产生分析判断的动作。在生产运行的过程中,企业会需要实时精准的数据运维处理分析等操作,来支撑起流程的正常运转。否则一旦错过时间点,可能会造成不可逆的差错,甚至出现不可遏制的生产事故。

(3)呈现的核心对象不同

运维数据治理有明确的对象模型特点。业务数据治理的核心对象通常是客户,因为业务品种不一样,客户群体也不一样,实际上复杂业务客户还需分类不同的客户可能要不同的方法。

但在运维世界中,运维本身就是为了支撑业务的数字化,业务数字化的主要运维、要保护的对象就是业务应用,所以每一个业务应用就是运维对象。在运维数据治理中,非常强调运维对象的建模。不管是哪一类型、什么规模的业务应用,需要建模的是运维数据之间的相关性关系。

运维对象的建模能力约束了运维数据治理的平台是否能够有效快速地帮助管理者以全局视角观测这些业务应用的状况。通过形成一个轴心,把数据形成一张围绕业务应用建设起来的立体模型(运维对象模型),这样无论是横向的交易状况,还是纵向的基础架构支撑状况,管理者都能以一种通用的规范去管理所有不同结构化程度的运维数据。

二、云化、虚拟化和容器化的转变加速了能源--行业的运维数据治理

1.能源行业运维数据治理兴起的背景

(1)起步晚,运维复杂度高

能源电力行业大约从2020年开始做运维数据治理的尝试。之前行业内大家涉猎的比较少,原因是当时业务应用和业务系统之间的关系相对简单,没有大规模出现云化、虚拟化和容器化的转变。后面随着国产化替代的进程加速,国内企业陆续开始采用分布式架构的云服务,来替代国外厂商高密度计算的服务器。虚拟化、容器化转变的好处是摆脱了国外的技术依赖,而坏处是数据运维的复杂度大幅提高。

运维的复杂度变高最典型的情况就是上层应用和下层组件之间的支撑关系不明确,交易关系非常复杂,用来诠释上下游业务关系的调用链的数量呈指数级增长。举例来说,原先可能仅十几种链路关系,现在一天就可以产生大概10-15万条链路关系。

这种情况下,如果再用传统运维工具或人为的方式去解决排障分析的问题效率会非常低。这时行业内普遍倾向运用运维数据治理的方法,结合技术平台与算法能力,以比较高效的方式解决同类问题。

(2)运维数据不能集中管理

此外,能源电力行业原有的监管控运维体系通常配备了监控工具、流程管理工具和自动化工具,其最大的弊病就是运维数据不能集中管理,只能够围绕着配置管理工具去做相应的保障运维事务。而在数据量级变大、数据类别变多的情况之下,传统运维工具很难维持住秒一级的处理效能,行业内对新一代运维大数据平台的运维数据治理需求量持续增长。

2.企业推进运维数据治理的必要性

杨辰指出,在此背景下企业推动运维数据治理的核心价值点有两个。一是利用运维数据确保业务的连续性,或者加速排障分析的效率;其次是利用运维数据分析来优化IT成本投放的有效性。这两点也是能源行业在运维数据治理领域开始投入建设的重要抓手。

(1)确保业务连续不中断

企业业务的连续性原则上是不能够受到任何影响的。一旦用电或输电中断,业务连续性受到哪怕一分钟的影响,带来的经济和社会声誉上的损失是不可接受的。因此,企业更希望将原有的离散数据集中管理,对数据之间的相关性做出判断,更高效地加快排障分析的效率,预测性地感知问题的端倪,保障业务的连续稳定运行,而不是等到真正出现问题的时候再救火。

(2)有助于实现降本增效

行业不景气的情况下,企业积极主动寻求降本增效,从IT资源的使用有效性入手是一个非常合理的价值取向。过去大家更关注的是零事故,宁可多投放一些资源也要保证安全和稳定,成本敏感度相对较低。但行业不景气,企业经营状况不容乐观,大家开始慢慢关注IT的财务分析或成本分析。

在数字化转型过程中,IT资源的投入非常大,这些投入究竟是否产生了有效的、有意义的业务价值,需要从业务侧数据检验结果。之后可以再从IT投入看相应的使用率,包括容量和业务量增长之间的配比关系,来判断衡量资源运营的有效性,从数据分析得出一些指导作用的结论和决策支持。

(3)辅助最终决策,优化投入产出比

大量的数据信息与业务决策息息相关,比如像交易报文,企业希望通过数据的清洗和治理,把有业务价值的信息提炼出来,找到报文与其他数据的相关性,辅助业务进一步决策。这就需要用一些更好的手段,从运营数据中给出指向性分析,帮助业务层优化成本结构、IT投入和投放的频度批次,以达到最好的投入产出比。

(4)数字化转型的必要条件之一

运维数据的有效治理既是对业务数字化转型的战略支撑,也是对运维组织自身数字化转型的有效手段。从整体的数字化转型来讲,能源电力行业现在处于深水区,都在更积极、更有效地利用新质生产力去提升自己整体的效能,运维数据治理其实是帮助企业的IT组织去做数智化转型。

缺乏良好的运维数据治理,智能化的有效手段也少有用武之地,缺少可施展的舞台。数据质量提升起来后,把智能化手段和运营数据的价值拟合在一起,便可以实现保障业务连续性、找到IT成本投入和效率平衡点这两个核心价值,整体上是对数字化和智能化的有效保障。

三、数据治理需要规范性要求和角色设定--配套约束流程和工具平台去推进

1.运维数据治理步骤

运维数据治理的应用场景大类上可以分成事前预测类、事中排障分析类和事后复盘分析三个部分。整体上都会对数据质量、数据生命周期、数据安全以及数据服务进行相应的约束和管理。

(1)事前,以预测性的应用为主

在具体应用场景中发挥计算效率,代替人来强化对数据的加工分析能力。同时利用算法模型发现运维数据裂变的趋势或异变,找到一些新奇的事件,捕捉到问题的端倪,尽可能把一些重大事故消灭在萌芽之中。

宏观上,这对于整个的业务系统来说,能够从交易侧尽快的捕捉到问题的根因,保证业务的连续性,或者保障业务不出错,尽量避免比如用电故障带来的用电账务纠纷、电力调度失误所产生的重大事故等等。

(2)事中,快速定位问题并解决

事中,事故一旦发生,要在很短的时间内快速定位捕捉问题并解决,需要不同业务应用产生的运维数据来支撑分析。能源的业务应用,不像互联网那样访问一个页面就返回一个结果。而往往是登录一个应用,还调用到很多子系统,这些子系统相互关联,有很复杂的上下游关系。如果不能准确判断出影响业务路径中的关键节点,前站业务应用慢,后站就会受影响。

前文提到,云的转型带来了业务支撑和被支撑关系的复杂化。电力、石油石化等行业纷纷上云,所带来的问题是企业自己的业务应用分散在自己的私有数据中心、私有云和公有云上,这之间存在复杂的支撑关系。

上层业务应用如果出现延时或宕机的情况,很难判断是由公有云上的应用组件造成的,还是私有云上的实例造成的,判断难度和原来一台机器一个应用的情况不可同日而语。需要在事中很短时间内完成判断,挑战其实非常大。通过数据的治理和分析手段,可以使得问题一览无余,并赋予管理者一种全局视角,清晰地看到业务应用究竟与哪些数据相关联、这些数据的波动变化与业务现象之间是怎样的影响关系,这实际上对于排障分析的效率提升十分有效。

另外,一般来说业务运维的人员众多且分工明确,当出现应急问题时,多人分工可能会导致工作冲突。如果有运维数据支持,业务影响关系高度透明化,这样不同部门之间就会有共同语言,然后在短时间内迅速形成战斗力,组织起来完成共同事务,利用系统来排查问题。相当于赋予所有人一个通用的地图,而不是各自独立的地图。

(3)事后,分析复盘

事后,复盘分析的场景居多。例如基于容量分析,判断业务应用占用的业务资源是否合理;是否有资源浪费或者过渡申请的情况;一些情况下配置是否可以再优化,使得同样的主机可以承载更多的业务应用,优化资源的分配效率和投放成本。

而根据虎嗅智库调研,能源行业80%的企业最关注的是事中场景,让业务在短时间内恢复起来,这属于刚性需求;另外还有20%关注事前场景,不仅希望能够提升排障分析的效率,防患于未然,预先发现大多数故障,用预测性的原则判断健康度、完成维保。事后分析类场景目前则已基本覆盖。

擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司专注于通过提升企业客户对运维数据的洞见能力,为运维降本增效,充分体现科技运维对业务运营的影响力。

  行业龙头客户的共同选择

了解更多运维干货与行业前沿动态

可以右上角一键关注

我们是深耕智能运维领域近十年的

连续多年获Gartner推荐的AIOps标杆供应商

下期我们不见不散~


http://www.mrgr.cn/news/14236.html

相关文章:

  • 《第二十七章 性能优化 - 内存优化》
  • 浏览器中的开源SQL可视化工具:sqliteviz
  • Linux 部署 MinIO(远程服务器)
  • boost库容器之Circular Buffer功能介绍,及使用示例
  • 某系统存在任意文件下载漏洞
  • 第二十五课,字符串操作函数(二)
  • 设计模式结构型模式之适配器模式
  • C++系列-泛型编程概念及函数模板
  • 【Redis】渐进式遍历和数据库管理
  • 推荐4款2024年专业的电脑远程控制软件。
  • 【Material-UI】Rating组件中的Rating precision属性
  • Vue.js 中使用 AG Grid 实现高性能数据表格
  • Windows 11 24H2更新实测:AMD Zen5、Zen4游戏性能提升最多35%
  • ThreeJs学习-纹理贴图、顶点UV坐标
  • 深圳MES制造管理系统在企业中的应用
  • 探索原理图
  • XR虚拟拍摄和VP有什么区别
  • 【vue、Electron】搭建一个Electron vue项目过程、将前端页面打包成exe 桌面应用
  • GPT应用-如何用GPT4.0写一份专业的ppt
  • 基于 XILINX FPGA 的 Cameralink Full 模式相机采集系统技术分析方案