当前位置: 首页 > news >正文

如何考取CDGA数据治理工程师证书,提升职场竞争力?

干货分享:CDGA重要考点总结

  • 一、证书&备考简介
  • 二、特别说明
  • 三、11个核心知识领域
    • 第3章 数据治理(10分)-->管理的管理,监督职能
      • 考点1:业务驱动因素
      • 考点2:数据治理的目标
      • 考点3:数据治理的概念
      • 考点4:数据治理的组织
      • 考点5:数据治理的运营模式
      • 考点6:度量指标
    • 第4章 数据架构(10分)
      • 考点1:数据架构的主要职责
      • 考点2:企业架构的类型
      • 考点3:数据架构
      • 考点4:度量指标
    • 第5章 数据建模和设计(10分)
      • 考点1:六种模式
      • 考点2:三层模型
      • 考点3:业务驱动因素(数据模型作用)
      • 考点4:数据模型的组件(实体、关系、属性、域)
        • 一、实体
        • 二、关系
        • 三、属性
        • 四、域
      • 考点5:非关系型数据库
    • 第6章 数据存储和操作(2分)
      • 考点1:子活动
      • 考点2:数据库管理员DBA
      • 考点3:数据处理类型
        • ACID(酸)
        • BASE(碱)
      • 考点4:数据库环境
        • 生产环境
        • 非生产环境
    • 第7章 数据安全(8分)
      • 考点1:业务驱动因素
      • 考点2:数据安全的目标
      • 考点3:数据安全需求和过程 -->4A(访问、审计、验证、授权)+E(权限)
      • 考点4:加密方法
      • 考点5:脱敏
        • 脱敏类型
        • 脱敏方法
      • 考点6:渗透测试
      • 考点7:外包世界
      • 考点8:度量指标
    • 第8章 数据集成和互操作(2分)
      • 考点1:抽取E、转换T、加载L
      • 考点2:时延
      • 考点3:编排
      • 考点4:度量指标
    • 第9章 文件和内容管理(2分)
    • 第10章 参考数据和主数据(4分)
      • 考点1:业务驱动因素
      • 考点2:参考数据和主数据管理的目标
      • 考点3:主数据
      • 考点4:主数据管理的基本步骤(know how)
      • 考点5:度量指标
    • 第11章 数据仓库和商务智能(10分)
      • 考点1:基本概念
      • 考点2:数据仓库建设的方法
      • 考点3:数据仓库建设的目标
      • 考点4:数据仓库建设的指导原则
      • 考点5:数据仓库架构组件
      • 考点6:CDC 技术对比(批量变更数据捕获)
      • 考点7:智能商务工具的类型
      • 考点8:OLAP实现方法
      • 考点9:实施商务智能商品组合
      • 考点10:度量指标
    • 第12章 元数据管理(10分)-->数据的数据
      • 考点1:元数据注册标准
      • 考点2:元数据类型
      • 考点3:元数据来源(14+N)
      • 考点4:元数据需求和综合解决方案
      • 考点5:元模型
      • 考点6:查询报告分析元数据的方法
      • 考点7:度量指标
    • 第13章 数据质量(10分)
      • 考点1:业务驱动因素
      • 考点2:数据质量管理的目标
      • 考点3:数据质量管理的原则
      • 考点4:关键数据
      • 考点5:数据质量维度
      • 考点6:DAMA UK 数据质量的核心维度
      • 考点7:戴明环PDCA
      • 考点8:数据质量问题的原因
      • 数据剖析
      • 识别改进方向并确定优先排序
      • 制定管理数据问题的操作过程
      • 度量指标
  • 四、6个附加知识领域
    • 第1章 数据管理(4分)
      • 考点1:数据是什么?
      • 考点2:数据和信息的关系
      • 考点3:数据管理的原则(12项)-->数字化转型必须遵循的方法论
      • 考点4:数据和其他资产的区别
      • 考点5:数据价值如何评估?
      • 考点6:数据管理的战略 -->数字化转型的指导纲领
        • 一、组成部分
        • 二、可交付成果
      • 考点7:数据管理的框架
        • 一、模型*2(说明业务和IT的关系)
        • 二、框架*3
          • DAMA车轮图
          • 六边形图
          • 语境关系图 (PCDO:计划 控制 开发 运营)
        • 三、进阶*2(工作角度重要,考试角度不重要)
          • DMBOK金字塔
          • DAMA数据管理框架的进化
    • 第2章 数据处理伦理(2分)-->工作角度重要,考试角度不重要
      • 考点1:定义
      • 考点2:度量指标
      • 考点3:数据伦理的准则
      • 考点4:GDPR准则(欧盟)
      • 考点5:违背伦理进行数据处理的风险(还没到法律高度)
    • 第14章 大数据和数据科学(4分)
      • 考点1:与数仓的区别
      • 考点2:业务驱动因素
      • 考点3:大数据
      • 考点4:数据湖、数据沼泽
      • 考点5:机器学习
      • 考点6:预测分析、规范分析
      • 考点7:探索数据的模型
    • 第15章 数据管理成熟度评估(6分)
      • 考点1:业务驱动因素(know why)
      • 考点2:评价等级(五级/六级)
      • 考点3:现有 DMMA 框架
      • 考点4:规划评估活动
      • 考点5:评估后的交付物
    • 第16章 数据管理组织与角色期望(4分)
      • 考点1:运营模式
      • 考点2:关键成功因素
      • 考点3:首席数据管CDO
      • 考点4:个人角色(数据管理角色)
    • 第17章 数据管理和组织变革管理(2分)
      • 考点1:变革转型阶段
      • 考点2:科特的变革管理八大误区
      • 考点3:科特的重大变革八步法
      • 考点4:有效指导联盟的关键特征
      • 考点5:有效愿景的关键特征
      • 考点6:有效传播愿景的关键要素
      • 考点7:采纳创新的五个阶段
  • 五、纸质证书展示

一、证书&备考简介

适用人群:从事数据治理领域工作的职场人、希望从事大数据领域工作的学生党
考试费:1000元(推广期)
教材:DAMA数据管理知识体系指南(第2版)
题库&视频:25.9元,百度网盘分享(请私信留言)

二、特别说明

  1. 若时间紧张,建议直接放弃每一章的活动部分,大概损失5分
  2. CDGA考题不会脱离教材,建议多看书
  3. 若个人实战经验与书不同,建议以书为准,书本更偏向于国外现状。

三、11个核心知识领域

第3章 数据治理(10分)–>管理的管理,监督职能

1、数据治理不是一次性的行为,是一个持续性的项目集/过程。
2、数据治理要与IT治理区分开。由于数字化转型的重要性,需要单独剥离出数据治理,由不同团队做。(CDO团队-数据治理;CIO团队-IT治理)
3、实施数据治理需要有变革的承诺(下定决心愿意变革),因为过程中会涉及到许多要求,如组织架构的调整、新规章制度的建立等。
4、数据管理专员:属于业务角色,而非IT角色
5、业务术语表:通常由数据管理专员整理。术语表是在组织内部共享词汇的方法,不然容易造成语言gap,你讲你的我讲我的,互相难以听懂,导致产生很多非必要的沟通成本以及沟通风险。

考点1:业务驱动因素

最常见的是法规遵从性/合规性(确保数据管理工作有序进行),但大多聚焦于:减少风险或改进流程。

考点2:数据治理的目标

1)提升企业管理数据资产能力
2)定义、批准、沟通和实施数据管理的原则、政策、程序、指标、工具和责任
3)监控和指导政策合规性、数据使用和管理活动

考点3:数据治理的概念

数据治理确保数据被恰当地管理而不是直接管理数据,相当于将监督和执行的职责分离。

数据治理数据管理
占比1/11占比1
保证数据是被管理的管理数据以达到既定目标
总体视角执行层面

考点4:数据治理的组织

数据治理机构说明
数据治理指导委员会NULL
数据治理委员会立项;弄好后审核、发布
数据治理办公室具体编制、起草工作
数据管理团队NULL
本地数据治理委员会NULL

考点5:数据治理的运营模式

1)集中式管理模式
2)分布式管理模式
3)联邦式管理模式

考点6:度量指标

1、价值:对业务目标的贡献,风险的降低,运营效率的提高
2、有效性:目标的实现,扩展数据管理专员正在使用的相关工具,沟通的有效性,培训的有效性,采纳变革的速度
3、可持续性:制度和流程的执行情况,标准和规程的遵从情况

第4章 数据架构(10分)

考点1:数据架构的主要职责

1、利用新兴技术所带来的业务优势,从战略上帮助组织快速改变产品、服务和数据。
2、将业务需求转换为数据和应用需求,以确保能够为业务流程处理提供有效数据。
3、管理复杂数据和信息,并传递至整个企业
4、确保业务和 IT 技术保持一致
5、为企业改革、转型和提高适应性提供支撑

考点2:企业架构的类型

业务架构、数据架构、应用架构、技术架构(除数据架构外,都不是本书的范围)

考点3:数据架构

1)企业数据模型(如数据结构和数据规范)(指概念模型和逻辑模型;物理模型不是数据架构的产物,是数据建模和设计的产物)
2)数据流设计(数据分布图、数据的价值链)

考点4:度量指标

1)架构标准接受率
2)实施趋势
3)业务价值度量指标
(1)业务敏捷性改进
(2)业务质量
(3)业务操作质量
(4)业务环境改进

第5章 数据建模和设计(10分)

考点1:六种模式

关系模式、多维模式、面向对象模式、事实模式、时间序列模式、NoSQL模式

考点2:三层模型

概念模型、逻辑模型、物理模型
其中,每种模型都包含一系列组件,如:实体、关系、事实、键、属性

考点3:业务驱动因素(数据模型作用)

1、提供有关数据的通用词汇表
2、获取、记录组织内数据和系统的详细信息
3、在项目中作为主要的沟通交流工具
4、提供了应用定制、整合、甚至替换的起点

考点4:数据模型的组件(实体、关系、属性、域)

要求看到一张图,能识别出属于哪种模型。

一、实体
二、关系
三、属性
四、域

考点5:非关系型数据库

非关系型(NoSQL):文档(Document)、列(Column)、图(Graph)、键值(Key-Value)
NoSQL数据库:文档数据库、列数据库、图数据库、键值数据库

第6章 数据存储和操作(2分)

考点1:子活动

1)数据库操作支持
2)数据库技术支持
数据库管理员DBA这个角色是数据专业中最常见,也是最被广泛接纳的角色。在数据管理和数据安全方面,都发挥着主导作用。

考点2:数据库管理员DBA

DBA支持的环境:开发环境、测试环境、QA环境、其他特殊数据库环境
DBA的类别:生产DBA、应用程序DBA、过程和开发DBA、网络存储管理员

考点3:数据处理类型

ACID和BASE正好相对立。

ACID(酸)

在关系型数据库中 ACID 是最常见存储技术,通常用 SQL 作为接口。
1)原子性(Atomicity)。所有操作要么都完成,要么一个也不完成。因此,如果事务中的某部分失败,那么整个事务就都会失败。
2)一致性(Consistency)。事务必须时刻完全符合系统定义的规则,未完成的事务必须回退。
3)隔离性(Isolation)。每个事务都是独立的。
4)持久性(Durability)。事务一旦完成,就不可撤销。

BASE(碱)

通常在大数据环境使用。
1)基本可用(Basically Available)。即使节点发生故障,系统仍然能保证一定级别数据的可用性。数据可能过时,但系统仍然会给出响应。
2)软状态(Soft State)。数据处于持续流动的状态,当给出响应时,数据不保证是最新的。
3)最终一致性(Eventual Consistency)。数据在所有节点、所有数据库上最终状态是一致的,但并非每时每刻在每个事务里都是一致的。

事项ACIDBASE
数据结构模式必须存在;表结构必须存在;列数据的类型是可以确定的数据结构是动态的;表结构在运行中调整;存储不同类型的数据
一致性强一致性可用强一致、最终一致或不追求一致性
处理焦点事务;行/列键值存储;宽列存储
历史20世纪70年代末期开始,应用存储2000年,非结构化存储
扩展依赖产品在商业服务器间自动传播数据
来源混合(商业和开源)开源
事务可能

考点4:数据库环境

生产环境
非生产环境

1)开发环境
2)测试环境:质量保证测试(QA)、集成测试、用户验收测试(UAT)、性能测试
3)支持环境
4)特别用途环境

第7章 数据安全(8分)

考点1:业务驱动因素

1)降低风险
2)促进业务增长
3)安全性做为资产 --可有可无

考点2:数据安全的目标

1、支持适当访问,并防止对企业数据资产的不当访问
2、支持对隐私、保护和保密制度、法规的遵从
3、确保满足利益相关方对隐私和保密的要求

考点3:数据安全需求和过程 -->4A(访问、审计、验证、授权)+E(权限)

4A:访问(Access)、审计(Audit)、验证(Authentication)和授权(Authorization);为了有效遵守数据法规,还增加了一个E,即权限(Entitlement)。

考点4:加密方法

哈希、对称(3DES)、非对称加密

考点5:脱敏

脱敏类型

数据混淆或脱敏是解决数据使用过程中的一种安全手段。数据脱敏分为两种类型:静态脱敏和动态脱敏。静态脱敏按执行方式又可以分为不落地脱敏和落地脱敏。
1、静态脱敏,永久且不可逆:不落地脱敏(在环境间移动需要脱敏或混淆),落地脱敏:数据源和目标相同,可以使用落地脱敏
2、动态脱敏:不更改基础数据情况下,在最终用户或系统中改变数据的外观

脱敏方法

替换、混排、时空变异(日期往后延)、数值变异(应用一个随机因素)、…

考点6:渗透测试

来自组织本身或从外部安全公司聘任的“白帽”黑客试图从外部侵入系统

考点7:外包世界

任何事情可以外包,责任除外!!!
CRUD矩阵:创建、读取、更新、删除
RACI矩阵:负责、批准、咨询、通知

考点8:度量指标

1、安全实施指标:各种百分比
2、安全意识指标:风险评估结果、反馈、复盘
3、数据保护指标:数据排名、数据年损失预期、丢失风险
4、安全事件指标:检测入侵、防止入侵
5、机密数据扩散:衡量副本数量,减少扩散

第8章 数据集成和互操作(2分)

ETL的目标是数据仓库,ELT的目标是数据湖。

考点1:抽取E、转换T、加载L

数据集成和互操作的核心是抽取、转换和加载(ETL)这一基本过程。
转换的例子包括:格式变化、结构变化、语义转换、消除重复、重新排序

考点2:时延

时延是指从源系统生成数据到目标系统可用该数据的时间差。不同的数据处理方法会导致不同程度的数据延迟。延迟可以是很高(批处理)或较高(事件驱动),甚至是非常低(实时同步)。会直接决定数据后续的加载方式。

考点3:编排

编排是一个术语,用来描述在一个系统中如何组织和执行多个相关流程。所有处理消息或数据报的系统,必须能够管理这些流程的执行顺序,以保持一致性和连续性。

几个ETL任务用串行还好。但如果是几千个ETL任务全部串行,绝了就,如有足够的CPU,就可以并行串行搭配使用。

考点4:度量指标

1)数据可用性。请求数据的可获得性。
2)数据量和速度。它包括:传送和转换的数据量,分析数据量,传送速度,数据更新与可用性之间的时延,事件与触发动作之间的时延,新数据源的可用时间。
3)解决方案成本和复杂度。它包括:解决方案开发和管理成本,获取新数据的便利性,解决方案和运营的复杂度,使用数据集成解决方案的系统数量。

示例:本来需要26小时完成的,经过编排后,成功缩减至10小时。

第9章 文件和内容管理(2分)

第10章 参考数据和主数据(4分)

跨:跨业务领域、跨流程、跨系统、跨公司、跨境(国家间标准不同,现在都是用映射在做)等
主数据是通过对共享数据的标准化建设来提高数据质量。(归根到底是个质量问题,需要共享,不是标准问题,标准只是手段)
主数据为重中之重,并非一定要做,是可选项,当你看到数据不标准,你需要打通数据孤岛,那就必须要用主数据,别无二法。

考点1:业务驱动因素

1)满足组织数据需求
组织中的多个业务领域需要访问相同的数据集,并且他们都相信这些数据集是完整的、最新的、一致的。主数据通常是这些数据集的基础(例如,要想确定一个分析是否需要包含所有客户,就要先对客户有一个统一的定义)。
2)管理数据质量
数据的不一致、质量问题和差异均会导致决策错误或丧失机会。主数据管理通过使用统一的标识来定义对组织至关重要的实体,以降低这些风险。
3)管理数据集成的成本
在没有主数据的情况下,将新数据源集成到一个已经很复杂的环境中成本会更高,这减少了因对关键实体的定义和识别方式的变化而产生的额外成本。
4)降低风险
主数据简化了数据共享架构,从而降低了与复杂环境相关的成本和风险。

考点2:参考数据和主数据管理的目标

1、确保组织在各个流程中都拥有完整、一致、最新且权威的参考数据和主数据(黄金数据)
2、促使企业在各个业务单元和各应用系统之间共享参考数据和主数据(目的)
3、通过采用标准的、通用的数据模型和整合模式,降低数据使用和数据整合的成本和复杂性

考点3:主数据

主数据是有关业务实体(雇员、客户、产品、金融结构、资产、位置等)的数据。实体中的属性,可落标准。

主数据对象代表那些对组织来说最重要的“事情”——那些在交易中被记录、报告、测量和分析的“事情”(Loshin,2008)

考点4:主数据管理的基本步骤(know how)

1、识别能提供主数据实体全面视图的候选数据源
2、为精确匹配和合并实体、实例制定规则
3、建立识别和恢复未恰当匹配或合并的数据的方法
4、建立将可信数据分发到整个企业的系统中的方法

考点5:度量指标

1)数据质量和遵从性
2)数据变更活动
3)数据获取和消费
4)服务水平协议(SLA)
5)数据管理专员覆盖率
6)拥有总成本
7)数据共享量和使用情况

第11章 数据仓库和商务智能(10分)

考点1:基本概念

1)数据仓库(Data Warehouse,DW):始于 20 世纪 80 年代,发展于 20 世纪 90 年代
组成部分:数据库+用于收集清理转存(ETL)的软件程序
建立过程:结构化-ETL-BI-报告-业务场景确定-对已发生事情的总结或呈现
2)数据湖:随技术发展出现的新概念
建立过程:结构化+非结构化-ELT-AI-预测-业务场景不一定明确
3)商务智能(Business Inteligence, BI):随着数仓的建设,应运而生
第一层含义,数据分析活动;第二层含义,技术集合。

考点2:数据仓库建设的方法

两位思想领袖,比尔·因蒙(Bill Inmon) 和拉尔夫·金鲍尔( Ralph Kimball)分别使用范式建模和多维建模来完成数据仓库建模。
1)Inmon在《数据仓库》(Building the Data Warehouse )中定义:数据仓库是在企业管理和决策中面向主题的、整合(集成)的、随时间变化(与时间相关)的、相对稳定(不可修改)的数据集合。-> 范式建模(用规范化的关系模型来存储和管理数据)
2)Kimball在《数据仓库工具箱》(The DataWarehouse Toolkit)中定义:为查询和分析定制的交易数据的副本。他主张自下而上(DMDW)的方式,力推数据集市建设。->多维建模,多维数仓也称星型模型,由事实表和维度表组成。

Inmon 和 Kimball 遵循的核心理念相似:
1)数据仓库存储的数据来源于其他系统
2)存储行为包括以提升数据价值的方式整合数据
3)数据仓库便于数据被访问和分析使用
4)组织建设数据仓库,因为他们要让授权的利益相关方访问到可靠的集成的数据
5)数据仓库建设有很多目的,涵盖工作流支持、运营管理和预测分析

考点3:数据仓库建设的目标

1)支持商务智能活动
2)赋能商业分析和高效决策
3)基于数据洞察寻找创新方法。

考点4:数据仓库建设的指导原则

1)聚焦业务目标。用于最优级的业务并解决它。
2)以终为始(从目标开始)。以业务优先级和最终成果驱动仓库创建。
3)全局性的思考和设计,局部性的行动和建设。让最终愿景指导体系架构,通过集中项目快速迭代构建增量交付,从而实现更直接的投资回报。
4)总结并持续优化,而不是一开始就这样做。以原始数据为基础,通过汇总和聚合来满足需求并确保性能,但不替换细节数据。
5)提升透明度和自助服务。上下文(各种元数据)信息越丰富,数据消费者越能从数据中获得更多数据价值。向利益相关方公开集成的数据及其流程信息。
6)与数据仓库一起建立元数据。DW 的成功关键是能准确解释数据。如“这个数字为什么是X?”“这个数字怎么计算出来的?”“这个数据哪里来的?”
7)协同。与其他数据活动协作,尤其是数据治理、数据质量和元数据管理活动。
8)不要千篇一律(一种尺寸并不适合所有用户)。为每种数据消费者提供正确的工具和产品。

考点5:数据仓库架构组件

有三项必须的!
说法1:源系统、数据集成、数据存储区域(其中,中央数仓为必须的)
说法2:数据源、ETL、数据仓库

数据存储区域:
暂存区、参考数据和主数据一致性维度、中央数据仓库(必须的)、操作性数据存储 ODS、数据集市、数据立方体Cubes

考点6:CDC 技术对比(批量变更数据捕获)

数仓建设的数据集成处理类型:历史数据加载、持续不断的数据更新。

方法对源系统的要求复杂度事实表加载维度表加载重叠删除
时间戳增量加载源系统中的变化由系统日期和时间戳标识
日志表增量加载捕获源系统中的变化并记录在日志表普通普通
数据库交易日志在交易日志记录数据库变化普通普通
消息增量源系统中的变化发布在实时消息(队列)极高
全量加载没有更改标识符,抽取全表数据并比较判断改动极低普通

注:全量的话,带宽是个问题,不太智能

考点7:智能商务工具的类型

1)运营报表
2)业务绩效管理
3)描述性的自助分析

考点8:OLAP实现方法

1)关系型联机分析处理(ROLAP)
2)多维矩阵型联机分析处理(MOLAP)
3)混合型联机分析处理(HOLAP)。它是ROLAP和MOLAP的结合。普遍认可,是为发展方向。

考点9:实施商务智能商品组合

1)根据需要给用户分组
2)将工具与用户要求相匹配

考点10:度量指标

1)使用指标。包括注册用户数、连接用户数或并发用户数。
2)主题域覆盖率。衡量每个部门访问仓库的程度。
3)响应时间和性能指标。指标的后续跟进工作是验证和服务级别调整。

第12章 元数据管理(10分)–>数据的数据

元数据与其他数据一样,需要管理,有生命周期。
应归尽归,应收尽收(数据无重要性和先后顺序之分)(不同于数据质量)

考点1:元数据注册标准

ISO/IEC 11179

考点2:元数据类型

业务元数据(涉及定义描述)、技术元数据(涉及物理)、操作元数据(涉及日志)

考点3:元数据来源(14+N)

应用程序中的元数据存储库、业务术语表、商务智能工具、配置管理工具、数据字典、数据集成工具、数据库管理和系统目录、数据映射管理工具、数据质量工具、字典和目录、事件消息工具、建模工具和存储库、参考数据库、服务注册、其他元数据存储。

考点4:元数据需求和综合解决方案

1、更新频次:元数据属性和属性集更新的频率
2、同步信息:数据源头变化后的更新时间
3、历史信息:是否需要保留历史版本
4、访问权限:通过特点用户界面,谁可以访问元数据,如何访问

考点5:元模型

创建一个元数据存储库的数据模型,也叫元模型。(作用:存储元数据)

考点6:查询报告分析元数据的方法

1、数据血缘:从下到上
2、影响分析:从上到下

考点7:度量指标

1)元数据存储库的完整性:把事做完先
2)元数据管理成熟度:事做完后续维护
3)专职人员配备
4)元数据使用情况
5)业务术语活动。
6)主数据服务数据遵从性。
7)元数据文档质量。
8)元数据存储库可用性。

第13章 数据质量(10分)

数据质量重点集中在对组织及其客户最重要的数据上,即关键数据。(不同于元数据)
与数据治理和整体数据管理一样,数据质量管理不是一个项目,而是一项持续性工作。

考点1:业务驱动因素

1)提高组织数据价值和数据利用的机会。
2)降低低质量数据导致的风险和成本。
3)提高组织效率和生产力。
4)保护和提高组织的声誉。
高质量数据本身并不是目的,它只是组织获取成功的一种手段。

考点2:数据质量管理的目标

1)根据数据消费者的需求,开发一种受管理的方法,使数据适合要求。
2)定义数据质量控制的标准和规范,并作为整个数据生命周期的一部分。
3)定义和实施测量、监控和报告数据质量水平的过程。

考点3:数据质量管理的原则

1)重要性
2)全生命周期管理
3)预防
4)根因修正
提高数据质量不只是纠正错误,因为数据质量问题通常与流程或系统设计有关,所以提高数据质量通常需要对流程和支持它们的系统进行更改,而不仅仅是从表象来理解和解决。
5)治理
6)标准驱动
数据生命周期中的所有利益相关方都会有数据质量要求。在可能的情况下,对于可量化的数据质量需求应该以可测量的标准和期望的形式来定义。
7)客观测量和透明度
8)嵌入业务流程
9)系统强制执行
10)与服务水平关联

考点4:关键数据

下述内容是从企业角度,而非个人角度:
1)监管报告。
2)财务报告。
3)商业政策。
4)持续经营。
5)商业战略,尤其是差异化竞争战略。

考点5:数据质量维度

Strong-Wang 框架、Thomas Redman、Larry English

考点6:DAMA UK 数据质量的核心维度

1)完备性。存储数据量与潜在数据量的百分比。
2)唯一性。在满足对象识别的基础上不应多次记录实体实例(物)。
3)及时性。数据从要求的时间点起代表现实的程度。
4)有效性。如数据符合其定义的语法(格式、类型、范围),则数据有效。
5)准确性。数据正确描述所描述的“真实世界”对象或事件的程度。
6)一致性。比较事物多种表述与定义的差异。
DAMA UK白皮书还描述了对质量有影响的其他特性,但没有将这些指标称为“指标”。

考点7:戴明环PDCA

数据质量改进生命周期,戴明环是一个被称为“计划Plan-执行Do-检查Check-处理/行动Act”的问题解决模型。

考点8:数据质量问题的原因

常见原因:数据输入、数据处理、系统设计、自动化流程中的手工干预
根本原因:缺乏领导力导致的问题、数据输入引起的问题、数据处理功能引起的问题、系统设计引起的问题、解决问题时引起的问题

数据剖析

定义:是一种用于检查数据 和 评估质量的数据分析形式
空值、最大/最小值、最大/最小长度、单个列值的频率分布、数据类型和格式。

识别改进方向并确定优先排序

制定管理数据问题的操作过程

诊断问题、制定补救方案、解决问题

度量指标

投资回报、质量水平、数据质量趋势、数据问题管理指标、服务水平的一致性、数据质量计划示意图

四、6个附加知识领域

第1章 数据管理(4分)

数据管理的核心:数据质量。确保高质量的数据。
数据管理的起点:元数据管理。
数据管理的基础:数据架构。
数据管理的直接/首要/核心目标:数据质量。
数据管理的最终目标:数据价值。

考点1:数据是什么?

数据是以数字形式存储的信息,也适用于纸面上数据。(数据是以数字形式存储的,同时也是以纸面形式存储的。)
数据既是对其所代表对象的解释,也是必须被解释的对象。

考点2:数据和信息的关系

共同点:两个术语可以互换使用。都是需要被管理的。
区别:数据被称为“信息的原材料”,而信息则被称为“在上下文语境中的数据”。

示例:这是上季度的销售报告(信息),它基于数据仓库中的数据(数据)。下一季度,这些结果(数据)将用于生成季度绩效指标(信息)。

考点3:数据管理的原则(12项)–>数字化转型必须遵循的方法论

1、数据是有独特属性的资产
如:数据有哪些独特属性?
2、数据的价值是可以用经济术语来表示
3、管理数据意味着对数据的质量管理
4、管理数据需要元数据
5、数据管理需要规划
6、数据管理需驱动信息技术决策
7、数据管理是跨职能的工作
8、数据管理需要企业级视角
9、数据管理需要多角度思考
10、数据管理需要全生命周期的管理,不同类型数据有不同生命周期特征
11、数据管理需要纳入与数据相关的风险
12、有效的数据管理需要领导层承担责任

考点4:数据和其他资产的区别

实物是可移动的,在同一时刻只能放置在一个地方。
数据不是有形的,数据的价值经常随着事件的推移而变化,但它是持久的不会磨损的;
数据很容易被复制和传送,但它一旦被丢失或销毁,就不容易重新产生了,在使用时不会被消耗。

考点5:数据价值如何评估?

主要基于成本法来核算,除了成本法之外,还有盈利法和市场法。
获取、存储数据的成本;数据丢失后更换需要的成本;数据丢失对组织的影响。

考点6:数据管理的战略 -->数字化转型的指导纲领

由CDO撰写和修订,由数据治理委员会支持的数据管理团队实施。

一、组成部分

1、令人信服的数据管理愿景
2、数据管理的商业案例总结
3、指导原则、价值观和管理观点
4、数据管理的使命和长期目标
5、数据管理成功的建议措施
6、符合 SMART 原则(具体Specific、可衡量Measurable、可操作Actionable、现实Realistic、有时间限制Time-limited)的短期(12-24个月-国外)数据管理计划目标
7、对数据管理角色和组织的描述,以及对其职责和决策权的总结。
8、数据管理程序组件和初始化任务
9、具体明确范围的优先工作计划
10、一份包含项目和行动任务的实施路线图草案

二、可交付成果

1、数据管理章程。包括总体愿景、业务案例、目标、指导原则、成功衡量标准、关键成功因素、可识别的风险、运营模式等。
2、数据管理范围声明。包括对象和时间,如部门 or 公司 or 集团?3年 or 5年?
3、数据管理实施路线图。包括特定计划、项目、任务分配和交付里程碑。

考点7:数据管理的框架

一、模型*2(说明业务和IT的关系)

战略一致性模型:业务战略、IT 战略、组织和流程、信息系统(4个基本领域)
阿姆斯特丹信息模型:与战略一致性模型一样,从战略角度看待业务和 IT 的一致性

二、框架*3
DAMA车轮图

数据架构、数据建模和设计、数据存储和操作、数据安全、数据集成和互操作、文件和内容管理、参考数据和主数据、数据仓库和商务智能、元数据、数据质量

六边形图

目标和原则–>角色和职责、活动、工具、组织和文化、方法、交付成果。
角色和职责、组织和文化对应人员,活动和方法对应过程、技术对应工具和交付成果。

语境关系图 (PCDO:计划 控制 开发 运营)

定义、目标(业务驱动因素);
输入、活动、交付成果;供给者、参与者、消费者;
方法、工具、度量指标(标准)(技术驱动因素)。

三、进阶*2(工作角度重要,考试角度不重要)
DMBOK金字塔
DAMA数据管理框架的进化

第2章 数据处理伦理(2分)–>工作角度重要,考试角度不重要

伦理是建立在是非观念上的行为准则;伦理准则不仅要保护数据,而且要管理数据的质量。

考点1:定义

数据处理伦理是指如何以符合道德准则及社会责任的方式去获取、存储、管理、解释、分析、应用和销毁数据

考点2:度量指标

1、培训员工人数
2、合规/不合规事件
3、企业高管参与

考点3:数据伦理的准则

1、尊重他人:尊重个人尊严和自主权,不伦理地使用个人数据会直接影响人们之间的相互交往、就业机会和社会地位。
2、行善原则:两个要素:第一,不伤害;第二,将利益最大化、伤害最小化。
3、公正:待人公平和公正
4、尊重法律和公众利益

考点4:GDPR准则(欧盟)

1、公平、合法、透明
2、目的限制
3、数据最小化
4、准确性
5、存储限制
6、诚信和保密
7、问责制度

考点5:违背伦理进行数据处理的风险(还没到法律高度)

1、时机选择
2、可视化误导
3、定义不清晰或无效的比较
4、偏见
(1) 预设结论的数据采集
(2) 预感和搜索
(3) 片面抽样方法
(4) 背景和文化

第14章 大数据和数据科学(4分)

考点1:与数仓的区别

数据仓库:结构化-ETL-BI-报告-业务场景确定-对已发生事情的总结或呈现
数据湖:结构化+非结构化-ELT-AI-预测-业务场景不一定明确

数据仓库/传统商务智能数据科学数据科学
描述性分析预测性分析规范性分析
事后结论洞察预见
基于历史:过去发生了什么?为什么发生?基于预测模型:未来可能会发生什么?基于场景:我们该做什么才能保证事情发生?

考点2:业务驱动因素

期望抓住从多种流程生成的数据集中发现的商机

考点3:大数据

大数据 3V:数据量大(Volume)、数据更新快(Velocity)、数据类型多样/可变(Variety)
6V 多出来的:数据粘度大(Viscosity)、数据波动性大(Volatility)、数据准确性低(Veracity)

考点4:数据湖、数据沼泽

数据湖是一种可以提取、存储、评估和分析不同类型和结构海量数据的环境,可供多种场景使用。例如,它可以提供:
1)数据科学家可以挖掘和分析数据的环境。
2)原始数据的集中存储区域,只需很少量的转换(如果需要的话)。
3)数据仓库明细历史数据的备用存储区域。
4)信息记录的在线归档。
5)可以通过自动化的模型识别提取流数据的环境。

数据湖的风险在于,它可能很快会变成数据沼泽——杂乱、不干净、不一致。为了建立数据湖中的内容清单,在数据被摄取时对元数据进行管理至关重要。

考点5:机器学习

1、监督学习:知道结果范围:如是增长还是下降
2、无监督学习:不知道结果范围,如增长多少?
3、强化学习:基于目标实现,如国际象棋中击败对手

考点6:预测分析、规范分析

1、预测分析是监督学习的子领域,用户尝试对数据元素进行建模,通过评估概率估算来预测未来结果。
2、规范分析比预测分析更进一步,它对将会影响结果的动作进行定义而不仅仅是根据已发生的动作预测结果。可以不断接收新数据以重新预测和重新规定。

考点7:探索数据的模型

步骤:填充预测模型->训练模型->评估模型->创建数据可视化

第15章 数据管理成熟度评估(6分)

执行成熟度评估的终点是重新评估,而不是报告。重新评估可以重振或重新集中精力。

考点1:业务驱动因素(know why)

1)监管
监管对数据管理提出了最低成熟度水平要求。
2)数据治理
出于规划与合规性目的,数据治理需要进行成熟度评估。
3)过程改进的组织就绪
组织认识到要改进其实践过程应从评估其当前状态开始。例如,它承诺管理主数据,并需要评估其部署主数据管理流程和工具的准备情况。
4)组织变更
组织变更(如合并)会带来数据管理挑战。DMMA为应对这些挑战制订了规划。
5)新技术
技术的进步提供了管理和使用数据的新方法。组织希望了解成功采用的可能性。
6)数据管理问题
当需要解决数据质量问题或应对其他数据管理挑战时,组织希望对其当前状态进行评估,以便更好地决定如何实施变更。

考点2:评价等级(五级/六级)

0 级:无能力级
1 级:初始级或临时级:成功取决于个人能力
2 级:可重复级:制定了最初级的流程规则
3 级:已定义级:已建立了标准并使用
4 级:已管理级:能力可以被量化和控制
5 级:优化级:能力提升的目标是可量化的

特殊记忆3级:1)数据被视为组织的推动者; 2)具有扩展能力的流程和工具,减少手工处理过程; 3)流程结果(包括数据质量)更具可预测性

考点3:现有 DMMA 框架

1)CMMI 数据管理成熟度模型(DMM)
2)EDM 委员会 DCAM
3)IBM 数据治理委员会成熟度模型
4)斯坦福数据治理成熟度模型
5)Gartner 企业信息管理成熟度模型

考点4:规划评估活动

定义目标、选择框架、定义组织范围、定义交互方法、计划沟通

报告三部分:评分、差距分析、建议

考点5:评估后的交付物

等级和排名、成熟度基线、准备评估、风险评估、人员配置能力、投资和成果选择、建议、路线图、执行简报

第16章 数据管理组织与角色期望(4分)

考点1:运营模式

1)分散运营模式
优点:组织结构相对扁平,相对容易实施或改进。
缺点:实施通常比发号号令更困难。一般不太正式,难以长期性维持。
2)网络运营模式
3)集中运营模式
4)混合运营模式:包含分散模式和集中模式的优点
5)联邦运营模式:为混合运营模式的一种变体,在大型全球企业中通常是必需的

考点2:关键成功因素

无论数据管理组织的架构如何,有10个因素始终被证明对其成功发挥着关键作用:
1)高管层的支持
2)明确的愿景
3)主动的变更管理
4)领导者之间的共识
5)持续沟通
6)利益相关方的参与
7)指导和培训
8)采用度量策略
9)坚持指导原则
10)演进而非革命:助于最大限度地减少重大变化或大规模高风险项目

考点3:首席数据管CDO

虽然大多数公司在某种程度上已认识到数据是有价值的公司资产,但只有少数公司指定了首席数据官(CDO)来帮助弥合技术和业务之间的差距,并在高层建立企业级的高级数据管理战略。然而,CDO这一角色正在兴起。常见任务如下:
1)建立组织数据战略。
2)使以数据为中心的需求与可用的IT和业务资源保持一致。
3)建立数据治理标准、政策和程序。
4)为业务提供建议(以及可能的服务)以实现数据能动性,如业务分析、大数据、数据质量和数据技术。
5)向企业内外部利益相关方宣传良好的信息管理原则的重要性。
6)监督数据在业务分析和商务智能中的使用情况。
Dataversity的研究结果显示,不同行业的关注点存在差异。

考点4:个人角色(数据管理角色)

数据管理角色分为组织角色和个人角色。

个人角色可以从业务或IT角度分别定义。一些混合角色,则需要同时掌握系统和业务流程两方面的知识。
1)执行官角色
2)业务角色
3)IT角色
4)混合角色:含数据质量、元数据、商务智能BI字样的

第17章 数据管理和组织变革管理(2分)

考点1:变革转型阶段

变革过渡阶段描述
结束阶段意识到:有些事情需要放手 or 已经失去了一些事情
相持阶段旧的已去新的没来;事情混乱无序;一切都在变,但感觉没人知道该做什么
新的开始阶段新的方法让人感觉舒服、正确,且是唯一的方法

考点2:科特的变革管理八大误区

1)过于自满
2)未能建立足够强大的指导联盟
3)低估愿景的力量
4)10倍、100倍或1000倍地放大愿景
5)允许阻挡愿景的障碍存在
6)未能创造短期收益
7)过早宣布胜利
8)忽略将变革融入企业文化
还有一些常见因素:
1)内向型文化。
2)瘫痪的官僚机构。
3)狭隘性政治。
4)信任度低。
5)缺乏团队合作。
6)狂妄自大。
7)欠缺领导力或者领导力失败。
8)对未知的恐惧。

考点3:科特的重大变革八步法

在这里插入图片描述

考点4:有效指导联盟的关键特征

1)职位权力。是否有足够多的关键人物,特别是主要管理者,这样那些被排除在外的人就不会轻易阻碍进展。
2)专家意见。相关观点是否有充分的代表性,以便做出有见识的和明智的决定。
3)可信性。团队中是否有足够多的人在组织中声誉良好,从而使团队受到重视
4)领导力。团队中是否有足够可靠的领导者来推动变革进程。
其中,领导力是关键。指导联盟必须在管理和领导技能之间取得良好的平衡。领导推动变革,管理使过程可控。

考点5:有效愿景的关键特征

1)充满想象。描绘了一幅未来的图景。
2)吸引力。有利于增加员工、客户、股东和其他利益相关方的长期利益。
3)可行性。目标现实、可实现。
4)重点突出。为决策提供明确指导。
5)灵活性。它足够普适,允许个人采取主动,并在条件或约束发生变化时做出替代计划和响应。
6)可交流性。容易在5分钟或者更短时间内分享和清晰交流。

考点6:有效传播愿景的关键要素

1)保持简单。去掉行话、内部词汇和复杂句子。
2)使用比喻、类比和例子。例如,一张简单的图(甚至是一些图片)可以胜过千言万语。
3)适用不同场合。从电梯演讲到广播备忘录,从小型会议到全员简报,信息需要在各种不同的场合之间传递。
4)重复,重复,再重复。思想在被内化和理解之前必须被多次听到。
5)以身作则。重要人物行为需要与愿景保持一致。不一致行为会废掉所有其他形式的沟通。
6)解释表面上的不一致。虎头蛇尾和未解决的协调问题会破坏所有沟通的可信度。
7)给予和索取。双向沟通总是比单向沟通更有效。

考点7:采纳创新的五个阶段

任何变革的采纳都遵循五步循环过程:从个人意识到创新(知悉)开始,到被说服相信创新的价值以及与他们的相关性(说服),最后达到对他们与创新的关系做出决策的程度。

阶段定义
知悉在知悉阶段,个人首先接触到创新,但缺乏有关创新的信息。在此阶段,个人还没有被激励去寻找更多关于创新的信息。
说服在说服阶段,个人对创新感兴趣,并积极寻求有关创新的信息。
决策在决策阶段,个人权衡创新的利弊,并决定是否采用或拒绝。罗杰斯指出,这一阶段的个人独特性,使其成为最难获得经验证据的阶段。
实施在实施阶段,个人采用创新并确定其有用,搜索有关创新的进一步信息。
确认在确认阶段,个人最终决定继续使用创新,并充分挖掘其潜力。

五、纸质证书展示


http://www.mrgr.cn/news/20506.html

相关文章:

  • AAC高级音频编码技术
  • OpenObserve云原生可观测平台本地Docker部署与远程访问实战教程
  • 时钟分频流程
  • 岳阳市美术馆预约平台(小程序)论文
  • HTML 基础知识详解与代码示例
  • 集运代购业务前景广阔,如何选择合适的集运代购系统?
  • C++——继承
  • 【高等数学学习记录】集合
  • Docker打包镜像
  • log4j日志封装说明—slf4j对于log4j的日志封装-正确获取调用堆栈
  • Python | 使用Joblib模块加快任务处理速度
  • 多媒体应用设计师需要掌握多种软件
  • 网络编程9.5
  • 屎记·大夏王本纪
  • 【C++ Primer Plus习题】11.6
  • 苏宁易购发布公告 管理层提前超额完成增持计划
  • nginx中如何设置gzip
  • 【2024数模国赛题目解析丨免费分享】
  • 【PyTorch】基础环境如何打开
  • Java设计模式【备忘录模式】-行为型