声明:本文归属一寸HUI所有。@一寸HUI
在上一篇文章数据中台(架构篇)中了解到了数据中台的架构,其中我们一个很重要的部分就是要构建数据资产管理,这部分我们就来了解下什么什么数据资产,数据资产管理了什么。
在明白数据资产管理之前,要明白管理的数据资产是什么?
“数据资产”定义为:“由企业拥有或控制的,能够为企业带来未来经济利益的,以物理或者电子的方式记录的数据资源,如文件资料、电子数据等。”
从上面的数据资产定义来看,数据资产具有如下3个特征:
1)“企业拥有或控制”。 这个特征指明数据是有其主体的,同时也说明数据资源既可能来源于企业内部的信息系统或者日常经营活动的沉淀, 可能是企业通过外部的交换、购买等手段获取的。
2)“能带来未来经济利益”。 这个特征清楚表明,在企业中,并非所有的数据都构成数据资产,数据资产是能够为企业产生价值的数据资源。
3)“数据资源”。 这个特征表明数据资产的存在形态,是以物理或者电子方式记录下来的数据。
“数据资产管理”的定义为:“规划、控制和提供数据及信息资产的一组业务职能,包括开发、执行和监督有关数据的计划、政策、方案、项目、流程、方法和程序,从而控制、保护、交付和提高数据资产的价值。”
数据资产管理在数据中台架构中处于中间位置,介于数据开发和数据应用之间,处于承上启下的重要地位。数据资产管理对上支持以价值挖掘和业务赋能为导向的数据应用开发,对下依托大数据平台实现数据全生命周期的管理,并对企业数据资产的价值、质量进行评估,促进企业数据资产不断自我完善,持续向业务输出动力。
缺乏统一的数据视图:数据资源分布在企业的多个业务系统中,分布在线上和线下,甚至分布在企业的外部。
数据基础薄弱:大部分企业的数据基础还很薄弱,存在数据标准混乱、数据质量参差不齐、各业务系统之间数据孤岛化严重、没有进行数据资产的萃取等现象,阻碍了数据的有效应用。
数据应用不足:受限于数据基础薄弱和应用能力不足,多数企业的数据应用刚刚起步,主要在精准营销、舆情感知和风险控制等有限场景中进行了一些探索,数据应用的深度不够,应用空间亟待开拓。
数据价值难估:企业难以对数据对业务的贡献进行评估,从而难以像运营有形资产一样运营数据。产生这个问题的原因有两个:一是没有建立起合理的数据价值评估模型;二是数据价值与企业的商业模式密不可分,在不同应用场景下,同一项数据资产的价值可能截然不同。
缺乏安全的数据环境:数据的价值越来越得到全社会的广泛认可,但随之而来的是针对数据的犯罪活动日渐猖獗,数据泄露、个人隐私受到侵害等现象层出不穷。很多数据犯罪是由安全管理制度不完善、缺乏相应的数据安全管控措施导致的
数据管理浮于表面:没有建立一套数据驱动的组织管理制度和流程,没有建设先进的数据管理平台工具,导致数据管理工作很难落地。
可见:通过对数据资产的全面盘点,形成数据资产地图。针对数据生产者、管理者、使用者等不同的角色,用数据资产目录的方式共享数据资产,用户可以快速、精确地查找到自己关心的数据资产。
可懂:通过元数据管理,完善对数据资产的描述。同时在数据资产的建设过程中,注重数据资产业务含义的提炼,将数据加工和组织成人人 可懂的、无歧义的数据资产。具体来说,在数据中台之上,需要将数据资产进行标签化。标签是面向业务视角的数据组织方式。
可用:通过统一数据标准、提升数据质量和数据安全性等措施,增强数据的可信度,让数据科学家和数据分析人员没有后顾之忧,放心使用数据资产,降低因为数据不可用、不可信而带来的沟通成本和管理成本。
可运营:数据资产运营的最终目的是让数据价值越滚越大,因此数据资产运营要始终围绕资产价值来开展。通过建立一套符合数据驱动的组织管理制度流程和价值评估体系,改进数据资产建设过程,提升数据资产管理的水平,提升数据资产的价值。
数据治理(Data Governance,DG)是指对数据资产管理行使权力和控制的活动集合(规划、监督和执行)。传统的数据治理内容通常包含数据标准管理、元数据管理、数据质量管理、数据安全管理、数据生命周期管理等内容
数据治理的目标是保障数据资产的质量,促进数据资产的价值创造。这个根本目标可以分解成以下6项:
数据治理的6个原则:
数据治理和数据资产管理的定义有异曲同工之处,它们围绕的对象都是数据资产。数据标准管理、元数据管理、数据质量管理和数据安全管理等同时也属于传统数据治理的必要工作内容。数据资产管理在传统数据治理的基础上,加入了数据价值管理、数据共享管理等内容。可以这么理解:数据资产管理就是传统的数据治理的升级版,可以认为是数据治理2.0。
《数据资产管理实践白皮书4.0》中规定,数据资产管理的管理职能包括数据标准管理、数据模型管理、元数据管理、主数据管理、数据质量管理、数据安全管理、数据价值管理和数据共享管理共8个方面。而在数据中台中,还可以包括数据资产门户、生命周期管理、 标签管理3个新的管理职能。
大数据的标准体系框架共由7个类别的标准组成,分别为基础标准、数据标准、技术标准、平台和工具标准、管理标准、安全和隐私标准及行业应用标准。
数据标准是对数据的表达、格式及定义的一致约定,包含数据业务属性、技术属性和管理属性的统一定义;数据标准的目的是使组织内外部使用和交换的数据是一致的、准确的。通常可分为业务术语标准,参考数据和主数据标准,数据元标准,指标数据标准。
数据标准管理是指数据标准的制定和实施的一系列活动,关键活动包括:
数据标准化的难题和应对方案:
一是制定的数据标准本身有问题。 有些标准一味地追求先进,向行业领先者看齐,标准大而全,脱离实际的数据情况,导致很难落地。
二是在标准化推进过程中出了问题。 这是笔者重点阐述的原因,主要有以下几种情况:
应对方案:
数据模型是指对现实世界数据特征的抽象,用于描述一组数据的概念和定义。数据模型从抽象层次上描述了数据的静态特征、动态行为和约束条件。
数据模型管理主要是为了解决架构设计和数据开发的不一致,而对数据开发中的表名、字段名等规范性进行约束。数据模型管理一般与数据标准相结合,通过模型管理维护各级模型的映射关系,通过关联数据标准来保证最终数据开发的规范性。理想的数据模型应该具有非冗余、稳定、一致和易用等特征。
数据模型按不同的应用层次分成概念数据模型、逻辑数据模型、物理数据模型3种。
数据模型管理的关键活动包括:
数据模型是数据资产管理的基础,一个完整、可扩展、稳定的数据模型对于数据资产管理的成功起着重要的作用。通过数据模型管理可以清楚地表达企业内部各种业务主体之间的数据相关性,使不同部门的业务人员、应用开发人员和系统管理人员获得关于企业内部业务数据的统一完整视图。
元数据(Metadata)是描述数据的数据。元数据按用途不同分为技术元数据、业务元数据和管理元数据。详情见数据中台(元数据篇)
主数据(Master Data)是指用来描述企业核心业务实体的数据,是企业核心业务对象、交易业务的执行主体,是在整个价值链上被重复、共享应用于多个业务流程的、跨越各个业务部门和系统的、高价值的基础数据,是各业务应用和各系统之间进行数据交互的基础。
主数据管理(Master Data Management,MDM)是一系列规则、应用和技术,用以协调和管理与企业的核心业务实体相关的系统记录数据。主数据管理的主要内容包括如下几项。
做数据质量管理,首先要搞清楚数据质量问题产生的原因。原因有很多方面,比如技术、管理、流程等。
围绕完整性、准确性、一致性、及时性监控分析数据质量问题、提升企业数据质量。 从数据接入、数据加工、数据导出、指标、数据应用实现全链路血缘跟踪、提前预判数据是否能够准时产出、了解任务失败后影响分析以及快速地修复。做到事前控制,事中处理,事后追踪。
数据质量评估的标准:
要提升数据质量,需要以问题数据为切入点,注重问题的分析、解决、跟踪、持续优化、知识积累,形成数据质量持续提升的闭环。
详情见数据中台(安全篇)
数据价值管理是对数据内在价值的度量,可以从数据成本和数据应用价值两方面来开展。
数据成本一般包括采集、存储和计算的费用(人工费用、IT 设备等直接费用和间接费用等)和运维费用(业务操
作费、技术操作费等)。
数据成本管理从度量成本的维度出发,通过定义数据成本核算指标、监控数据成本产生等步骤,确定数据成本优化方案,实现数据成本的有效控制。数据价值(收益)主要从数据资产的分类、使用频次、使用对象、使用效果和共享流通等方面计量。
数据价值(收益)管理从度量价值的维度出发,选择各维度下有效的衡量指标,对针对数据连接度的活性评估、数据质量价值评估、数据稀缺性和时效性评估、数据应用场景经济性评估,并优化数据服务应用的方式,最大可能性的提高数据的应用价值。比如可以选择数据热度、广度等作为数据价值的参考指标,通过 ROI 评估,高效管控和合理应用数据资产。
数据资产价值评估方法:市场法、成本法和收益法三种,三种方法的优缺点如表所示:
进行数据价值管理的关键性活动包括:
数据共享管理主要是指开展数据共享和交换,实现数据内外部价值的一系列活动。数据共享管理包括数据内部共享(企业内部跨组织、部门的数据交换)、外部流通(企业之间的数据交换)、对外开放。
数据内部共享的关键步骤是打通企业内部各部门间的数据共享瓶颈,建立统一规范的数据标准与数据共享制度,数据外部流通和对外开放可以通过数据直接交易与提供数据分析信息的两种方式实现,将数据中符合共享开放层级的信息作为应用商品,以合规安全的形式完成共享交换或开放发布。
数据共享管理的关键活动包括:
数据资产管理过程中,生命周期的管理也是非常重要的部分,每一类数据都有其价值周期,要设置一个合理的数据生命周期需要考虑各方面的因素。在数据中台的实践过程中,首先会将数据分成两类:不可恢复的数据与可恢复的数据。一般涉及原始数据的,都会被定义为不可恢复数据,即清除后没办法找回来;而一些中间过程或者结果数据,只要原始数据在并且相关的加工逻辑在,都可以被重新加工恢复。因此在生命周期的管理策略上,也需要区别对待。
1.不可恢复数据
一般建议策略为永久保存,在实际实施过程中可以根据企业各方面因素来综合考虑。数据当前没价值不代表未来没有价值,只是当前的技术、认知和场景没有办法使用其中的价值。当然也需要从企业成本考虑,如果什么数据都存,成本部分又无法承受,那反而会将数据变成一种负债,拖累企业发展。在实施过程中,可以考虑冷数据用低价存储的方式,未来需要使用时再进行恢复,虽然可能会有一些效率上的浪费,但和实际的资金成本平衡后也是常常会选择的方式。
2.可恢复的数据
这类数据只需要有原始数据和加工模型在,就可以通过平台的调度策略进行恢复,因此这类数据的生命周期一般会根据实际使用情况来灵活调整。平台侧可以根据数据使用情况,推荐具体的生命周期保留时长,用户也可以自主选择设置,让生命周期的设置符合实际企业需要。
生命周期管理提供生命周期的设置和自动清理功能,还提供了生命周期建议的功能,即结合数据的热度、存储量变化情况给用户建议的生命周期,帮助用户合理配置。
标签是一类重要的数据资产。把标签定义为对象的一种描述方法,成为更容易被理解、被识别的一种分类及描述的组织形式。业界常见的标签一般分成两类:
标签管理一般包含标签体系的管理、标签与数据映射关系、标签的应用管理。
1.数据资产地图
数据资产地图为用户提供多层次、多视角的数据资产图形化呈现形式。数据资产地图让用户用最直观的方式,掌握数据资产的概况,如数据总量、每日数据增量、数据资产质量的整体状况、数据资产的分类情况、数据资产的分布情况、数据资产的冷热度排名、各个业务域及系统之间的数据流动关系等。
2.数据资产目录
数据资产目录通过对数据资产良好地组织,为用户带来直观的体验,可以使用户花较少的时间查找到自己关心的数据资产。
数据资产目录的组织方式灵活多样,常见的有按业务域组织、按数据来源组织、按数据类型组织。
3.数据资产检索
数据资产检索服务为用户提供了一键式的资产检索服务,通过对关键字的匹配,数据资产门户检索出相关的数据资产集,用户可以根据需要找到相关的数据资产,可以查看数据资产的名称、创建者、业务语义、加工过程等详情,帮助自己理解和使用数据。
参考:
基于Apache doris怎么构建数据中台(三)-数据资产管理
基于Apache doris怎么构建数据中台(五)-数据质量管理
《数据中台:让数据用起来》
《数据资产管理实践白皮书4.0》