神策数据曹犟:数据治理中的一些挑战与应用

  • 时间:
  • 浏览:1
  • 来源:彩神APP苹果

本文根据神策数据联合创始人&CTO曹犟在神策2019数据驱动大会的精英训练营上发表的《数据治理中的有些挑战与应用》主题演讲挂接而成。本文将为你重点介绍:

·数据治理的概念与重要性

·数据治理面临的挑战

·数据治理与组织架构

·数据治理中的应对

有些大数据公司在过去一段时间都得到了较好的发展,究其导致 是机会恰逢专注于业务流的信息化建设正在向数据化转型。但在很多以后,数据着实 还倘若IT化的“副产品”,早期的工作思路仍然围绕怎样才能将业务IT化,而数据倘若你有些过程中自然而然产生的结果,即所谓的“副产品”。机会在数据生产的过程中并未做到足够重视,数据质量与可靠性则如此得到保证,这也是数据治理在现在得以被重视的重要导致 。在业务IT化的过程中,企业通过第三方厂商、自研等法律法律依据构建多种数据系统,采用多种系统中的数据化治理,是实现数据效能、数据驱动业务的关键步骤。

早期,企业用信息技术去构建业务流,而现在,当当.我歌词 试图用信息技术,很糙是互联网行业中的有些大数据处理以及分布式处理技术构建数据流,但在构建过程中,很多强调技术有些而忽视了对数据的治理。

数据治理是整体性问题 ,何必 仅是技术问题 ,市面上数不胜数的商业组件还非要处理怎样才能对数据进行存储、查询等问题 ,倘若在实际的业务状况下对于数据治理非要 有一个多系统性工程,目前却并无现成的产品或技术还非要直接处理。

企业的数据流建设

当当.我歌词 还非要尝试用数据治理的深层来解读上图。

构建数据流的过程,很大意义上是为了处理分布在IT系统里各个不同子系统之间的数据孤岛问题 ,用一根绳子 完整篇 的数据流将不同子系统之间的数据孤岛打通,一起去应用于不同的应用场景,你有些打通的过程,倘若有些意义上的数据治理。这也反映了我以后尤为推崇的有一个多观点——构建数据仓库有些倘若有一个多数据治理的过程。

另外,对于数据的本质,我一个多劲推崇如下有一个多定义,第一“信息是用来消除不选则性的”,第二“大数据的本质,倘若用信息来消除不选则性”。同样,对于数据驱动在业务决策和产品智能两大方面的应用,也都将建立在数据治理的基础上才有意义。

数据驱动的两类应用

一、你有些是数据治理?

数据治理的本质是组织对数据的可用性、完整篇 性和安全性的整体管理。

1.数据治理的本质

可用性指数据可用、可信且有质量保证,不不机会分析结果的准确性造成偏差,从业者还非要放心地根据数据结果做业务决策;完整篇 性分为有一个多方面,一方面指数据需覆盖各类数据应用的非要,我其他人 面指不不机会数据治理非要到位而造成数据资产的流失,也即影响数据资产的积累,这也是神策数据在创业伊始便开展私有化部署的导致 ;安全性指治理和分享过程需安全可控,不侵犯用户隐私,且不不给组织留下安全隐患。

2.数据治理的重要性

数据治理是所有数据应用的根基,数据治理的好坏直接影响所有数据应用的价值。

无论是基于数据看报表,还是做交互式的多维分析,还是做更复杂化的个性化推荐,所有的数据应用都非要有有一个多良好的数据治理结果。神策有些就拥有一款推荐产品——神策智能推荐,通过这款产品的实践,当当.我歌词 发现,它的实施周期相比其它有几只产品普遍偏长,这也是机会个性化推荐对于数据的质量和准确性要求相对更高。简而言之,数据应用做得深一点入,所需数据就会更多,对数据质量也会有更高的要求。

数据治理是组织数据资产沉淀的基础,数据治理的好坏直接决定了组织的数据资产还非要得到沉淀,还非要充分地发挥价值。

一个多劲会有客户主动来询问:“领导说当当.我歌词 要做有一个多数据中台沉淀数据,但不知具体导致 ,亦不清楚搭建中台的具体目的,机会要等搭建以后寻找数据价值时,再去探索具体应用。”我其他人 认为,在经费条件允许的状况下,当然还非要将企业的所有数据整合在一起去,通过良好的权限管控,充分的共享,聚合所有的业务部门一起去去探索数据的应用,机会数据中台有些就承载着组织内部内部结构所有数据的整合分享角色。

二、数据治理面临的挑战

本每项的内容将数据治理面临的挑战分为两类,一类因“技术”而起,一类因“人”而起。由客观的技术问题 对数据治理带来的挑战普遍较好处理,比如怎样才能挂接数据、怎样才能存储数据等,都可通过更先进的工具、更新的技术等法律法律依据处理。而由人或组织架构带来的问题 相对复杂化,它的身旁含高的是企业在文化、流程上的问题 ,还非要通过以下实例说明。

1.多业务系统多数据源的整合挑战

企业你要做的数据应用很多,所需的数据就会很多,所要去获取的数据源也会增多,而相应的数据处理也会很多,这是有一个多极为显而易见的问题 。对于神策数据而言,当当.我歌词 在数据应用方面相对“单纯”,主要针对用户行为领域,挂接用户行为数据,从客户端、服务端、数据库等做对接。但即使是非要 有一个多限定特殊领域的应用,当当.我歌词 在整合多方面数据源上也会碰到非常多的挑战,可想而知在面对多业务系统多数据源的状况下将更加困难。

多业务系统多数据源的整合的挑战

2.数据挂接技术上的挑战

近年来,有些公司一定会尝试将我其他人 的业务线上化,都非要通过数据对用户进行分析与运营,怎样才能精准挂接可用的用户数据以及有些相关数据,都将是数据挂接在技术层面上面临的挑战。

数据挂接技术挑战

3.用户隐私与安全挑战

用户隐私与安全不仅是对技术挑战,更多的是有些意识上的挑战。企业非要准确把控数据挂接的红线,比如针对欧盟范围内的国际业务,就非要参考GDPR的相关规范。

在国内,很多银行券商等企业也同样拥有一套完善的数据合规要求,甚至机会细化到“某个特定字段对于某有一个多特定人可看但不可下载”的程度,你有些一定会非要在进行数据治理时考虑的因素。另外,机会非要在公网传输交换数据,也同样非要思考数据怎样才能处理窃取和伪造的问题 。

用户隐私与安全挑战

4.组织架构与部门隔阂带来的配合

每项组织在数据治理的过程中传输速率过慢,成效不好,其含高一个多很糙要的导致 是权责、部门配合等方面缺乏 。很多状况下,生产数据、使用数据、分析数据的工作人员分布在不同的职能线与部门,角色不同,立场倘若同,你有些客观占据 的影响因素一定会影响整个数据治理的最终结果。

组织底部形态与部门隔阂带来的配合挑战

5.业务持续迭代中带来的挑战

在互联网行业中,尤其是业务迭代较为越来很慢的团队里,通常占据 “1.0版本的数据质量最优,1.1版本不行,2.0版本完整篇 不可用”的说法,说明第一次做数据治理时,极重视数据质量,会有完善的流程来保证挂接的准确性,有些也非要很多的包袱;而在后续的产品迭代中,机会流程和标准的迭代相对滞后,整个数据治理的结果也会随着受影响,最终导致 整个数据质量低劣,直至所谓的“完整篇 不可用”。

业务持续迭代中带来的挑战

下面举有一个多具体实例说明。

实例1.

某公司的业务部门向第三方数据分析平台提出数据需求,该公司内部内部结构有多个App频道,每个频道隶属于有一个多单独的部门,而第三方数据分析平台在挂接挂接阶段非要不同部门的团队相互配合。机会缺乏统一各部门需求与任务的统筹角色,实施过程中如此清楚划分相关责任,加带带管理、测试等工具的缺失,最终导致 每次发版一定会占据 挂接丢失和报错。

实例2.

某企业的所有用户相关数据分散在不同的系统上面,试图通过第三方数据分析平台整合统一的用户标签数据系统。然而在挂接数据的过程中,每跨一次部门就非要提一次全套的审批流程,好不容易挂接齐各部门各系统中的数据以后,却发现数据统计口径不一致,无法得到有一个多公司统一的用户标签数据。

三、数据治理与组织架构

上述内容机会提到关于组织架构的内容,因其重要性将在本每项单独说明。

1.数据治理是有一个多动态的过程

数据治理实际反映的是组织问题 、文化问题 ,这也是有些公司为了明确权责划分而建立数据治理委员会的导致 。一起去,还非要明确的系统应用应用程序与执行系统应用应用程序的计划,明确的系统应用应用程序指对数据进行治理所需经历的阶段、问题 有明细的了解,执行系统应用应用程序的计划指每一步非要处理你有些问题 。当公司的主流业务占据 变化时,组织架构会随之改变,接而带来数据治理层面的变更,很多,数据治理是有一个多动态的过程,伴随整个业务变更与组织架构变更。

2.数据治理中的有一个多核心角色

第一,数据使用者,通常集中在产品经理、数据分析师、营销经理、运营经理等岗位,有查看报表、数据分析、用户画像、用户运营等需求,当当.我歌词 属于数据治理的受益者。

第二,数据生产者,通常集中在前端开发、后端开发、数据工程师、ETL工程师,有挂接、打日志、做数据ETL的需求,当当.我歌词 属于数据治理的付出者,机会看非要直接收益,反而增加工作负担。

机会数据使用者属于数据治理中受益的一方,多数状况下需由其来推动数据治理任务进行。

在神策数据的具体实践中,当当.我歌词 非常强调对客户接口人,通常状况下也倘若数据使用者的培训,由他去推动整个流程,去了解数据生产者的实际状况,从而让数据治理工作更好地进行。

四、数据治理中的应对

首先,数据治理的核心认识是,数据治理是有一个多持续倘若长久的有一个多过程,不同的产品还非要处理比如挂接、传输等数据治理层面上的不同问题 ,但何必 占据 一款所谓的“数据治理产品”,还非要用来处理所有问题 。

其次,数据治理的整体法律法律依据论是“从应用倒推”。先选则数据应用、数据资产的需求,接着选则非要你有些数据,以后选则非要从哪种数据源获取数据,最终选则具体的数据治理方案。

神策凭借近年在实际业务中的经验,围绕用户行为分析领域,总结出一套数据治理法律法律依据论。

用户行为的数据治理

第一步,选则分析需求。通过了解数据使用者非要看你有些指标、用在你有些场景、使用你有些分析模型等方面来了解具体的数据使用需求,完成需求梳理。

第二步,映射数据模型。在该步骤需选则挂接的事件和属性,并完成事件设计。

第三步,选则数据挂接技术方案。根据要采的事件和属性,结合现有实际业务系统,去选则到底要从何种系统里以何种技术方案挂接数据。

第四步,数据挂接与集成。你有些步倘若指具体的开发、集成工作,包括完成相应的SDK集成、数据挂接工具的开发、数据ETL开发等。

第五步,数据校验和上线。你有些步中非要使用必要的测试工具、利用挂接管理平台做数据对比等。

下面,举例说明数据治理的三大原则。

数据治理原则1:何必 先污染后治理,要从源头控制

在创立神策数据以后,当当.我歌词 曾长期参与百度的日志数据相关的工作。在最以后刚结速的阶段,所谓的日志处理倘若通过中控机器,何必 同的业务系统里下载文本日志,跑完脚本后生成报表,再通过邮件的形式挂接。

60 8年,团队处理了以后方案中的技术架构的问题 ,把以后的单机系统变成了分布式系统,提高了整体性能与计算传输速率,用分布式的法律法律依据下载日志,用分布式的法律法律依据来计算报表。倘若,当当.我歌词 本质上只提供了有一个多计算的调度平台。就数据有些而言,非要人知道你有些海量数据其中的细节,数据非要得到充分的复用,造成了有些计算资源的浪费。很多,这每项的工作着实 倘若处理了有一个多技术问题 ,但并非要处理任何数据治理方面的问题 。

意识到数据治理的问题 以后,团队中以后刚结速百度用户数据仓库的构建工作。有工程师每天将文本日志用系统应用应用程序转成底部形态化日志,并在进行必要的数据清洗、Union、Join等ETL的工作以后,将你有些底部形态化日志统一映射到一张大表(今天event模型前身),并对外提供集中访问。但随着产品线不断增多,入库周期变得更长,到后期,每增加一根绳子 产品线,都非要付出大概一周时间去处理。一起去,机会数据在产生后非要做ETL,从产生到传输到统一的Hadoop集群非要时间,ETL的计算也同样非要时间,即使在最佳状况下也非要保证半小时的时效性。这是有一个多典型的数据“先污染后治理”的例子,不仅在治理上非要付出更多的代价和成本,数据有些的可用性和时效性也会受到影响。

以后,当当.我歌词 尝试通过推行全百度统一的Logging平台,从打日志以后刚结速就保证数据的正确性,倘若直接将数据传输到分布式集群上以保证数据的可用,这倘若从源头来治理数据的思路。

在创立神策以后,当当.我歌词 就充分吸取了你有些教训,通过SDK机会有些工具去严格控制数据挂接格式及数据模型,尽最大努力减少ETL的代价,从而保证查询时效性与导入时效性。很多,数据治理要从源头以后刚结速,何必 先污染后治理。

数据治理原则2:数据治理的过程要贯穿到整个业务迭代的过程中

以软件开发流程为例。首先,在产品需求阶段,同样非要去明确数据需求。在具体设计阶段,完成产品交互系统架构变更的一起去,去选则要加你有些日志、字段等。在实际开发阶段,完成相应的代码开发、日志变更,单元测试应包括相应的日志变更每项,并进行日志审计,何必 将挂接当成有一个多单独的开发任务,倘若伴随的过程。在测试阶段,当测试整体性能的正确性的一起去,测试数据、日志的正确性,确保功能符合预期、日志打印正确,还非要满足分需求。在上线阶段,要实际查看上线的挂接、日志否是正确,并对功能进行确认。最后,在项目总结阶段,用数据说明转化率变化、流程优化状况,对功能完成程度的总结,尝试真正地用数据说话。

数据治理原则3:以产品化、组件化的思路来处理,非要依赖于人工

以产品的法律法律依据处理客户端数据挂接问题 。神策的开源SDK被有些业界同仁参考学习,究其导致 是机会它用产品的法律法律依据处理客户端数据挂接问题 的思维,无论是电商、社交、金融、游戏,还是哪有些产品,一定会在客户端挂接用户数据时面临匿名ID生成、基础属性挂接、数据打包压缩加密、本地缓存、网络传输、时间校准、根据数据模型限定了挂接数据的Schema、通过全挂接等法律法律依据提供了对常见数据的自动挂接功能、结合后端提供了对于挂接端调试功能等场景,很多,还非要用产品思维来处理的问题 ,不依赖人工。

在创办神策以后,我和团队非要 利用有一个多日志库去处理日志格式的问题 ,相似现在市面上流行的有些Java的日志库,从server中获取所有日志的Schema,并使用Schema打日志,保证日志在格式上的正确性和统一性。

如今,神策内部内部结构的SDG产品希望用产品的法律法律依据来处理样挂接管理、ETL、数据校验一系列的问题 。以往,当当.我歌词 我其他人 的客户群含高销售、客户成功、分析师、实施工程师等多种角色,目的是最大限度减少上线前在设计、挂接、校验、交付等场景中机会一个多劲老出的问题 。但商业的本质是传输速率,非要用产品去解放众多客户群中大批量的人力,通过有一个多完整篇 的平台,去查看整个数据治理的过程,去处理客户们诸如“我上线的以后,把他的类型搞错了咱办?”“为什把错误的数据拿下来修改后再填进去?”等问题 。

以某大型的连锁商超客户的数据治理为例。

该商超当时占据 的现状问题 有有一个多:第一,时间多、缺乏规范和管理;第二,挂接需求的沟通成本大且挂接代码一个多劲被破坏;第三,无法进行有效的业务测试,上线后一个多劲老出问题 修复周期很长。

在处理过程中,神策团队从最终的应用倒推,首先重新梳理事件设计方案,接着废除原有混乱挂接,法律法律依据新的挂接方案和规范,重新进行挂接,以后开发挂接管理平台,包括创建挂接需求、挂接需求审核等,最终在数据校验阶段,测试团队开发测试工具以便校验数据,并通过网络抓包摘取SDK上传的数据,利用挂接管理平台导出的配置(事件设计)进行对比测试。

非要 例子,以某支付平台客户数据治理案例为例。

该案例当时占据 的主要问题 有两点,首先,每次发版会有挂接丢失和报错,其次研发把错误的数据传到生产系统。团队通过分析发现,引发这两点问题 的主要导致 是部门隔阂以及多角色执行非要位导致 。于是,团队成员通过需求提出、事件设计、需求澄清、数据挂接、数据校验等步骤重新构建需求运转流程,梳理治理方案,从角色赋能、工具选则等多方面对支付平台的客户数据进行科学治理。

另外,神策内部内部结构一个多劲强调“价值交付”,“价值”不仅仅指通过神策的产品处理现状问题 、改善业务指标,广义而言,还包括神策团队怎样才能帮助客户搭建数据仓库,做好数据治理,以及赋予客户一套完备的交付流程。

神策团队结合具体业务实践,针对企业不同的发展状况,总结出两类数据治理层面的实践法律法律依据论。

首先,对于初创企业而言,在组织层面非要数据使用者从需求以后刚结速负责推动数据治理,相关的数据生产者积极配合。在流程历史层面应侧重于从源头控制数据的产生与挂接,并在软件开发流程中将数据治理贯彻下去。在工具层面,需在BI工具、分析工具等方面做较多投入。

其次,对于心智早熟是什么是什么图片 图片 图片 图片 图片 企业而言,在组织层面非要“一把手”工程,可成立单独的数据治理委员会,贯穿不同部门。在流程层面,心智早熟是什么是什么图片 图片 图片 图片 图片 企业的“数据包袱”较多,应侧重于对已有数据和系统的治理,一起去非要从上到下的推动,将数据治理结果与绩效挂钩。在工具层面,整体架构非要结合我其他人 的实际状况做统一设计,外采的工具主要作为整体架构的必要补充,除了数据应用之外,在审计、风控等方面也非要有较多的投入。

关注神策数据公众号,回复“数据治理中的有些挑战与应用”可下载原版PPT资料。

神策2019数据驱动大会六大城市联动时间预告

上海:2019年11月8日(周五)

深圳:2019年11月8日(周五)

成都:2019年11月15日(周五)

杭州:2019年11月15日(周五)

合肥:2019年11月22日(周五)

武汉:2019年11月29日(周五)

关于神策数据

神策数据是专业的大数据分析平台服务提供商,致力于帮助客户实现数据驱动。公司围绕用户级大数据分析和管理需求,推出神策分析、神策用户画像、神策智能运营、神策智能推荐、神策客景等产品。

此外,还提供大数据相关咨询和完整篇 处理方案。神策数据积累了中国银联、中国电信、百度视频、小米、中邮消费金融、海通证券、广发证券、东方证券、中原银行、百信银行、中青旅、平安寿险、四川航空、翼支付、好未来、VIPKID、东方明珠、华润、有赞、百姓网、货拉拉、闪送、驴妈妈、Keep、36氪、拉勾、VUE、春雨医生、聚美优品、惠头条、纷享销客、妈妈帮等60 0余家付费企业用户的服务和客户成功经验,为客户全面提供指标梳理、数据模型搭建等专业的咨询、实施和技术支持服务。希望更深入了解神策数据或有数据驱动相关问题 ,请拨打60 660 9827电话咨询,会有专业的工作人员为您解答。