数据湖、数据管理平台:相似不相同

数据架构 2017年 03月 06日

近几年,数据湖和数据管理平台(DMP)项目在企业中来势凶猛,两者往往共同出现。 数据湖到底是什么?有何用途,和数据管理平台又有何异同? Pierre Harand,55 数据公司的法国区总经理和 Jean-François Wassong,55 数据公司的全球首席信息总监,给出了答案及看法。

数据湖的用途是什么?

Pierre Harand:简单来说,数据湖就是一个巨大的数据库,一个企业各式各样的数据流都汇聚于此。这些河流最终汇聚到一个湖泊中,正代表着一个企业的不同分支。

数据湖的目标是要让其用户以自动化、个性化的方式从中获取详尽的数据。

数据湖的首要功能是分析 —— 某种程度上,它可被视为数据科学家的试验田,科学家们在梳理研究这些数据前,并不清楚这些数据究竟将揭示什么。

数据湖比数据仓库更为灵活,它能使企业从原始数据中提炼价值,且无需事先进行数据标准化或映射自己的数据。

通常情况下,我们为一家大型时装零售商建立一个数据湖,该零售商因此能够根据网页的访客行为、公司产品数据库、库存以及利润等数据,决定商品在电商网站上的最佳排序。最后,结合数据湖的分析,加之新产品上架的叠加效应,使得“加入购物车”的转化率提高了8%,年营业额增加了4%(这是基于 A/B 测试进行的绩效对比)。

数据湖和数据管理平台有什么异同?

Jean-François Wassong:数据湖的一大特点是数据寿命长且全面。和数据管理平台不同,数据湖能让企业搜集个人身份信息(PII)。这个层面上来说,数据湖相比数据管理平台有更高的资产价值,后者更注重 Cookies 和媒体受众激活。

数据湖是一个自由的空间,它对于企业各个部门的开放性更强。

在数据管理平台上,一切数据的处理均为媒体激活服务,尤其是第一方数据和第三方数据(即来自外部合作伙伴的数据)的结合,而数据湖并不包括第三方数据,因为它仅供内部使用。

二者各有什么优势?

Pierre Harand:在一家公司中,数据湖的应用范围大于数据管理平台,不仅限于广告。它涉及多个公司部门和职能,如定价、商品陈列及销售、物流、生产和库存。数据湖更偏向于冷数据勘探和处理工具。

数据管理平台主要是激活导向型营销工具,而且以数字营销为主。数据管理平台的优势在于,通常它是一款现成的工具,具备与各类市场解决方案的连接器。除此之外,它还能让营销人员快速创建并推出面向特定用户群体的营销推广活动。同时,数据管理平台具有“实时性”和“热数据”的特点,使用互动类及个性化工具得以运用,还能快速处理受众的参与信号。

数据湖和数据管理平台兼容吗?

Jean-François Wassong:二者是兼容的,数据湖经常构成数据管理平台的初步步骤。在很多情况下,可以利用数据湖的数据扩大数据管理平台的知识基础。

简而言之,数据管理平台建立与多个外部数据提供商的联系,数据湖则提供新的内部数据作为补充。

我们一般建议数据资产流量较大的公司先从设立数据湖开始。相反,如果访问人数较少,如快消品行业,我们建议从数据管理平台开始。

就数据湖而言,目前有哪些已知技术?

Jean-François Wassong:数据湖通常是多个成分的集合。目前最常用的 Hadoop 生态系统有至少三个部分组成:

  • 数据储存,一般由 Hadoop 分布式文件系统(HDFS)处理
  • 分布式处理,解决方案较多(map、reduce,yarn,spark等)
  • 查询引擎(Hive,Pig,Drill等)

这三个部分令 lambda 这种专门将原始数据转化成可行动数据的架构得以实施。 架构实施后,各部门能通过快速查询工具(Elastic Search, Hbase, Impala, Cassandra等)使用这些数据。

Hadoop 的主要发行版(Horton Works, Cloudera, MapR)封装了 Hadoop 生态系统的组成成分,便于 lambda 架构的实施。

过去几年来,亚马逊、微软和谷歌等大公司纷纷推出云解决方案,进一步简化 Hadoop 栈的实施。它们还提供一些组成部件的替代解决方案,如亚马逊 Redshift、谷歌 Big Query 和微软 Azure Document DB。

数据湖的成本高吗?

Pierre Harand:数据湖基于成本极低的储存和处理技术,这意味着数据湖的入门成本约为几万欧元,低于数据管理平台,后者可能高达数十万欧元,大公司甚至会超过100万欧元。

然而,不能忽略在设立数据湖之前监管设计和探索阶段的成本。在这些阶段,公司需要建立数据收集框架并确保其可靠性。

一般而言,我们建议公司在未确定具体目的前,不要急于使用该工具。

数据湖的优势在于它让公司能先从小开始,从利害关系不大的分析和业绩衡量项目入手。数据湖让公司有机会调动通常不会一起合作的多个部门,共同思考它们想提供的客户体验(如基于客户行为、库存和物流,最大化各地区的单店销售额)。

公司在设立数据湖前,应该问自己哪些基本问题?

Jean-François Wassong:最关键的问题涉及到监管、安全和数据可靠性。因此,我们建议公司让法律和IT部门事先参与进来,同时回答下列问题:

  • 各部门为什么需要数据湖,数据湖的预期用途和益处是什么?
  • 如何向数据湖输入数据?
  • 有哪些法律和技术要求(如隐私和个人数据存储)?
  • 需要取得哪些事先同意?
  • 如何提取数据并传到云上?
  • 储存和处理数据的地理位置在哪里?
  • 需要遵守哪些安全标准

数据湖项目还涉及信息系统安全、转向云服务的相关性、个人数据管理和变化管理等重要问题。在这方面,必须通过大力教育员工,获得 IT 和法律等各部门的支持。因此,尽早让有所有相关部门参与进来至关重要。

上述采访内容最初于 Viuz 发布。

还想再来一杯茶吗?