尽管生命周期管理工具并不成熟,但无论数据的大小和种类,都要被数据生命周期管理。
当信息生命周期管理(ILM)遇上数据时,它面临新的问题,主要的挑战有三部分:许许多多大小不同的大数据,大多数新数据都存在的“短命”的本质,让数据具有大容量、高速率、多变性的难度。
以上是Loraine Lawson 在近期的一篇文章中提出的,她在这个问题上与笔者大致的想法是一致的,但笔者不同意她所说的:ILM在处理大数据时需要比处理小规模的数据分析环境更花费精力。信息生命周期管理并没有为商业数据的安全、管理做出更多。
但有所改变的是,广泛的ILM很难在大数据环境下得到保证,这些体现在以下几个方面:
新的大数据平台
大数据正将新平台(Hadoop、NoSQL、缓存、图表数据库)以及MPP RDBMS、柱状图、空间数据库传达到企业的计算环境中,而用现有的ILM工具来处理这些新平台里的数据,是很难的。
同样,如果你在公共云中处理大数据,你需要用到ILM的任意特征——或强大、或脆弱、或适中,而这些特征是提供者的环境最本质的特征。
为了缓解在这个复杂新环境的危机并维持核心数据的强大自信心,你需要仔细检查新数据平台,来保证它们拥有ILM的特征(数据安全、数据管理、数据存档、数据保留),这些特征和你将它们部署一样的重要。
新的大数据主题领域
数据管理中心是一个存储管理办公系统记录的地方,这些记录包括了顾客的、财务的及人力资源的,而大数据没有改变公司对数据管理中心的要求。这就是为什么你需要建立企业级数据仓库(EDW),大部分的EDW都在传统的RDBMS数据平台运行,并且包含了强大的ILM。
但这些记录数据领域的系统可能在你的新的大数据平台中很少出现,大部分记录数据都将重点从社交、事件、传感器、点击量、空间和其他新来源上转移到处理新数据上。
这些新数据领域在某种意义上来说是很短暂的,以至于没有必要将这些数据保存在永久系统记录中。
新的大数据量表
大数据并不意味着你的新平台支持无限大的容量、瞬间的速率,或是特别多的种类。而这种巨大的新数据是不可能在任何地方进行存储的,使我们面临科技和经济上的约束。这一现实将让大数据管理者深入关注多点温度存储管理、归档、和保留的政策。
当你估计你的大数据环境时,你将需要确定你当前的容量(存储能力)、速率(带宽、处理器和存储速度)、种类(元数据深度)是否满足ILM的需求。
笔者也不同意权威专家所认为的大数据改革将消除任何人想要删去任何数据的需要——除非是我们真的想这么做。
是的,好像大数据会继续成倍增加,也好像大数据平台的成本会继续下降。但笔者仍怀疑对大数据云的实施和管理成本能降为零成本的说法。
如果笔者的预测是正确的,即使我们想做,也不可能将看似无限、没有尽头的数据流存储到云中。生命周期管理是有尽头的,这就是为什么我们如此需要ILM的原因。
译自:2013年8月15日【美国】http://www.infoworld.com
编译:工业和信息化部国际经济技术合作中心 张乐
更多精彩内容参见“中国经济网-国际频道-国际IT行业资讯”