随着大数据的重要性和接受度的提升,人们也更加必须考虑到如何的组织和托管地大数据。答案之一是数据湖,在数据打算和的组织方面最普遍的数据体系结构系统。非常简单地说道,它容许企业首先存储数据,然后在必须时检索数据。
就像一个存储单元,你只是把你的东西存储,并在未来必须的时候去找出来。这种方法与传统的数据仓库截然不同,传统的数据仓库必须对数据展开结构化,且一般来说在记录数据之前使用类似于表格的形式。数据仓库是一种相同形式的解决方案,它不是灵活的,同时意味著额外的重新配置成本。但迄今为止,它仍然是全球企业的选用。
那么,将数据湖作为数据管理选项的主要原因有哪些?缩减成本因为在存储数据之前不必须设计数据的模式,所以没前期的研发费用。且处置数据湖的Hadoop系统是开源的,因此没额外的软件许可成本。与传统数据仓库的不同之处在于,有了数据湖,ETL阶段就几乎没了。
您不用告诉存储在湖中的数据类型或者有多少字段。移除ETL过程意味著没与许可、确保或快速增长数据结构涉及的成本。敏捷性加到新的单元或单个新项目可能会转变现有的整个数据结构,从而引起额外的成本。
此外,展开这些变更所需的构建时间有可能从几天到几周平均。在数据湖中,所有的数据都早已存储,并且只有很少的变化,您可以随时查找。
这种方法协助企业在当今大大变化的数据世界中维持敏捷性。未来几年里可能会经常出现新的数据格式,其中一些甚至是现在还无法意识到的。因此,企业数据存储系统必须充足灵活性,在不展开根本性结构变更的情况下符合所有既定和脑溢血拒绝。多种格式数据湖可以处置各种数据格式。
即使数据湖中的一些数据看上去与其他数据牵涉到,但从整体的角度展开人组和分析时,它可以获取基本的业务看法。例如,如果一个数据湖包括关于客户的记录,比如姓名、年龄、去年的开支,以及客户在网上商店的不道德统计图,很难显现出这些细节和销售线索之间的直接联系。然而,把所有的东西放到一起,可以找到一定年龄的客户往往不会更慢地作出出售要求,这可能会影响销售策略。除了多种格式,还有关于数据源的上下文透视图。
最少见的资源还包括面向客户的应用程序、BI应用程序、销售日志等。物联网的蓬勃发展将减少数据源和格式的数量,使数据湖沦为唯一可信的解决方案。
人工智能由于数据湖用于非结构化数据,因此不合适用于传统的基于sql的工具展开查找。忽略,由于大多数数据都具备适合的3v(体积、速度、多样性),因此可以将其视作大数据并用作训练人工智能算法。实质上,挟数据湖的目标是让信息动态(或完全动态)准备好展开处置。
这种动态的方法为公司获取了立刻反应的机会。将所有数据放到同一个方位意味著在分析之前检索数据的时间更加较少。灵活性和规模数据湖最典型的特性有可能是其可伸缩性和灵活性,它可以适应环境企业数据的任何变化,而不必须对基础设施展开根本性变更。
由于整个架构是基于云的,一般来说通过按使用量收费的业务模型展开采访,所以任何升级或降级都意味著只需变更您的缴纳计划。这种灵活性与无法动态改动的遗留系统构成了对比。
数据湖可以很更容易地加到或拆分数据。就看起来现实中的湖泊,它可以由多条河流汇聚,并且可以随时加到新的河流,而会阻碍之前的设置。
与此同时,遗留系统就像一个装水设施,任何转变都必须更好的瓶子、更好的标签和重新安排时间。局限尽管数据湖有很多优势,但也并不是万无一失的解决方案,也意味著不是万能药。
数据湖仅次于的风险在于,它们可能会变为数据沼泽,数据可能会被毫无意义地弃置。所有留存的数据流都应当与项目中的kpi和业务目标结合。防止信息中断的一种方法是创立可视化仪表板,通过仪表板,数据可以被准确表明,即使不是数据库学家也可以解读数据。
本文关键词:选择,数据湖,架构,的,大,理由,【,爱,游戏,爱游戏体育在线
本文来源:爱游戏体育在线-www.gulfcoastjuicers.com