数据湖,数据仓库和大数据:有什么区别?_昆山满座网
介绍
许多负责领先数据项目的高管在通用数据方面面临困惑。大数据,数据湖,数据仓库和数据集市之间有什么区别?大数据何时“足够大”?为什么这么重要?
相关推荐:探索将双语运输IT服务外包的收益和风险
在本文中,我们将分解不同术语之间的区别,以便您可以在任何与数据相关的会议,项目简介或员工倡议中听起来更加聪明。
首先,什么是数据?
本质上,数据是定量和定性信息的存储。在您的企业中,这可能是有关以下信息:
您的内部员工
您的客户
您的内部流程
您的财务数据
服务台票号
更重要的是,不可能在一个文档中列出所有维度和指标。您的数据分布在组织内外的许多系统,数据库和组中。
您的数据也处于相关性,准确性,及时性和可访问性的各种状态。其中一些与其他数据保持一致,而另一些则没有。
如果您的组织像超过95%的公司一样,那么您将面临许多非结构化和肮脏的数据。这种状态通常被我们称为“数据湖”。
什么是数据湖?
数据湖是收集数据并处于自然状态的地方。这可能意味着数据是非结构化的,不清楚的或无法在管道中使用。数据湖始终存储您拥有的所有数据,包括数十年的历史数据。
存储数据湖通常很便宜,而且大多不受管理。
数据什么时候成为“大数据”?
经常使用的另一个术语是大数据,这是有充分理由的。由于数据存储的可用性,存储的可承受性以及每天生成数据的系统和设备的数量,大数据正在成为一种日益增长的现象。
大数据按照通用定义是“包含更多种类的数据,它们以越来越大的数量和越来越快的速度到达。”
您的数据是您最大的资产,也是您最大的风险……但是,只有当您真正理解它时,它才有用。
这就是为什么数据集市如此有用。
什么是数据集市?
数据集市是数据仓库中以主题为中心的部分,可以回答特定问题,通常是有关特定业务领域或关键业务问题的问题。更好的是,数据中心被设计为能够按需回答问题并使数据值得信赖,这与数据湖不同,后者可能是肮脏且没有结构的。
数据仓库通常是许多不同数据市场的组合。
什么是数据仓库?
根据Wikipedia所述,数据仓库是“……来自一个或多个不同来源的集成数据的中央存储库。它们存储当前和历史数据,并用于为高级管理人员报告创建趋势报告,例如年度和季度比较。”
与数据湖不同,数据仓库是结构化数据的有意来源。此外,它是一个由多个来源组成的单一存储库,其中许多本身就是数据湖。
我们的仪表板服务建立在开发健壮的数据仓库和管道的基础上,因此您的团队可以轻松地查看,分析和可视化您的数据。
如何确定下一步
在大多数情况下,从数据湖到数据仓库或数据中心的迁移涉及许多数据工程活动,例如数据清理,ETL流程和数据管道。
在决定雇用某人进行下一个数据项目之前,了解您现在的位置非常重要。
以下是一些要问您的团队的问题:
我们的数据有多孤立?
我们的数据有多干净?
我们是否有足够大的数据集可用于该计划?
我们有明确的用例吗?
我们的内部团队现在可以处理项目的哪些部分?
我们正在寻找什么样的投资回报率?
我们是否比其他地方更急切需要知道哪个领域?
在尝试ML之前,我们真的只需要可视化吗?
如果您希望专家帮助您确定从哪里开始以及在数据,劳动力,工具和预算方面需要什么,我们可以为您提供帮助。我们的许多项目都涉及与数据相关的计划,