什么是大数据?
对于“大数据”一词,我们有许多相对假设。对于初创公司来说,可能有50 TB的数据量被认为是大数据,但对于Google和Facebook这样的公司而言,可能不是大数据。这是因为它们具有存储和处理这些数据量的基础结构。我想将术语“大数据”定义为:
大数据是指技术无法有效存储,管理和处理的数据量。
大数据是指其规模,多样性和复杂性需要新的体系结构,技术,算法和分析来管理它并从中提取价值和隐藏知识的数据。
大数据是高容量,高速度和多样化的信息资产,它们需要具有成本效益的,创新的信息处理形式,以增强洞察力,决策和流程自动化。
大数据是指技术和计划所涉及的数据过于多样化,快速变化或海量,以至于传统技术,技能和基础架构无法有效地解决。换句话说,数据的数量,速度或种类太大。
3V的大数据
数量:数量是指每小时创建数据的数量/数量,沃尔玛客户的交易为公司提供了约2.5 PB的数据。
速度:速度是指数据移动的速度,就像Facebook用户平均每天在互联网上每分钟发送3125万条消息并观看277万个视频一样。
种类:种类是指创建的不同数据格式,例如结构化,半结构化和非结构化数据。在Gmail上发送带有附件的电子邮件是非结构化数据,而通过一些外部链接发布任何评论也称为非结构化数据。共享图片,音频片段,视频片段是一种非结构化的数据形式。
存储和处理如此庞大的数据量,速度和各种数据是一个大问题。除了大数据的RDBMS之外,我们还需要考虑其他技术。这是因为RDBMS只能存储和处理结构化数据。因此,这里提供了Apache Hadoop的帮助。
什么是Apache Hadoop?
Apache Hadoop是一个开放源代码软件框架,用于在商用硬件集群上存储数据和运行应用程序。Apache Hadoop是一个软件框架,它允许使用简单的编程模型在计算机集群之间分布式处理大型数据集。它旨在从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。Apache Hadoop是一个用于存储和处理大数据的框架。Apache Hadoop能够存储和处理所有格式的数据,例如结构化,半结构化和非结构化数据。Apache Hadoop是开源的,商用硬件给IT行业带来了革命。每个级别的公司都可以轻松访问它。他们不需要投入更多的钱就可以在不同的基础架构上建立Hadoop集群。
Apache Hadoop框架
Apache Hadoop框架分为两个部分:
Hadoop分布式文件系统(HDFS):该层负责存储数据。
MapReduce:该层负责处理Hadoop集群上的数据。
Hadoop框架分为主架构和从架构。Hadoop分布式文件系统(HDFS)层名称节点是主组件,而数据节点是从属组件,而在MapReduce层中,作业跟踪器是主组件,而任务跟踪器是从属组件。下面是Apache Hadoop框架的图。
为什么Apache Hadoop很重要?
能够快速存储和处理任何类型的数据
计算能力: Hadoop的分布式计算模型可快速处理大数据。您使用的计算节点越多,您拥有的处理能力就越大。
容错能力:数据和应用程序处理受到保护,以防硬件故障。如果某个节点发生故障,作业将自动重定向到其他节点,以确保分布式计算不会失败。所有数据的多个副本将自动存储。
灵活性:您可以存储任意数量的数据,并决定以后如何使用它。其中包括非结构化数据,例如文本,图像和视频。
低成本:开源框架是免费的,并使用商品硬件存储大量数据。
可扩展性:您只需添加节点即可轻松扩展系统以处理更多数据。几乎不需要管理。
大数据是一个问题,而Apache Hadoop是一个解决方案。由于所有部门的数据量都呈指数增长,因此很难存储和处理来自单个系统的数据。因此,要处理大量数据,我们需要分布式处理和存储数据。因此,Apache Hadoop提出了存储和处理大量数据的解决方案。大数据是大量的复杂数据,而Apache Hadoop是一种非常高效,平稳地存储和处理大数据的机制。