自从《纽约时报》发表有关沃尔玛如何利用大数据分析来最大化其销售额的文章以来,人们就对大数据充满了狂热。这家零售商发现飓风期间流行的糖果品牌Pop-Tarts的销量激增,并利用这些知识来增加利润。
不管是个人保存数据以进行实时访问,还是企业在节省前期成本的同时保持防灾IT运营,如今,每个人都在期待新的发展。进入云计算,这是一种现代的计算方法,因此一切都在云端中。
在互联网泡沫破灭之后,信息技术领域正获得不可思议的势头。从这种势头中涌现出云计算和大数据分析这两个最热门的趋势,它们对人类生活的各个层面产生了前所未有的影响。在本文中,我们将研究当今技术生态系统的这些趋势,并尝试在云计算和大数据分析之间进行比较。
云计算和大数据分析之间的主要区别
云计算用于通过网络提供计算机资源和/或服务,而大数据用于解决在涉及大量数据且传统方法不可行时面临的问题。
大数据的工作原理是将巨大的数据集分解为可管理的“块”,并将这些块分布在不同的计算机系统上。在云计算中,信息存储在由服务提供商维护和控制的物理服务器上。用户可以通过互联网访问这些资源。
可以在云上部署通过PaaS或SaaS服务的大数据解决方案。在PaaS中,Hadoop平台提供给消费者,而在SaaS中,可以访问在Hadoop上运行的各种组件或应用程序。实际上,大数据与云计算的结合正变得越来越流行,以至于我们在IT中有了一个新的流行语:BDaaS(大数据即服务)。
大数据利用了组织先前所忽略的数据,并提供了可推动其业务发展的宝贵见解,而云计算则为可简化组织运营的IT部署提供了灵活性和速度。
是什么? 计算范式 极大的数据集
焦点 提供对服务的普遍访问 解决处理庞大数据集的技术问题
最好的描述 云计算是关于通过网络(主要是Internet)提供服务。服务可以是软件,平台或IT基础架构。 3个V –速度,体积和种类
要使您的数据合格为“大数据”,应使用上述V之一或全部来说明感兴趣的数据集。
什么时候去? 当您需要快速部署或扩展IT应用程序或基础架构同时保持集中式访问时,您可以考虑迁移到云。在内部维护IT运营需要与您的业务有所不同,借助云计算,您的重点仍然放在业务上。 当传统方法和框架在处理海量数据时效率低下时,大数据工程便会发挥作用。当我们分析PB的数据时,需要一个分布式框架以及并行计算。
什么时候不动? 相反,在某些情况下,您可能不想迁移到云。如果您的应用程序处理高度敏感的数据并且需要严格的合规性,或者您的应用程序不遵循云体系结构,则应将事情放在云之外。此外,迁移到云等同于失去对硬件的控制。 大数据解决方案可解决与大型数据集有关的非常具体的问题陈述,而大多数大数据解决方案并非旨在处理小数据。大数据不能代替关系数据库系统。
好处 低维护成本,防灾实施,集中式平台,零前期成本 高可扩展性(永远扩展),具有成本效益,并行性,强大的生态系统
推广者 当Amazon在2006年发布EC2(弹性计算云)产品时,“云计算”一词开始盛行。 当Mike Cafarella和Doug Cutting在2005年在雅虎发布“ Hadoop”项目时,“大数据”开始成为主流。
共同作用 1.云资源管理员:管理云
的个人或组织。
2.云服务提供商:
以应用程序,资源或基础架构形式提供服务的云平台的所有者。
3.云消费者:云
的“用户”,他们可以是组织中的开发人员或办公室工作人员。
4.云服务经纪人:
消费者和服务提供商之间的中间人。他们提供中间服务。
- Cloud Auditor:
就安全性或潜在漏洞向消费者咨询的人 1.大数据开发人员:
他们编写程序来提取,处理或清除数据。他们还建立了调度和增量捕获机制。
2.大数据管理员:
他们设置服务器,安装软件以及管理器的物理或逻辑资源。
3.大数据分析师:
他们负责分析数据,寻找有趣的见解和可能的未来趋势。
4.数据科学家:
基本上,是一位具有编码技能和统计学的分析师。该人员参与了大数据系统的数据挖掘,预测建模和可视化。
5.大数据架构师:
负责端到端解决方案部署的人。
流行语 IaaS:当服务提供商向消费者提供诸如内存,磁盘,服务器和网络之类的物理资源时,基础架构即服务便会发生。客户可以随意使用这些服务,并在它们之上安装应用程序。
PaaS:平台可以是操作系统,RDBMS系统,服务器或编程环境。所有这些平台均以平台即服务的形式提供。
SaaS:在“软件即服务”范例中,消费者直接使用应用程序或软件,而不必担心基础平台或基础架构。 Hadoop: Hadoop本身是一个时髦的词。它是由各种组件组成的生态系统,这些组件执行特定的任务并集成在一起以实现大数据解决方案。道格·切特(Doug Cutting)以儿子的玩具大象命名他的项目为“ Hadoop”。
HDFS(Hadoop分布式文件系统):提供高吞吐量访问的文件系统。它是一个基于Java的文件系统,分布在多台计算机上。
MapReduce:用于编写大规模并行应用程序的框架,该应用程序处理HDFS中存储的大量数据。在基本级别上,MapReduce执行两个操作:将数据转换为键值对的Map和将数据聚合的Reduce。
供应商/解决方案提供商 谷歌,亚马逊,微软,IBM,戴尔,苹果 Cloudera,MapR,HortonWorks,Apache
热门解决方案/示例 IaaS:Google Compute Engine,Amazon Web Services,Microsoft Azure。
PaaS:Windows Azure,AWS Elastic Beanstalk,Google App Engine,Apache Stratos。
SaaS:Google文档,Microsoft Office 365 Hadoop是最受欢迎的大数据解决方案,并受到Google文件系统(GFS)和MapReduce论文的启发。一个Hadoop生态系统典型地作为组分的多种作用,例如Ambari集群管理,Sqoop用于数据提取,蜂房数据仓库和Oozie的用于调度。