大数据是指可以结构化,半结构化和非结构化的海量数据。它包含5 Vs,即

容量:指的是大数据时的数据量或数据大小,以百万分之五为单位。
种类:它指的是不同类型的数据,例如社交媒体,Web服务器日志等。
速度:指的是数据增长的速度,数据的增长速度和速度。
准确性:它是指数据的不确定性,例如社交媒体意味着是否可以信任数据。
价值:它是指我们正在存储和处理的数据值得,以及我们如何从海量数据中受益。

可以对大数据进行分析,以获得有助于制定更好决策和战略业务举措的见解。

什么是大数据?
通常,等于或大于1 Tb的数据称为大数据。分析人士预测,到2020年,全球每个人将拥有5200 Gbs的数据。

示例:人们平均每天花费约5000万条推文,沃尔玛每小时处理100万条客户交易。

大数据为何重要?

大数据的重要性并不意味着我们拥有多少数据,而是您将从这些数据中得到什么。我们可以分析数据以减少成本和时间,做出明智的决策等。

挑战:

有效地存储如此大量的数据。
在给定的时间范围内,我们如何处理并从大量数据中提取有价值的信息?
解决方案: Hadoop和Spark框架

什么是数据挖掘(KDD)?
数据挖掘也称为数据知识发现,是指从大量数据(即大数据)中提取知识。它主要用于统计,机器学习和人工智能。这是“数据库中的知识发现”的步骤。
企业和政府共享他们收集的信息,以进行交叉引用,以查找有关数据库中所跟踪人员的更多信息。

数据挖掘的组件主要包括5个级别,它们是:

提取,转换数据并将其加载到仓库中
存储和管理
提供数据访问(通信)
分析(过程)
用户界面(向用户显示数据)

数据挖掘需求

分析存储的交易数据中的关系和模式以获取信息,这将有助于做出更好的业务决策。

数据挖掘可通过检查用户过去的交易,检查客户关系(例如哪些客户是忠诚的客户以及哪些客户会离开其他公司)来帮助信用评级,目标市场营销,欺诈检测(例如哪种交易类型是欺诈)。

我们可以使用数据挖掘建立4种关系:
类:用于定位目标
集群:它将数据项分组为逻辑关系
关联:数据之间的关系
顺序模式:预测行为模式和趋势。

数据挖掘中的挑战

在数据库中挖掘不同类型的知识
处理噪音和不完整的数据
数据挖掘算法的效率和扩展
处理关系和复杂类型的数据
保护数据安全性,完整性和私密性

**大数据和数据挖掘是两个不同的概念,大数据是指大量数据的术语,而数据挖掘是指深入驱动数据以从少量或大量数据中提取关键知识/模式/信息。

数据挖掘的主要概念是深入分析可以在人工智能,预测分析等中进一步使用的数据模式和关系。但是大数据的主要概念是数据的来源,种类,数量以及如何存储和处理此数据量。
对大数据进行分析以提供业务解决方案或进行业务定义对于确定增长至关重要。

我们可以说数据挖掘不必依赖于大数据,因为它可以依赖于少量或大量数据,但是大数据肯定依赖于数据挖掘,因为如果我们无法找到大量数据的价值/重要性,数据,那么该数据就没有用了。**