什么是数据挖掘?
数据挖掘是一个统称,用于描述研究和分析大量数据以识别其中的模式和规则的多种方法。数据挖掘被认为是数据科学领域中的一门独特学科。如果我们谈论该领域知识的广泛使用和发展,公司最常使用数据挖掘从数据中提取有用的信息。通过使用软件解决方案在大量数据中查找模式,公司可以研究消费者的行为和习惯,以开发更有效的营销解决方案、增加销售额并降低成本。此外,数据挖掘技术还用于构建机器学习(ML)模型,这些模型用于现代人工智能应用,例如搜索引擎算法和推荐系统。 “你可以拥有数据,但不能拥有信息,但没有数据就没有信息。” Daniel Keys Moran,编程专家和作家。数据挖掘与大数据有何不同?
立即澄清数据挖掘作为一个概念与大数据有何不同也将很有用(顺便说一句,我们有一篇关于在大数据领域使用 Java 的单独文章)。简而言之,大数据一词是指各种类型的大量数据的各个方面,包括结构化和非结构化数据及其收集、存储、分类等。而数据挖掘仅指深入研究数据,从任何大小(无论大小)的数据中提取关键见解、模式和相似性以及其他信息。因此,这两个概念都与数据相关并且通常重叠,但数据挖掘是关于将收集的信息用于特定目的。 “如果没有深入的数据分析,公司就看不到也听不到任何东西;在网上,他们就像一只跑上高速公路的鹿一样无助和困惑。” 杰弗里·摩尔,作家和管理理论家。应用领域 数据挖掘
如您所知,深入数据分析的应用非常广泛。让我们快速浏览一下最常使用它的行业和活动领域。-
营销和瞄准零售业的目标消费群体。
与其他方法相比,零售商更经常使用数据挖掘来更好地了解客户的需求。数据分析使他们能够更准确地将消费者分为不同的群体,并为他们量身定制促销活动。
例如,杂货超市经常向顾客提供会员卡,这可以提供其他人无法享受的折扣。在此类卡的帮助下,零售商可以收集特定消费者群体的购买数据。通过对这些数据进行深入分析,您可以研究他们的习惯和偏好,并根据这些信息调整品种和促销活动。
-
银行信用风险和信用记录的管理。
银行正在开发和实施数据挖掘模型来预测借款人获取和偿还贷款的能力。这些模型利用借款人的各种人口统计和个人数据,根据每个客户的风险水平自动确定利率。
-
检测和打击金融欺诈。
金融组织使用数据挖掘来检测和防止欺诈交易。这种形式的分析适用于所有交易,而消费者往往甚至没有意识到这一点。例如,跟踪银行客户的常规支出可以自动识别可疑付款并立即延迟执行,直到用户确认购买。因此,数据挖掘用于保护消费者免受各种类型的诈骗者的侵害。
-
社会学中的情感分析。
社交媒体数据的情感分析也是数据挖掘的常见应用,使用一种称为文本挖掘的技术。它可以用来深入了解特定人群对特定主题的感受。这是通过对社交网络或其他公共来源的数据进行自动分析来完成的。
-
医疗保健中的生物信息。
在医学中,数据挖掘模型用于根据风险因素预测患者患各种疾病的可能性。为此,需要收集并分析人口统计、家族和遗传数据。在人口众多的发展中国家,这种模式最近开始实施,在医生到达和面对面检查之前诊断患者并优先提供医疗服务。
数据挖掘和Java
您一定已经从上下文中了解到,在数据挖掘领域,就像大数据的其他领域一样,Java 是主要的编程语言之一。因此,我们将对 Java 数据挖掘的主要工具做一个简短的概述。- 快速矿工
RapidMiner 是一个用 Java 编写的开放式数据挖掘平台。可用的最佳预测分析解决方案之一,能够为深度学习、文本挖掘和机器学习创建集成环境。许多组织使用它进行深入的数据分析。RapidMiner 既可以在本地服务器上使用,也可以在云端使用。
-
Apache Mahout 是 Apache 的开源 Java 机器学习库。Mahout 正是一种可扩展的机器学习工具,能够在一台或多台机器上处理数据。该机器学习的实现是用 Java 编写的,部分部分是基于 Apache Hadoop 构建的。
-
MicroStrategy 是一个商业智能和数据分析软件平台,支持所有数据挖掘模型。得益于广泛的专有网关和驱动程序,该平台可以连接到任何公司资源并分析其数据。MicroStrategy 擅长将复杂数据转换为可用于多种目的的简化可视化效果。
-
Java Data Mining Package 是一个用于数据挖掘和机器学习的开源 Java 库。它有助于访问数据源和机器学习算法,并提供可视化模块。JDMP 包括许多算法和工具,以及与其他机器学习和数据挖掘包(例如 LibLinear、Elasticsearch、LibSVM、Mallet、Lucene、Octave 等)的接口。
-
怀卡托知识分析环境 (WEKA) 机器学习套件是用于开发机器学习方法的开放算法列表。所有 WEKA 算法都是为机器学习和数据挖掘量身定制的。WEKA机器学习套件现已广泛应用于商业环境中,为企业提供简化的数据分析和预测分析。
数据是如何挖掘的
普遍接受的数据挖掘过程由六个步骤组成。-
定义业务目标。
首先,您需要制定项目的总体业务目标并了解数据挖掘将如何帮助实现这些目标。在此阶段,应制定一项计划,其中包括时间表、行动和角色分配。
-
了解数据。
在第二阶段,从各种来源收集必要的数据。可视化工具通常用于检查数据的属性,以确保它有助于实现业务目标。在这个阶段和下一阶段,最常使用Java工具,因此需要Java程序员的资格。
-
数据建模。
在此阶段,将对数据应用特殊工具和数学模型,从而可以找到其中的模式。
- 年级。
然后对结果进行评估并与业务目标进行比较,以确定数据是否可以实现这些目标。
-
部署。
那么,在最后阶段,通过上述步骤获得的数据将被集成到业务运营中。各种商业智能平台经常被用作实现所获得的信息的工具。
数据准备。
然后对数据进行清理和扩充,以确保阵列准备好进行挖掘。根据分析的数据量和数据源的数量,处理可能需要大量时间。因此,采用现代数据库管理系统(DBMS)进行处理,加快了深入分析的过程。
GO TO FULL VERSION