与展示企业历史和现有信息的静态、动态报表及查询等分析方法不同,数据挖掘是从数据库中智能地寻找模型,从海量数据中归纳出有用信息。可以说通过商业智能系统,企业获得洞察力的主要手段就是数据挖掘。
数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
数据挖掘技术可分为描述型数据挖掘和预测型数据挖掘两种。描述型数据挖掘包括数据总结、聚类及关联分析等。预测型数据挖掘包括分类、回归及时间序列分析等。
1、数据总结:继承于数据分析中的统计分析。数据总结目的是对数据进行浓缩,给出它的紧凑描述。传统统计方法如求和值、平均值、方差值等都是有效方法。另外还可以用直方图、饼状图等图形方式表示这些值。广义上讲,多维分析也可以归入这一类。
2、聚类:是把整个数据库分成不同的群组。它的目的是使群与群之间差别很明显,而同一个群之间的数据尽量相似。这种方法通常用于客户细分。在开始细分之前不知道要把用户分成几类,因此通过聚类分析可以找出客户特性相似的群体,如客户消费特性相似或年龄特性相似等。在此基础上可以制定一些针对不同客户群体的营销方案。
3、关联分析:是寻找数据库中值的相关性。两种常用的技术是关联规则和序列模式。关联规则是寻找在同一个事件中出现的不同项的相关性;序列模式与此类似,寻找的是事件之间时间上的相关性,如对股票涨跌的分析等。
4、分类:目的是构造一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个。要构造分类器,需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成,每个元组是一个由有关字段(又称属性或特征)值组成的特征向量,此外,训练样本还有一个类别标记。一个具体样本的形式可表示为:( v1, v2, ...,vn;c ),其中vi表示字段值,c表示类别。
5、回归:是通过具有已知值的变量来预测其它变量的值。一般情况下,回归采用的是线性回归、非线性回归这样的标准统计技术。一般同一个模型既可用于回归也可用于分类。常见的算法有逻辑回归、决策树、神经网络等。
6、时间序列:时间序列是用变量过去的值来预测未来的值。
数据挖掘另一个重要方面是与之相关的方法论。一般的事务处理系统甚至一些只提供报表分析功能的简单商业智能系统,建成以后只需要少量的工程维护工作,而采用数据挖掘技术的商业智能系统往往有很大不同。因为数据挖掘是一个商业理解、数据理解、建模、评估等一系列多次反复、多次调整的过程,并且模型的应用也不是一成不变的,在适当的时候需要更新和重建。所以一般的商业智能项目并不追求一次性工程建设,更倡导的是一种与企业业务紧密联系能够提升企业竞争力的咨询服务,而且熟悉业务和分析方法的分析人员在商业智能系统的应用中起着至关重要的作用。从这一点也能看出为什么说BI是企业MIS之后更高层次、更具战略意义的应用。
诚然,对于数据挖掘或者商业智能也应有一个客观的认识。从广义上,数据挖掘是在传统数据分析方法基础上,融合了数据库、人工智能等多方面技术形成的知识发现技术。它对企业的信息分析必然产生积极的效果,对企业经营决策的辅助作用也是显而易见。但是数据挖掘只是一些技术和方法,并非万能,而商业智能系统更多的是为企业提供一个经营分析的环境和一些分析工具。如何切合企业经营实际,从海量的经营数据中挖掘出有助于企业市场竞争的知识,商业智能系统本身体现并不多。因此,企业洞察力的真正来源是商业智能系统以及数据挖掘技术的成功应用和实践。

