浅析数据挖掘中的分类算法
2015年7月23日 17:22 作者:何峡峰 湖北三峡职业技术学院 44300何峡峰 湖北三峡职业技术学院 443000
【文章摘要】
分类算法在数据挖掘中的应用,可以避免出现传统数据挖掘弊端,同时提高挖掘数据的应用有效性。本文结合具体实例,分析数据挖掘中的分裂算法。
【关键词】
数据挖掘;分类算法;应用
针对数据挖掘中,应用分类算法,可以解决数据量大、计算复杂性高问题,提升数据挖掘的速率。可以在数据挖掘织中,引入分类算法内容,并可以结合实际的数据挖掘情况,再去选择合适的分类算法,有效分析数据信息,使数据挖掘工作更加实用性,以下本篇对此做具体分析。
1 数据挖掘中的不同分类算法
1.1 分类训练算法
针对分类算法中,分类训练算法就是针对训练样本多的样本,其中大多为非支持数据信息, 占用了计算和内存上的大量资源, 在每次的优化过程中, 通过迭代方式排除非支持数据信息,只保留当前支持数据信息, 节省计算时间与内存空间。数据挖掘中,采用分类算法,可以随机选择较少样本作初始样本集,在问题求解后从结果内去掉非支持数据信息, 再根据训练结果对剩余样本数据进行检验, 然后再将不符合优化条件的一部分样本与数据合并,使其成为新的训练样本集, 重新训练, 直到获得最优训练结果。
1.2 分类决策算法
分类决策算法中,应用决策树作为预测模型,决策树代表的是对象属性同对象值间映射关系。决策树中每个节点表示某个对象,而决策树每个分叉路径,则代表决策树中的某个可能属性值,而决策树中的每个叶结点,则对应从决策树根节点到该叶节点中,所有经历的路径对象值。在决策树中不仅有单一输出,还包含有复数输出,可以建立独立决策树,这样就可以处理不同输出。
1.3 SLIQ 分类算法
SLIQ 分类算法对分类决策树算法进行改进,采用“预排序”、“广度优先”两种技术。可以在决策树的每个结点上,都对数据集进行排序,并且为需要进行训练集的数据,在每个的属性上创建出一个属性列表,给每个元组类别上创建类别列表,利用数据库保存类别列表,有效提升算法计算速度。
2 分类算法在数据挖掘中的应用实例分析
2.1 应用分类算法实例一
应用分类算法可以挖掘出有用的煤矿瓦斯控制信息,对改善企业的发展进度
图1 分类决策树221
应用技术
Application Technology
电子制作
产生积极影响。首先可以先建立决策树, 然后再根据在瓦斯监测中的数据特点, 将状态维作为本次的分类类别。取正常状态维是P 类( 正例) , 报警状态维是Q 类( 反例) ,然后建立相应的决策树进行数据挖掘。如下图1 中所示:
在本次所建立的决策树中,包括甲烷传感器、传感器以及风速传感器,对每个维成员的数据信息进行增益率计算, 将传感器最大信息增益率维当做一个决策属性的节点, 在通过为属性的取值来建立本节点的分支。要求分类面能将两类样本点分开,并且保证两分类空隙最大。对于其d 维空间中的线性判别函数,若是一般形式为,则分类面方程就是,然后在将判别函数进行归一化,确保两类样本满足,分类面样本都正确分类
。
两类样本的分类空隙间隔大小为:
最优分类面表示成约束优化问题,求函数最小值
可以定义函数Lagrange :
基于决策树的数据挖掘里面瓦斯浓度维,计算出信息的增益率, 以此来作为决策树中的根结点,提高数据挖掘的效益。
2.2 应用分类算法实例二
针对校园教学系统,对其数据进行数据挖掘,应用分类算法进行数据挖掘,首先,就是应该确定出需要解决的一些目标问题,并设置数据挖掘模型。对于其数据挖掘步骤如下图2 所示:
分类是已知一共有多少类, 并明确知道该类的特点, 然后把未知的按一定规则分到某一个类中;分类可以多可以少, 当然数据量大才能很好地说明分类算法的优异. 但实际上分类算法在确定某些规则后, 你可以只有一个未知的数据也可以把它分到某一个类别当中。
class CAdodc : public CWnd
{protected: DECLARE_DYNCREATE ( CAdodc)
public: CLSID const& GetClsid()
{
s t a t i c C L S I D c o n s t c l s i d = { 0x67397aa3, 0x7fb1, 0x11d0, { 0xb1, 0x48, 0x0, 0xa0, 0xc9, 0x22, 0xe8, 0x20 }
};
return clsid;
}
virtual BOOL Create( LPCTSTR lpsz ClassName,
L P C T S T R l p s z WindowName, DWORD dwStyle,
const RECT& rect,
CWnd* pParentWnd, UINT nID,
C C r e a t e C o n t e x t * pContext = NULL)
{ return Create Control ( GetClsid(), lpszWindowName,
dwStyle, rect, pParentWnd, nID); }
BOOL Create (
LPCTSTR lpsz WindowName, DWORD dwStyle,
const RECT& rect,
CWnd* pParentWnd, UINT nID,
CFile* pPersist = NULL,
BOOL bStorage = FALSE,
B S T R b s t r L i c K e y = NULL)
{ return CreateControl( GetClsid(), lpsz Window Name, dwStyle, rect, p Parent Wnd, nID,
p P e r s i s t , b S t o r a g e , bstrLicKey); }
在分类算法中,还可以可以应用模糊分类的方法,对U 之中国的单因素Ui(i=1,2,…,m),可以对其进行单因素的评价,然后可以根据因素ui 来确定处事物的评价等级,计算出vj(j=1,2,…,n) 隶属度,可以得到ri=(ril,ri2,…,rin) 向量,从而得到评价矩阵:
R 作为因素集U 以及评价集V 的模糊关系,可以用(ui,vj)=rij 来表示因素u。还可以进行模糊变换实现综合评价:
= A × = ( a 1 , a 2 , a 3 , … ,an)× = (bi1,bi2,bi3,bi4)
其中,bik= (aij ∧ rijk) (i=1,2,3 ; k=1,2,3,4)
3 结语
综上所述,针对数据挖掘中,应用分类算法,不仅可以提升数据挖掘中算法运行效率,还可以在数据挖掘中动态调用不同分类算法,使数据挖掘工作可以在稳定、高效环境中进行,对数据进行分类,大大提高数据挖掘中算法的性能与效率,发挥实际应用价值。
【参考文献】
[1] 甘杨兰, 赵梅, 牛森等. 基于云仿真环境数据挖掘的服务分类方法[J]. 计算机仿真,2014,31(10):460- 465.
[2] 李学明, 杨阳, 秦东霞等. 基于频繁闭项集的新关联分类算法ACCF[J]. 电子科技大学学报,2012,41(1):104-109.
[3] 覃梅. 数据挖掘分类算法在信用卡风险管理中的应用[J]. 现代计算机(专业版),2013,(13):13-16.
图2 数据挖掘的流程图222
应用技术
Application Technology