账号通
    

账号  

密码  

1450

查看

0

回复
主题:搜索引擎在网络信息挖掘中的应用 [收藏主题]  
dxaapap1 当前离线

44

主题

0

广播

0

粉丝
添加关注
级别:学前班

用户积分:71 分
登录次数:15 次
注册时间:2010/11/13
最后登录:2011/7/25
dxaapap1 发表于:2011/7/16 11:11:43   | 只看该作者 查看该作者主题 楼主 
科汛在线商城系统(NET)

    随着网络信息资源的急剧增长,人们越来越多地关注如何快速有效地从海量的网络信息中,抽取出潜在的、有价值的信息,使之有效地在管理和决策中发挥作用。搜索引擎技术解决了用户检索网络信息的困难,目前搜索引擎技术正成为计算机科学界和信息产业界争相研究、开发的对象。本文旨在探讨搜索引擎技术在网络信息挖掘方面的应用。一、数据挖掘的研究现状讨论网络信息挖掘,首先要从传统的数据挖掘谈起。

1、什么是数据挖掘根据W.J.Frawley和G.P.Shapiro等人的定义,数据挖掘是指从大型数据库的数据中提取人们感兴趣的知识,而这些知识是隐含的、事先未知的、潜在的有用信息。原始数据可以是结构化的,如关系型数据库中的数据;也可以是半结构化的,如文本、图形、图像数据;甚至是分布在网络上的异构型数据。数据挖掘的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。挖掘出来的信息可以被用于信息管理、决策支持、过程控制等,还可用于数据自身的维护。因此,数据挖掘是一门广义的交叉学科,它汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。

2、数据挖掘的研究现状目前,国外在数据挖掘方面的发展趋势及研究主要有:对知识发现方法的进一步研究,如近年来注重对Bayes(贝叶斯)方法以及Boosting方法的研究和提高;统计学回归法在KDD中的应用;KDD与数据库的紧密结合;对网络信息挖掘方法的研究等。国外很多计算机公司非常重视数据挖掘的开发应用,IBM和微软都成立了相应的研究中心,一些公司的相关软件也开始在国内销售,如Platinum、BO以及IBM。国内从事数据挖掘研究的人员主要在大学,也有部分在研究所或公司。所涉及的研究领域很多,一般集中于学习算法的研究、数据挖掘的实际应用以及有关数据挖掘理论方面的研究。目前进行的大多数研究项目是由政府资助进行的,如国家自然科学基金、863计划、"九五"计划等。可以看出,数据挖掘的研究和应用受到了学术界、实业界和政府部门的越来越多的重视。

3、数据挖掘的分类及其工具 1)、根据数据挖掘的应用类型不同,大致可分为以下几类。①分类模型。其主要功能是根据商业数据的属性将数据分派到不同的组中,通过分析分组中数据的各种属性,找出数据的属性模型。②关联模型。主要是描述了一组数据项目的密切度或关系,通过挖掘数据派生关联规则,了解客户的行为。③顺序模型。主要用于分析数据仓库中的某类与时间相关的数据,并发现某一时间段内数据的相关处理模型。它是一种在关联模型中增加了时间属性的特定的关联模型。④聚簇模型。主要用于当要分析的数据缺乏描述信息或无法组织成任何分类模式时,按照某种相近程度度量方法将用户数据分成互不相同的一些分组。进而,通过采用聚簇模型,根据部分数据发现规律,找出对全体数据的描述。 2)、数据挖掘采用的典型方法及工具针对上述应用类型,数据挖掘领域提出了多种实现方式与算法。这里仅讨论几种常见的典型的实现方法。①神经网络。它建立在可以自学习的数学模型的基础之上,可以对大量复杂的数据进行分析,并完成极为复杂的模式抽取及趋势分析。神经网络对分类模型比较适合,但得出结论的因素并不十分明显,其输出结果也没有任何解释,影响结果的可信度及可接受程度;其次,它需要较长的学习时间,因此当数据量很大时,性能可能会出现问题。②决策树。是通过一系列规则对数据进行分类。采用决策树,可以将数据规则可视化,其输出结果也容易理解。论文代写决策树方法精确度比较高,构造过程简单,因此比较常用。其缺点是很难基于多个变量组合发现规则;不同决策树分支之间的分裂也不平滑。③联机分析处理(OLAP)。主要通过***的方式对用户当前及历史数据进行分析、查询和报表,辅助领导决策。④数据可视化。数据仓库中包含大量的数据,充实着各种数据模型,将如此大量的数据可视化需要复杂的数据可视化工具。

 
  支持(0) | 反对(0) 回到顶部顶端 回到底部底部
<上一主题 | 下一主题 >
Powered By KesionCMS Version X1
厦门科汛软件有限公司 © 2006-2016 页面执行0.09180秒 powered by KesionCMS 9.0