022 贝叶斯理论在智能搜索中的应用
                    联系方式 Email: lw510@qq.com      QQ: 497053418       MSN: lw510@qq.com
以下仅为该设计的基本说明介绍,若需要完整的设计和论文,建议您购买本设计.
022 贝叶斯理论在智能搜索中的应用样本
(样本只提供该系统的基本情况介绍,若需要完整的设计和论文,建议您购买本系统,凡是购买本站系统的,本站均根据您的要求,把系统上的开发信息,题目等修改成符合您的要求)
 

本设计包含内容:源代码+毕业论文
论文大概:
 
 
 
 
 
本科毕业(设计)论文
题目:           贝叶斯理论在智能搜索中的应用研究     
贝叶斯理论在智能搜索中的应用
摘要 本文通过对贝叶斯理论和智能搜索理论的学习,提出了一个智能搜索引擎的系统框架,并在网页自动分类算法中应用贝叶斯理论,以提高分类效率和准确度。除了系统框架的设计外,实现了其中中文分词和分析网页两个模块的功能。
关键词 贝叶斯 智能搜索 信息检索 文本分类
 
 
 
 
 
 
 
 
 
 
 
 
 
 
The Implementation of Bayes theory in Intelligent Search
Zhang Lin
(Dept. of Computer and Information Science, Southwest ForestryCollege, KunmingYunnan, 650224)
Abstract This article through to shell Bayes theory and the intelligent search theory study, proposed an intelligence search engine system frame, and applies Bayes in the webpage automatic sorting algorithm, enhances the classified efficiency and the accuracy. Besides the system frame design, has realized Chinese participle and the analysis webpage two modules functions.
Keywords Bayes;Intelligent Search;Information Search;Text classification
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

目录
1前言 3
2基本理论 4
2.1智能搜索 4
2.1.1传统信息检索的局限: 4
2.1.2“以网对网”——智能检索的解决之道 4
2.1.3Innernet的知识组成: 5
2.1.4基于Innernet信息检索的可行性 7
2.1.5Innernet知识获取 7
2.1.6相关技术总结: 7
2.2贝叶斯(网络) 10
2.2.1贝叶斯网络定理 10
2.2.2贝叶斯网络的拓扑结构 11
2.2.3条件独立性假设 12
2.2.4先验概率的确定和网络推理算法 13
2.3一种HTML 文档的朴素贝叶斯分类算法 13
2.3.1TFE实现算法 13
2.3.2改进的朴素贝叶斯分类算法 14
3应用系统设计 15
3.1系统框架 15
3.2主要模块介绍 15
3.2.1预处理模块 15
3.2.2分类模型选择 16
3.2.3批量训练 17
3.2.4特征选择 17
3.2.5在线测试和重归档 18
3.3已完成的程序设计: 18
3.3.1分词程序 18
3.3.2网页分析 21
4总结,论述 21
参考文献 22
致谢 22
 

 
1 1 前言
在日常生活中,人们往往进行常识推理,而这种推理通常是不准确的。例如,你看见一个头发潮湿的人走进来,你可能会认为外面下雨了,那你也许错了;如果你在公园里看到一男一女带着一个小孩,你可能会认为他们是一家人,你可能也犯了错误。在工程中,我们也同样需要进行科学合理的推理。但是,工程实际中的问题一般都比较复杂,而且存在着许多不确定性因素。这就给准确推理带来了很大的困难。很早以前,不确定性推理就是人工智能的一个重要研究领域。尽管许多人工智能领域的研究人员引入其它非概率原理,但是他们也认为在常识推理的基础上构建和使用概率方法也是可能的。为了提高推理的准确性,人们引入了概率理论。最早由Judea Pearl于1988年提出的贝叶斯网络实质(Bayesian Network)上就是一种基于概率的不确定性推理网络。它是用来表示变量集合连接概率的图形模型,提供了一种表示因果信息的方法。当时主要用于处理人工智能中的不确定性信息。随后它逐步成为了处理不确定性信息技术的主流,并且在计算机智能科学、工业控制、医疗诊断等领域的许多智能化系统中得到了重要的应用。
贝叶斯理论是处理不确定性信息的重要工具。作为一种基于概率的不确定性推理方法,贝叶斯网络在处理不确定信息的智能化系统中已得到了重要的应用,已成功地用于医疗诊断、统计决策、专家系统等领域。这些成功的应用,充分体现了贝叶斯网络技术是一种强有力的不确定性推理方法。
互联网从产生、技术积累到飞速发展的近十年里,给现代社会带来了无法估量的影响,在科研、教育、工业、经济、生活等方方面面发挥了巨大的推动作用。随着互联网网站页面的激增和用户队伍的不断壮大,搜索引擎越来越成为人们上网浏览时的重要工具,以在浩瀚的网站页面的海洋中迅速地找到自己所需的信息。这种市场的需求刺激着搜索引擎的技术不断地走向完善,同时也培育出了几家在国际上享有盛誉的技术公司,诸如Google,Alta Vista,Inktomi,InfoSeek,Yahoo等。他们所提供的搜索引擎都有着一定的特色,代表着这一技术领域的最新动态和最高水平。
在中国,由于中文信息处理的特殊限制,智能技术在中文搜索引擎的应用有待加强。专家认为,网络中文搜索引擎需有一个大的突破和创新,这个创新要建立在下面的两个具体工作上:一,必须对目前中文搜索引擎技术的局限性有非常清晰的认识;二,采用先进的信息检索手段和人工智能,中文自然处理等技术来实现设计思路。
本文通过对贝叶斯理论和搜索引擎技术的学习,提出了一种应用贝叶斯理论实现智能搜索的系统框架,并完成了分词、获取并分析Web页面部分模块的功能。更多模块的具体实施有待于进一步实现。

3 3 应用系统设计
3.1 3.1 系统框架
如图 所示, 整个系统包括如下几个模块, 预处理模块是对整个系统的输入即网页进行处理, 转变成机器能够识别的量化模型, 由于本模块是采用分类学习的一种有指导的学习方法(Supervised Learning) , 因而批量训练在整个系统中有非常重要的意义, 它是学习分类知识,生成分类决策模型。特征选择则是对生成的特征字典空间进行降维, 以提高分类的效率。在线测试则是运用生成的分类知识实现在线分类。重归档是对机器分类错误码的文档进行手工重新分类, 来修改分类模型, 使系统的整体分类性能朝最优方向发展。
 
图5 系统框架
3.2 3.2 主要模块介绍
3.2.1 3.2.1 预处理模块
Internet 网页是以纯文件存在的, 由控制语句和显示内容两部分组成。在网页内容中, 有些信息是对分类没有意义的, 如分段标误解〈P〉、类型标识〈!DOCTYPE〉等。本系统只抽取题头〈TETTLE〉,〈BODY〉标识表达的内容为要处理的内容。完成对网页的结构信息提取后, 此时的网页信息是以自然语言的方式存在的, 需要对提取后的网页信息进行进一步的分词处理, 使之变成机器能够处理的形式。网页中可能存在英文和中文, 其分词方法不一样,其实现过程如下图6所示:
 
图6网页分析流程
经过分词处理后, 网页最终被处理成为一个单词序列流, 使用向量空间模型(VSM ) 来对网页进行量化。网页DK 一般可用如下向量特征表示:
( (W 1, f1) , (W 2, f2) , …… (W n , fn ) ) T
其中W i 和fi ( i=1, ……, n) 分别表示对应的项和该项的特征值(或权重) , 在本系统中项就是分词后的单词, 特征值用该单词在文档中出现的频率来表达。
3.2.2 3.2.2 分类模型选择
本系统采用简单贝叶斯模型作为分类模型。该模型是贝叶斯的一种简化应用, 对于每个网页di 来说, 该方法假定该网页各特征di, j ( j=1, 2, ……, |di| ) 之间是相互独立的, 其计算公式如下:
 (卢军,1999)
由于dij之间相互独立, 上式公式可以转为:
在上式中, P (D= di) 为该网页随机出现的频率,在计算时可以视为一个常数k (k> 0),对
 (卢军,1999)
于计算结果的比较没有影响。通过对训练集D 的学习可以获取P (cK) 和P (d= d i, j|C=cK)。
 (卢军,1999)
其中|V| 中特征词典里词目的总数,Nw t, di) :w t 在文档di 中的出现次数,B (Cj, di) ∈{0,1}。若文档di 在分类Gj 中出现为1, 否则为0。
 
(卢军,1999)
其中|C|是分类总数, |D|为文档总数。
图7文档分类过程
3.2.3 3.2.3 批量训练
本系统采用的是一种有指导的机器学习方法, 因而训练对于生成决策知识有非常重要的意义, 也就是生成系统分类模型的先验知识。批量训练主要维护基于以下结构的知识表:
struct DICTTABLE {
char3 WordName;
double FeatureValue;
long Freq1;
long Freqn;
……
Long Freqn;}
该结构对应每个特征词的内容, 特征的信息增益值, 以及该特征在每个类出现的频数(假设有n 个类)。对于一个网页中出现的特征词, 如果该特征在特征字典已生成, 则只需要根据网页标定的属于哪一个类, 修改其对应类的频数。如果该特征词还没有出现在特征字典中, 则需要增加一条新记录, 并设置单词对应于每个类的频数信息, 没出现的类频数设置为0。
022 贝叶斯理论在智能搜索中的应用
 

关闭窗口

与本站联系的时候,为了提高效率,请告诉本站您需要的设计编号与题目。如:001VBAC人事管理系统
编码说明:001VBAC人事管理系统,其中001VBAC 为该毕业设计的编号,VB代表开发语言,AC代表数据库(ACCESS)
版权所有:510计算机论文网:http://www.lw510.com/程序制作:510论文
Email: LW510@QQ.COM  QQ: 497053418   MSN: LW510@QQ.COM