020
WEB网络检索技术研究样本
(样本只提供该系统的基本情况介绍,若需要完整的设计和论文,建议您购买本系统,凡是购买本站系统的,本站均根据您的要求,把系统上的开发信息,题目等修改成符合您的要求)
本设计包含内容:源代码+毕业论文
论文大概:
本 科 生 毕 业 论 文 ( 设 计
)
论文(设计)题目
网络检索技术研究
The study of Internet search
engine
目 录
摘要
…………………………………………………………………………………………………………… 5
Abstract
……………………………………………………………………………………………………… 6
第一章
引言…………………………………………………………………………………………… 7
第二章 检索技术的历史
…………………………………………………………………… 7
2.1 搜索引擎的起源
…………………………………………………………………………… 7
2.2 新技术的逐渐出现
………………………………………………………………………… 7
2.3 现代引擎的出现
…………………………………………………………………………… 7
第三章 各类引擎的优缺点
…………………………………………………………… 8
3.1 搜索引擎的原理
……………………………………………………………………………… 8
3.1.1 基于SPIDER的搜索引擎
…………………………………………………………… 8
3.1.2 基于目录的搜索引擎
………………………………………………………………… 8
3.2 搜索引擎采用的几种新技术
…………………………………………………………… 8
3.2.1 机器人搜索引擎(Robot Search
Engine ………………………………… 8
3.2.2 中文文本的过滤信息分流机制
……………………………………………………… 8
3.2.3 分词技术与XML技术的有机结合
………………………………………………… 9
3.3 国内搜索引擎的不足之处
………………………………………………………………… 9
3.3.1 大多数中文搜索引擎的查询方式较为单一
………………………………… 9
3.3.2 目前网上的中文信息较少
………………………………………………… 9
3.3.3 采用的技术比较落后
……………………………………………………… 9
3.4
国外几个著名的搜索引擎各自的优缺点……………………………………… 10
3.5 综合搜索引擎存在的不足
……………………………………………………… 10
3.5.1 解决方法
…………………………………………………………………… 10
3.5.2 发现的新问题
……………………………………………………………… 10
3.5.3 与之出现的网络搜索工具及原理
………………………………………… 11
3.5.4总结
………………………………………………………………………… 11
第四章
搜索引擎之———Google—PageRank实现 …………… 11
4.1
什么是PageRank(网页级别) ………………………………………………………… 11
4.2
PageRank的决定因素 …………………………………………………………………… 11
4.3
PageRank的重要性 ……………………………………………………………………… 12
4.4
PageRank和其它排名因子的不同 ………………………………………………… 12
4.5
PageRank的计算方法 ………………………………………………………………… 12
4.6
PageRank的反馈性 ……………………………………………………………………… 14
第五章
“综合”搜索引擎的设计方案 …………………………………… 16
5.1
背景 …………………………………………………………………………………………
16
5.2 方案的选取
……………………………………………………………………………… 16
5.3
引擎的搜集 ………………………………………………………………………………
16
5.4 语言的选取
……………………………………………………………………………… 17
5.4.1 简便性和有效性
………………………………………………………………… 17
5.4.2 程序的独立性
……………………………………………………………… 17
5.4.3 程序的兼容性
……………………………………………………………… 17
5.4.4 程序的可重用性
…………………………………………………………… 17
5.5 整体设计
…………………………………………………………………………………… 17
5.5.1
系统环境与开发工具………………………………………………………… 17
5.5.2 流程设计
………………………………………………………………… 17
5.5.3 模块设计
………………………………………………………………… 18
5.5.4 函数的调用
……………………………………………………………… 18
5.5.4.1
window.open() ………………………………………………………… 18
5.5.4.2
function search4() …………………………………………………………… 18
5.5.4.3
input ……………………………………………………………………………
19
5.5.4.4 submit
………………………………………………………………… 19
5.5.5 关键代码
………………………………………………………………… 19
5.5.6
遇到的技术难点 …………………………………………………………… 19
5.6
系统综述 …………………………………………………………………………………… 19
第六章 展望与总结
………………………………………………………………………… 19
参考文献 ……………………………………………………………………………………………… 20
致谢
………………………………………………………………………………………………………… 20
摘要:
信息社会已经来临,Internet上的信息之多,使用户查找自己所需的资料成为一大难题,搜索引擎的出现很好的解决了这个问题。本文描述了搜索引擎发展的历史,比较了各类搜索引擎的优缺点,深入研究Google的主要算法PageRank。通过了解显现了搜索引擎各自的优缺点,有速度快的,有搜索详细的,有高级方面搜索功能的。如何把各个搜索引擎的关键技术凝聚起来,聚集各个搜索引擎的优点,使搜索引擎的功能更全面真正做到对信息的搜索正确无误,已成为网络检索技术研究、开发的一个新的方向。
关键词: 检索技术,PageRank,
搜索引擎, Google
1.1.1 Abstract
The information world is coming now,
The innumerous information becomes a big trouble for user to search
wanted data in Internet, The appearance of search engine is greatly
solve this problem. This easy state the history search engine
development, compare the advantage and disadvantage with various
search engine, research the main calculate method of PageRank of
Google. With the research, we know the advantage and disadvantage of
different search engines. There are rapid one detailed one, and
senior search function one. How to concentrate the key technique and
advantages of different search engine, make the search function
compressive, correct, becomes a new orientation of Internet search
technique research and development.
Keywords: Retrieval,
PageRank, Search Engine, Google
第一章 引言
在现在的信息社会中,信息之多,及数级增长,给用户查找自己所需的信息造成了一定的麻烦。有报告说,因特网上的主页已达1.3亿页,并且还以每天10万页、近2
000万单词的速度递增如。
如何在信息的海洋中迅速准确全面地获取自己所需?目前,主要是通过网络检索技术,与此对应的搜索引擎正在日趋走向成熟,百艳争放,各显它们的技术优点,显示出它们存在的价值。与此同时信息的暴增,搜索引擎还是无法囊括所有的内容,有时用户还时无法满意的找到自己所需的信息,如何更好的发展搜索引擎,采取更好的搜索技术、算法,已经是现在搜索引擎研究的一大课题。
第二章 检索技术的历史
2.1
搜索引擎的起源
现代意义上的搜索引擎的祖先,是1990年由蒙特利而大学生学生Alao
Emlage发明的Azchie。虽然当时WorldWide
Web还未出现,但网络中文文件传输还是相当频繁的,而且由于大量的文件散布在各个的FTP主机中,查询起来非常不便,因此Alan
Emlage想到了开发一个可以查文件的系统,于是便有了Archie。Azchie工作原理与现在的搜索引擎已经很接近,它依靠脚本程序自动搜索网上的文件,然后对有关信息进行索引,供使用者以一定的表达查询。由于Azchie深受欢迎,受其启发,美国华达System
Computing Services
大学于1993年开发了另一个与之非常相似的搜索工具,不过此时的搜索工具除了索引文件外,已能检索网页。而1991年,XWAIS版本提供了一个有着友好界面的信息搜索系统,但这个系统要求很特殊的文件格式。同一年还出现另外一个被称为COPHER的信息搜索系统。
2.2
新技术的逐渐出现
“机器人”搜索引擎的出现。电脑“机器人”(Computer
Robot)是指某个能以人类无法达到的“机器人”程序像蜘蛛一样在网络间爬来爬去,因此,搜索引擎的“机器人”程序就被称为“蜘蛛”程序。与Wanderer相对应。Martin
Koster于1993年10月创造了ALIWEB,它是Archie的HTTP版本。ALIWEB不使用“机器人”程序,而是靠网站主动提交信息来建立自己的连接索引,类似于现在我们都熟知的Yahoo。
随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因此,在Mattbew
Cray在Wanderer基础上,一些编程者可能有连向其它网站得链接,那么从跟踪一个网站的链接,那么从跟踪一个网站的链接开始,就有可能检索整个互联网。到1993年底,一些基于此原理的搜索引擎开始纷纷涌现,其中以JumpStation、The
World Wide Web Worm(Coto的前身,也就是今天overture),和Repository-Based
Software Engineering (RBSE) spider最负盛名。
然而JumpStation和www
worm只是以搜索工具在数据库中找到匹配信息的先后次序排列搜索结果,因此毫无信息关联度可言。而RBSE是第一个在搜索结果排列中引入关键字串匹配程度概念的引擎。
2.3
现代引擎的出现
最早现代意义上的搜索引擎出现于1994年7月。当时Michael Mauldin将John
Leavitt的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的Lycos,是最早的真正意义上的搜索引擎。同年4月,斯坦福(Stanford)大学的两名博士生,David
Filo和美籍华人杨致远(Gerry Yang)共同创办了超级目录索引Yahoo,
并成功地使搜索引擎的概念深入人心,Netscape出现在1994年。从此搜索引擎进入了高速发展时期。目前,互联网上有名有姓的搜索引擎已达数百家,其检索的信息量也与从前不可同日而语。比如最近风头正劲的Google,
其数据库中存放的网页已达30亿之巨。
随着互联网规模的急剧膨胀,一家搜索引擎光靠自己单打独斗已无法适应目前的市场状况,因此现在搜索引擎之间开始出现了分工协作,并有了专业的搜索引擎技术和搜索数据库服务提供商。像国外的inktome(已被Yahoo收购),它本身并不是直接面向用户的搜索引擎,但向包括Overture(原GoTo,已被Yahoo收购)、LookSmart、MSN、HotBot等在内的其他搜索引擎提供全文网页搜索服务。国内的百度属于这一类,搜狐和新浪用的就是它的技术。因此从这个意义上说,它们是搜索引擎的搜索引擎。