039
搜索引擎的设计样本
(样本只提供该系统的基本情况介绍,若需要完整的设计和论文,建议您购买本系统,凡是购买本站系统的,本站均根据您的要求,把系统上的开发信息,题目等修改成符合您的要求)
本设计包含内容:源代码+毕业论文
论文大概:
本 科 生 毕 业 论 文 ( 设 计
)
论文(设计)题目
网络检索技术研究
The study of Internet search
engine
目 录
摘要
…………………………………………………………………………………………………………… 5
Abstract
……………………………………………………………………………………………………… 6
第一章
引言…………………………………………………………………………………………… 7
第二章 检索技术的历史
…………………………………………………………………… 7
2.1 搜索引擎的起源
…………………………………………………………………………… 7
2.2 新技术的逐渐出现
………………………………………………………………………… 7
2.3 现代引擎的出现
…………………………………………………………………………… 7
第三章 各类引擎的优缺点
…………………………………………………………… 8
3.1 搜索引擎的原理
……………………………………………………………………………… 8
3.1.1 基于SPIDER的搜索引擎
…………………………………………………………… 8
3.1.2 基于目录的搜索引擎
………………………………………………………………… 8
3.2 搜索引擎采用的几种新技术
…………………………………………………………… 8
3.2.1 机器人搜索引擎(Robot Search
Engine ………………………………… 8
3.2.2 中文文本的过滤信息分流机制
……………………………………………………… 8
3.2.3 分词技术与XML技术的有机结合
………………………………………………… 9
3.3 国内搜索引擎的不足之处
………………………………………………………………… 9
3.3.1 大多数中文搜索引擎的查询方式较为单一
………………………………… 9
3.3.2 目前网上的中文信息较少
………………………………………………… 9
3.3.3 采用的技术比较落后
……………………………………………………… 9
3.4
国外几个著名的搜索引擎各自的优缺点……………………………………… 10
3.5 综合搜索引擎存在的不足
……………………………………………………… 10
3.5.1 解决方法
…………………………………………………………………… 10
3.5.2 发现的新问题
……………………………………………………………… 10
3.5.3 与之出现的网络搜索工具及原理
………………………………………… 11
3.5.4总结
………………………………………………………………………… 11
第四章
搜索引擎之———Google—PageRank实现 …………… 11
4.1
什么是PageRank(网页级别) ………………………………………………………… 11
4.2
PageRank的决定因素 …………………………………………………………………… 11
4.3
PageRank的重要性 ……………………………………………………………………… 12
4.4
PageRank和其它排名因子的不同 ………………………………………………… 12
4.5
PageRank的计算方法 ………………………………………………………………… 12
4.6
PageRank的反馈性 ……………………………………………………………………… 14
第五章
“综合”搜索引擎的设计方案 …………………………………… 16
5.1
背景 …………………………………………………………………………………………
16
5.2 方案的选取
……………………………………………………………………………… 16
5.3
引擎的搜集 ………………………………………………………………………………
16
5.4 语言的选取
……………………………………………………………………………… 17
5.4.1 简便性和有效性
………………………………………………………………… 17
5.4.2 程序的独立性
……………………………………………………………… 17
5.4.3 程序的兼容性
……………………………………………………………… 17
5.4.4 程序的可重用性
…………………………………………………………… 17
5.5 整体设计
…………………………………………………………………………………… 17
5.5.1
系统环境与开发工具………………………………………………………… 17
5.5.2 流程设计
………………………………………………………………… 17
5.5.3 模块设计
………………………………………………………………… 18
5.5.4 函数的调用
……………………………………………………………… 18
5.5.4.1
window.open() ………………………………………………………… 18
5.5.4.2
function search4() …………………………………………………………… 18
5.5.4.3
input ……………………………………………………………………………
19
5.5.4.4 submit
………………………………………………………………… 19
5.5.5 关键代码
………………………………………………………………… 19
5.5.6
遇到的技术难点 …………………………………………………………… 19
5.6
系统综述 …………………………………………………………………………………… 19
第六章 展望与总结
………………………………………………………………………… 19
参考文献 ……………………………………………………………………………………………… 20
致谢
………………………………………………………………………………………………………… 20
摘要:
信息社会已经来临,Internet上的信息之多,使用户查找自己所需的资料成为一大难题,搜索引擎的出现很好的解决了这个问题。本文描述了搜索引擎发展的历史,比较了各类搜索引擎的优缺点,深入研究Google的主要算法PageRank。通过了解显现了搜索引擎各自的优缺点,有速度快的,有搜索详细的,有高级方面搜索功能的。如何把各个搜索引擎的关键技术凝聚起来,聚集各个搜索引擎的优点,使搜索引擎的功能更全面真正做到对信息的搜索正确无误,已成为网络检索技术研究、开发的一个新的方向。
关键词: 检索技术,PageRank,
搜索引擎, Google
1.1.1 Abstract
The information world is coming now,
The innumerous information becomes a big trouble for user to search
wanted data in Internet, The appearance of search engine is greatly
solve this problem. This easy state the history search engine
development, compare the advantage and disadvantage with various
search engine, research the main calculate method of PageRank of
Google. With the research, we know the advantage and disadvantage of
different search engines. There are rapid one detailed one, and
senior search function one. How to concentrate the key technique and
advantages of different search engine, make the search function
compressive, correct, becomes a new orientation of Internet search
technique research and development.
Keywords: Retrieval,
PageRank, Search Engine, Google
第一章 引言
在现在的信息社会中,信息之多,及数级增长,给用户查找自己所需的信息造成了一定的麻烦。有报告说,因特网上的主页已达1.3亿页,并且还以每天10万页、近2
000万单词的速度递增如。
如何在信息的海洋中迅速准确全面地获取自己所需?目前,主要是通过网络检索技术,与此对应的搜索引擎正在日趋走向成熟,百艳争放,各显它们的技术优点,显示出它们存在的价值。与此同时信息的暴增,搜索引擎还是无法囊括所有的内容,有时用户还时无法满意的找到自己所需的信息,如何更好的发展搜索引擎,采取更好的搜索技术、算法,已经是现在搜索引擎研究的一大课题。
5.5 整体设计
5.5.1 系统环境与开发工具
适合的操作系统windows
95,windows 98,windows Me, Windows XP。采用JavaScript,
HTML技术.
5.5.2
流程设计
用户想要正确的查找网上的信息,一个搜索引擎可能很难满足用户的要求,利用多个搜索引擎对同一信息进行搜索,这样供用户选择的余地就大了。一个搜索框可用多个搜索引擎对这个搜索框的内容进行搜索。
网页的流程如图6所示:
图6 流程设计图
5.5.3
模块设计
不是简单的调用新浪、搜狐、网易、3721、Yahoo、Google、百度、台湾绿世界中文搜索网、雅虎、Webcrawler、Lycos、NlightN、Magellan、全球资源游戏搜索系统、IfoSeek等网站的地址,而是利用它们的引擎直接搜索出内容,弹出对应网站的查询结果。
网页采取的模块设计如图7所示:
图7 各个模块