转至繁体中文版     | 网站首页 | 图文教程 | 资源下载 | 站长博客 | 图片素材 | 武汉seo | 武汉网站优化 | 
最新公告:     敏韬网|教学资源学习资料永久免费分享站!  [mintao  2008年9月2日]        
您现在的位置: 学习笔记 >> 图文教程 >> 站长学院 >> 网页制作 >> 正文
搜索引擎的基本工作原理         ★★★★

搜索引擎的基本工作原理

作者:闵涛 文章来源:闵涛的学习笔记 点击数:800 更新时间:2009/6/9 2:30:44

  搜索引擎是一种依靠技术取胜的产品,搜索引擎的各个组成部分,包括页面搜集器、索引器、检索器等,都是搜索引擎产品提供商进行比拼的着力点。

  搜索引擎一般的工作过程是:首先对互联网上的网页进行搜集,然后对搜集来的网页进行预处理,建立网页索引库,实时响应用户的查询请求,并对查找到的结果按某种规则进行排序后返回给用户。搜索引擎的重要功能是能够对互联网上的文本信息提供全文检索。

  一般搜索引擎的系统架构,其中包括页面搜集器、索引器、检索器、索引文件等部分,下面对其中的主要部分的功能实现进行了介绍。

  ①搜集器

  搜集器的功能是在互联网中漫游,发现并搜集信息,它搜集的信息类型多种多样,包括HTML页面、XML文档、Newsgroup文章、FTP文件、字处理文档、多媒体信息等。搜索器是一个计算机程序,其实现常常采用分布式和并行处理技术,以提高信息发现和更新的效率。商业搜索引擎的搜集器每天可以搜集几百万甚至更多的网页。搜索器一般要不停地运行,要尽可能多、尽可能快地搜集互联网上的各种类型的新信息。因为互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死链接和无效链接。另外,因为Web信息是动态变化的,因此搜集器、分析器和索引器要定期更新数据库,更新周期通常约为几周甚至几个月。索引数据库越大,更新也越困难。

  互联网上的信息太多,即使功能强大的搜集器也不可能搜集互联网上的全部信息。因此,搜集器采用一定的搜索策略对互联网进行遍历并下载文档,例如,一般采用以宽度优先搜索策略为主、线性搜索策略为辅的搜索策略。

  在搜集器实现时,系统中维护一个超链队列,或者堆栈,其中包含一些起始URL,搜集器从这些URL出发,下载相应的页面,并从中抽取出新的超链加入到队列或者堆栈中,上述过程不断重复队列直到堆栈为空。为提高效率,搜索引擎将Web空间按照域名IP地址或国家域名进行划分,使用多个搜集器并行工作,让每个搜索器负责一个子空间的搜索。为了便于将来扩展服务,搜集器应能改变搜索范围。

  ②分析器

  对搜集器搜集来的网页信息或者下载的文档一般要首先进行分析,以用于建立索引,文档分析技术一般包括: 分词(有些仅从文档某些部分抽词,如Altavista)、过滤(使用停用词表stoplist)、转换(有些对词条进行单复数转换、词缀去除、同义词转换等工作),这些技术往往与具体的语言以及系统的索引模型密切相关。

  ③索引器

  索引器的功能是对搜索器所搜索的信息进行分析处理,从中抽取出索引项,用于表示文档以及生成文档库的索引表。索引项有元数据索引项和内容索引项两种: 元数据索引项与文档的语意内容无关,如作者名、URL、更新时间、编码、长度、链接流行度等等; 内容索引项是用来反映文档内容的,如关键词及其权重、短语、单字等等。

  ④检索器

  检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。

  ⑤用户接口

  用户接口的作用是为用户提供可视化的查询输入和结果输出界面,方便用户输入查询条件、显示查询结果、提供用户相关性反馈机制等,其主要目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效的信息。用户接口的设计和实现必须基于人机交互的理论和方法,以适应人类的思维和使用习惯。

  在查询界面中,用户按照搜索引擎的查询语法制定待检索词条及各种简单或高级检索条件。简单接口只提供用户输入查询串的文本框,复杂接口可以让用户对查询条件进行限制,如逻辑运算(与、或、非)、相近关系(相邻、NEAR)、域名范围(如edu、com)、出现位置(如标题、内容)、时间信息、长度信息等等。目前一些公司和机构正在考虑制定查询选项的标准。


[办公软件]利用幻灯片搜索器高效、快速批量复制另外一个演示…  [Web开发]利用Ajax技术实现在线歌词搜索功能
[网页制作]什么是网站PR(PageRank)值,PR值的大小与搜索引擎…  [网页制作]大众都在使用的各大搜索引擎列表
[网页制作]Google搜索引擎创始人谢尔盖-布林、拉里-佩奇介绍  [网页制作]世界上第一个搜索引擎介绍
[网页制作]网页排名与搜索引擎  [网页制作]如何将新网站域名提交到搜索引擎并查看网站的收录…
[办公软件]使用中文搜索快速找到想要的Excel函数  [办公软件]Word操作高级篇—域的使用与高级查找替换搜索实例…
教程录入:mintao    责任编辑:mintao 
  • 上一篇教程:

  • 下一篇教程:
  • 【字体: 】【发表评论】【加入收藏】【告诉好友】【打印此文】【关闭窗口
      注:本站部分文章源于互联网,版权归原作者所有!如有侵权,请原作者与本站联系,本站将立即删除! 本站文章除特别注明外均可转载,但需注明出处! [MinTao学以致用网]
      网友评论:(只显示最新10条。评论内容只代表网友观点,与本站立场无关!)

    同类栏目
    · Web开发  · 网页制作
    · 平面设计  · 网站运营
    · 网站推广  · 搜索优化
    · 建站心得  · 站长故事
    · 互联动态
    更多内容
    热门推荐 更多内容
  • 没有教程
  • 赞助链接
    更多内容
    闵涛博文 更多关于武汉SEO的内容
    500 - 内部服务器错误。

    500 - 内部服务器错误。

    您查找的资源存在问题,因而无法显示。

    | 设为首页 |加入收藏 | 联系站长 | 友情链接 | 版权申明 | 广告服务
    MinTao学以致用网

    Copyright @ 2007-2012 敏韬网(敏而好学,文韬武略--MinTao.Net)(学习笔记) Inc All Rights Reserved.
    闵涛 投放广告、内容合作请Q我! E_mail:admin@mintao.net(欢迎提供学习资源)

    站长:MinTao ICP备案号:鄂ICP备11006601号-18

    闵涛站盟:医药大全-武穴网A打造BCD……
    咸宁网络警察报警平台