转至繁体中文版     | 网站首页 | 图文教程 | 资源下载 | 站长博客 | 图片素材 | 武汉seo | 武汉网站优化 | 
最新公告:     敏韬网|教学资源学习资料永久免费分享站!  [mintao  2008年9月2日]        
您现在的位置: 学习笔记 >> 资源下载 >> 实用文档 >> 资源信息
下 载 专 题
热 门 下 载
更多内容
最 近 更 新
更多内容
推 荐 下 载 更多
基于lucene的垂直搜索引擎关键技术的研究应用
运行环境: Win9x/NT/2000/XP/2003 文件大小: 4063 K
软件等级: ★★★ 软件类别: 国产软件
开 发 商: 佚名 软件语言: 简体中文
相关链接: 资源演示地址  资源注册地址 软件属性:       
下载次数: 本日:1 本周:1 本月:11
       软件浏览:123   总计下载:943  
授权方式: 免费版
解压密码: 
软件添加: 审核:mintao 录入:mintao 添加时间: 2010/6/7 23:29:05
::迅雷用户专用下载地址:: ::快车用户专用下载地址::
下载地址1  
::软件简介::
基于Lucene的垂直搜索引擎关键技术的研究应用刘朋 
【摘要】: 随着Internet的飞速发展,Web中所容纳的信息量越来越大,在存储,信息采集等方面通用搜索引擎正面巨大的挑战。而且,由于通用搜索引擎是面向各种各样的用户,它们的目的是保证在返回结果上做到面面俱到,但是各种各样的结果实际上并不能满足用户对精确度高的搜索的需求。因此,面向专业领域的搜索引擎即垂直搜索引擎便应运而生。 和传统的搜索引擎所不同的是,垂直搜索引擎的网络蜘蛛只是采集Web中的一部分信息。通过对网页的主题相关度进行预测和判断,专业网络蜘蛛在爬行时就会避开大量的与主题无关的信息。由于只采集那些和主题相关的网页,从而使垂直搜索引擎在查询的准确率和效率上都有显著的提高。目前,垂直搜索引擎的中文分词和主题预测有待进一步提高精度,网络蜘蛛的搜索策略也有待进一步改进以提高搜索引擎的覆盖率和运行效率。 本文在分析目前常用的主题爬行策略的基础之上,根据PageRank算法的思想,结合基于文本内容的启发式策略和基于Web超链分析的策略二者之间的优点,提出了一种新的主题爬行策略,既可以利用链接分析扩大某个主题的资源覆盖度,又可以保证搜索结果与主题的高度相关。 此外,本文通过研究和分析传统的PageRank算法及其不足,在基于用户点击网页内的各个链接的概率是不均等的情况下,提出一种基于概率的PageRank改进算法,该算法可以用于领域搜索引擎的主题相关度预测,能有效地避免主题漂移现象。 最后,基于Lucene框架和改进的Hertrix开源爬虫框架,设计并构建了一个面向电子产品信息的垂直搜索引擎的原型系统。
【关键词】:垂直搜索引擎 主题爬虫 爬行策略
【学位授予单位】:武汉理工大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP391.3
【DOI】:CNKI:CDMD:2.2009.106737
【目录】: 摘要4-5Abstract5-8第1章 绪论8-181.1 本课题的研究背景81.2 通用搜索引擎8-131.2.1 通用搜索引擎的发展史8-101.2.2 通用搜索引擎的分类和工作流程10-111.2.3 通用搜索引擎的局限性和发展趋势11-131.3 垂直搜索引擎13-161.3.1 垂直搜索引擎的系统结构13-151.3.2 垂直搜索引擎的优势15-161.3.3 垂直搜索引擎发展现状161.4 本文的主要工作及创新16-171.5 论文的结构17-18第2章 垂直搜索引擎的关键技术18-382.1 中文分词18-242.1.1 基于字符串匹配的分词方法19-222.1.2 基于统计的分词方法22-242.1.3 基于理解的分词方法242.1.4 三种分词方法的比较242.2 主题相关度预测24-282.2.1 PageRank算法的原理252.2.2 PageRank算法的缺陷及改进25-262.2.3 基于概率的改进PageRank算法设计26-282.3 主题爬虫28-372.3.1 网络爬虫的基本原理与结构28-302.3.2 主题爬行策略30-312.3.3 主题爬虫新策略的核心思想31-332.3.4 主题爬虫新策略的实现方案33-362.3.5 试验36-372.4 本章小结37-38第3章 检索框架Lucene的分析研究38-483.1 Lucene的框架分析38-443.1.1 Lucene的应用特点的分析研究38-403.1.2 Lucene的系统结构组织的剖析40-413.1.3 Lucene数据流的分析41-423.1.4 Lucene索引文件格式分析42-443.2 对Lucene框架的总结说明44-473.3 本章小结47-48第4章 垂直搜索引擎原型系统的设计和实现48-604.1 系统总体设计48-494.2 信息采集子系统的设计与实现49-544.2.1 选用Heritrix框架的原因494.2.2 基于Heritrix框架的信息采集的实现49-504.2.3 信息整理的实现50-544.3 索引子系统的设计与实现54-564.3.1 中文分词分析器的设计544.3.2 基于Lucene框架的索引构建54-564.4 查询子系统的设计与实现56-594.4.1 MVC模式56-574.4.2 基于MVC模式的查询子系统的设计与实现57-584.4.3 系统的实现58-594.5 本章小结59-60第5章 总结与展望60-62参考文献62-66致谢66-67攻读硕士学位期间发表的论文情况67
::相关软件::
没有相关资源
::下载说明::
为了达到最快的下载速度,官方强烈推荐使用web迅雷进行高速下载!
如果您发现该软件不能下载,请通知管理员或点击【此处报错】,谢谢!
未经本站明确许可,任何网站不得非法盗链及抄袭本站资源;如引用页面,请注明来自本站,谢谢的支持!
  网友评论:(只显示最新10条。评论内容只代表网友观点,与本站立场无关!)发表评论

| 设为首页 |加入收藏 | 联系站长 | 友情链接 | 版权申明 | 广告服务
MinTao学以致用网

Copyright @ 2007-2012 敏韬网(敏而好学,文韬武略--MinTao.Net)(学习笔记) Inc All Rights Reserved.
闵涛 QQ:543098146投放广告、内容合作请Q我! E_mail:admin@mintao.net(欢迎提供学习资源)
站长:MinTao 信息产业部ICP备案号:鄂ICP备11006601号

闵涛站盟:医药大全-武穴网A打造BCD……
咸宁网络警察报警平台