|
|
 |
下 载 专 题 |
 |
 |
热 门 下 载 |
 |
 |
最 近 更 新 |
 |
|
|
|
|
运行环境: Win9x/NT/2000/XP/2003 |
 |
文件大小: 4063 K |
软件等级: ★★★ |
软件类别: 国产软件 |
开 发 商: 佚名 |
软件语言: 简体中文 |
相关链接: 资源演示地址 资源注册地址 |
软件属性: 热 |
下载次数: 本日:1 本周:6 本月:1
软件浏览:123 总计下载:2227 |
授权方式: 免费版 |
解压密码: |
软件添加: 审核:mintao 录入:mintao |
添加时间: 2010/6/7 23:29:05 |
|
:: 迅雷用户专用下载地址 :: |
:: 快车用户专用下载地址 ::
|
|
基于Lucene的垂直搜索引擎关键技术的研究应用刘朋 【摘要】: 随着Internet的飞速发展,Web中所容纳的信息量越来越大,在存储,信息采集等方面通用搜索引擎正面巨大的挑战。而且,由于通用搜索引擎是面向各种各样的用户,它们的目的是保证在返回结果上做到面面俱到,但是各种各样的结果实际上并不能满足用户对精确度高的搜索的需求。因此,面向专业领域的搜索引擎即垂直搜索引擎便应运而生。 和传统的搜索引擎所不同的是,垂直搜索引擎的网络蜘蛛只是采集Web中的一部分信息。通过对网页的主题相关度进行预测和判断,专业网络蜘蛛在爬行时就会避开大量的与主题无关的信息。由于只采集那些和主题相关的网页,从而使垂直搜索引擎在查询的准确率和效率上都有显著的提高。目前,垂直搜索引擎的中文分词和主题预测有待进一步提高精度,网络蜘蛛的搜索策略也有待进一步改进以提高搜索引擎的覆盖率和运行效率。 本文在分析目前常用的主题爬行策略的基础之上,根据PageRank算法的思想,结合基于文本内容的启发式策略和基于Web超链分析的策略二者之间的优点,提出了一种新的主题爬行策略,既可以利用链接分析扩大某个主题的资源覆盖度,又可以保证搜索结果与主题的高度相关。 此外,本文通过研究和分析传统的PageRank算法及其不足,在基于用户点击网页内的各个链接的概率是不均等的情况下,提出一种基于概率的PageRank改进算法,该算法可以用于领域搜索引擎的主题相关度预测,能有效地避免主题漂移现象。 最后,基于Lucene框架和改进的Hertrix开源爬虫框架,设计并构建了一个面向电子产品信息的垂直搜索引擎的原型系统。 【关键词】:垂直搜索引擎 主题爬虫 爬行策略 【学位授予单位】:武汉理工大学 【学位级别】:硕士 【学位授予年份】:2009 【分类号】:TP391.3 【DOI】:CNKI:CDMD:2.2009.106737 【目录】: 摘要4-5Abstract5-8第1章 绪论8-181.1 本课题的研究背景81.2 通用搜索引擎8-131.2.1 通用搜索引擎的发展史8-101.2.2 通用搜索引擎的分类和工作流程10-111.2.3 通用搜索引擎的局限性和发展趋势11-131.3 垂直搜索引擎13-161.3.1 垂直搜索引擎的系统结构13-151.3.2 垂直搜索引擎的优势15-161.3.3 垂直搜索引擎发展现状161.4 本文的主要工作及创新16-171.5 论文的结构17-18第2章 垂直搜索引擎的关键技术18-382.1 中文分词18-242.1.1 基于字符串匹配的分词方法19-222.1.2 基于统计的分词方法22-242.1.3 基于理解的分词方法242.1.4 三种分词方法的比较242.2 主题相关度预测24-282.2.1 PageRank算法的原理252.2.2 PageRank算法的缺陷及改进25-262.2.3 基于概率的改进PageRank算法设计26-282.3 主题爬虫28-372.3.1 网络爬虫的基本原理与结构28-302.3.2 主题爬行策略30-312.3.3 主题爬虫新策略的核心思想31-332.3.4 主题爬虫新策略的实现方案33-362.3.5 试验36-372.4 本章小结37-38第3章 检索框架Lucene的分析研究38-483.1 Lucene的框架分析38-443.1.1 Lucene的应用特点的分析研究38-403.1.2 Lucene的系统结构组织的剖析40-413.1.3 Lucene数据流的分析41-423.1.4 Lucene索引文件格式分析42-443.2 对Lucene框架的总结说明44-473.3 本章小结47-48第4章 垂直搜索引擎原型系统的设计和实现48-604.1 系统总体设计48-494.2 信息采集子系统的设计与实现49-544.2.1 选用Heritrix框架的原因494.2.2 基于Heritrix框架的信息采集的实现49-504.2.3 信息整理的实现50-544.3 索引子系统的设计与实现54-564.3.1 中文分词分析器的设计544.3.2 基于Lucene框架的索引构建54-564.4 查询子系统的设计与实现56-594.4.1 MVC模式56-574.4.2 基于MVC模式的查询子系统的设计与实现57-584.4.3 系统的实现58-594.5 本章小结59-60第5章 总结与展望60-62参考文献62-66致谢66-67攻读硕士学位期间发表的论文情况67 |
网友评论:(只显示最新10条。评论内容只代表网友观点,与本站立场无关!) | 【发表评论】 |
|
|
|
|
|
|