::软件简介:: |
基于lucene的垂直搜索引擎关键技术的研究应用 基于Lucene的垂直搜索引擎关键技术的研究应用刘朋 【摘要】: 随着Internet的飞速发展,Web中所容纳的信息量越来越大,在存储,信息采集等方面通用搜索引擎正面巨大的挑战。而且,由于通用搜索引擎是面向各种各样的用户,它们的目的是保证在返回结果上做到面面俱到,但是各种各样的结果实际上并不能满足用户对精确度高的搜索的需求。因此,面向专业领域的搜索引擎即垂直搜索引擎便应运而生。 和传统的搜索引擎所不同的是,垂直搜索引擎的网络蜘蛛只是采集Web中的一部分信息。通过对网页的主题相关度进行预测和判断,专业网络蜘蛛在爬行时就会避开大量的与主题无关的信息。由于只采集那些和主题相关的网页,从而使垂直搜索引擎在查询的准确率和效率上都有显著的提高。目前,垂直搜索引擎的中文分词和主题预测有待进一步提高精度,网络蜘蛛的搜索策略也有待进一步改进以提高搜索引擎的覆盖率和运行效率。 本文在分析目前常用的主题爬行策略的基础之上,根据PageRank算法的思想,结合基于文本内容的启发式策略和基于Web超链分析的策略二者之间的优点,提出了一种新的主题爬行策略,既可以利用链接分析扩大某个主题的资源 |
|
|