分布式搜索引擎中缓存系统的研究与实现 专业名称: 计算机软件与理论
论文级别: 硕士
学位年度: 2009
中文摘要: 分布式缓存技术是在不增加成本的前提下提高WWW系统响应速度的一种有效解决方案。本文依托国家科技支撑计划项目“综合风险防范关键技术研究与示范”,针对项目中综合风险搜索引擎面临的响应速度和搜索效率等问题,开展了分布式缓存系统的研究。重点解决了分布式缓存系统中缓存协作、缓存替换算法等关键问题,并实现了一个分布式缓存系统,该系统已经应用在综合风险搜索引擎中,取得了良好的应用效果。 本文主要研究成果有: 1)根据综合风险搜索引擎需求以及分布式缓存系统的特点,完成了分布式缓存系统的设计与实现。 2)在分析传统缓存协议和搜索引擎特点的基础上,设计了HCC(hotspotscooperative caching)缓存协作机制,HCC采用控制节点和缓存节点分离的体系结构,降低了分布式管理的复杂性,通过将“热点”文档复制到低负载节点,将负载较为合理地分散到多个节点,最终消除“热点”节点。与其它缓存协议在理论上和实验数据的对比表明,HCC在访问延迟、缓存效率和系统开销方面要优于其它缓存协议。 3)在分析传统缓存替换算法的基础上,设计了一种基于综合价值计算的缓存优化算法,该算法整合文档大小、访问频率、...
目录:
分布式搜索引擎中缓存系统的研究与实现
摘要 3-4 英文摘要 4 第1章 绪论 7-12 1.1 研究背景 7-8 1.2 国内外发展现状 8-9 1.3 课题来源与研究意义 9-10 1.4 研究内容与论文结构 10-12 第2章 相关技术研究 12-22 2.1 分布式搜索引擎技术 12-13 2.2 WWW缓存技术 13-16 2.2.1 缓存工作过程 13-14 2.2.2 Web缓存分类 14-16 2.3 分布式缓存系统 16-20 2.3.1 分布式缓存的拓扑结构 16-17 2.3.2 常用分布式缓存协议分析 17-19 2.3.3 影响缓存效果的因素 19-20 2.4 本章小结 20-22 第3章 分布式缓存系统设计与实现 22-31 3.1 分布式缓存系统功能需求分析 22-23 3.2 分布式缓存系统架构设计 23-29 3.2.1 任务调度模块 24-25 3.2.2 缓存协作模块 25-26 3.2.3 缓存管理模块 26-28 3.2.4 替换管理模块 28 3.2.5 更新管理模块 28-29 3.3 系统总体效果 29-30 3.4 本章小结 30-31 第4章 分布式缓存协作 31-45 4.1 基于热点复制的缓存协作机制 HCC 31-38 4.1.1 系统模型 31-32 4.1.2 HCC协议 32-36 4.1.3 节点管理 36-38 4.2 理论分析 38-42 4.2.1 缓存效率方面 38 4.2.2 访问延时方面 38-40 4.2.3 系统开销方面 40-42 4.3 实验结果分析 42-44 4.4 本章小结 44-45 第5章 基于综合价值计算的缓存替换算法 45-53 5.1 缓存替换算法分类研究 45-47 5.1.1 基于时间特性的缓存替换算法 45 5.1.2 基于频率特性的缓存替换算法 45-46 5.1.3 基于文档大小特性的缓存替换算法 46 5.1.4 其它替换算法 46-47 5.2 一种新的缓存替换算法 47-49 5.2.1 访问频率与文档大小 48 5.2.2 访问时间间隔 48-49 5.3 实验结果分析 49-52 5.4 本章小结 52-53 总结与展望 53-55 总结 53 展望 53-55 参考文献 55-58 攻读硕士学位期间取得的成果 58-59 致谢 59 |