数据仓库之我见（设计篇）_其他_学习笔记★闵涛★计算机学习电脑编程软硬件技巧


	转至繁体中文版	\| 网站首页 \| 图文教程 \| 资源下载 \| 站长博客 \| 图片素材 \| 武汉seo \| 武汉网站优化 \|

数据仓库之我见（设计篇）

作者：闵涛文章来源：闵涛的学习笔记点击数：2462 更新时间：2009/4/22 23:21:14

bsp;

在明白了涉及数据仓库的几大要素之后，OK! Let’s go on. 下面的问题将很深入的讨论类似于设计细节和管理细节的话题。看过之后需要深入的思考，这才能从中领悟作者的本意。主要原因也包括翻译问题。

来看看第一个问题：

数据仓库的粒度

数据仓库中的粒度是指数据的详细程度，同样为了描述一个情况，我可以用很多的数据，但同样我也可以只用必需的数据。而这起决于存储器。如果有很大的硬盘，那就没有我们不能存的事情。所以，估计一年内里表中的最大行数和最小行数，是设计者的最大问题。这里牵扯到了一个概念：上下限推测的方法。（别问我，我也不懂）

然后通过简单的计算可以知道数据库大概的情况，然后可以调整我们的策略。说的仔细一点，我们可以采用双重粒度或者单一粒度的办法。

双重粒度是降低数据量的最佳方法。而且，大多数公司都采用这种方法。下面来一个分析：

双重粒度包括：低细节级和高细节级。要知道：在很低的细节级上建立轻度汇总数据是没有意义的。反过来，在太高的细节级建立汇总数据也是没有用的。所以，一定要进行数据粒度的评估，然后才能得出最佳的汇总方案。而可笑的是，这根本都是猜测出来的，没有正确性的保证，嘿嘿，没办法，谁让我们本来就是在做一件不知道条件，指知道结果的方程式呢，但你可以把你的结果给最终用户看，让她来评价这个好坏，别指望%100的通过，%50就很不错了：）

这里有一些反馈技巧和一个例子，在90页，你可以参考一下。

如果说，数据粒度教你建数据仓库的话，下一个话题就是教你管理啦！

数据仓库和技术

这里有好多我看不懂的管理技术，嘻嘻，比如说：通过寻址，通过检索，通过数据外延，通过有效的溢出管理…… 这里的管理包括：管理大量数据库的能力和能管理好数据仓库的能力。任何生成支持数据仓库的技术都要满足能力于效率的要求。

你要能管理多介质，主存、扩展内存、高速缓存、DSAD(如硬盘)、光盘、磁带……

数据仓库的灵魂就在于灵活性和对数据的不可预测性的访问，看不懂么？所的简单点，就是它能对以往所有的数据进行评估，提供分析依据。数据仓库如果不能方便有效的利用索引，那么数据仓库的建立就是不成功的。多利用一些二级索引、动态索引、临时索引等等。

多种技术接口，这我不用再解释了吧，这你应该明白的。

对数据存放位置的控制，就像一开始讲的，必须使数据仓库有一整套完善的数据存放机制。而且最好是自动的噢！

数据的并行存储和管理，假定对数据的访问都是等概率的，则性能的提高与数据所分布的物理设备的多少成正比。

元数据的管理，记住这个事实吧，再好的房子，如果没有钥匙你也没办法！！所以，管理元数据的重要性甚至超过了管理数据仓库中的数据。这包括表的结构，表的属性，源数据（纪录系统），映射关系，数据模型说明，抽取日志，共用例行程序。

语言接口，SQL语言接口，就是你要做一个前台控制程序，可以插入、删除……。

数据的高效装入，自己想吧，（什么，老师偷懒，我就偷懒，怎么样）这里没有什么好说的，你需要根据不同的环境做不同的处理。

高效索引的利用、数据压缩、复合键码、变长数据、加锁管理、快速恢复。我就不再多说了，这你比我还明白。

DBMS类型和数据仓库,

多维数据库管理系统（俗称”数据集市”），提供了一种信息系统结构使得对数据库的访问非常灵活。如果我没理解错误的话，数据集市提供了一种数据的管理、考察方案，所以它是凌驾于数据仓库之上的，所以数据仓库的数据，是数据集市的主要数据来源，可以这么说，两者的差别就在于数据粒度的不同，数据仓库中的粒度很小，DBMS的数据粒度很大。当然，这样做是有目的的，这不仅是为了使储存的时间更长，也可以数据更集中！

这里还有很多其他的作用：

例如：

ü 支持数据的动态连接。

ü 能够支持通用的数据更新处理。

ü 关系结构清晰明了。

那它是不是就完美了呢？其实不然！其实也有不少弊病需要克服。

数据量不如关系数据库支持的那么多。

¨ 不支持通用的更新技术。

¨ 张如时间长。

¨ 结构不灵活。

¨ 动态支持还有问题。

这是我看完数据仓库后的一点感受，拿出来大家一起研究、研究，哈哈……