时间 | 键码 | 地点 金额 物品 …… 购买时的心情 | 账户余额 …… 购买后的心情 |
1 2 3 4
不难看出:第三段数据是离散的原始数据,第四段是事件发生后的因果数据(是联系的、可选的)总结一把,快照应该是对一个事件的真实记录,他应该包含以下内容:
l 键码。
l 时间单元。
l 只和键码关联的初始数据。
l 快照发生后所捕获的二次数据,和前面无直接的关系。
元数据
关于(使用)数据的(历史)数据,例如说数据仓库导入的第一次时间、第二次时间。源数据在Where,数据结构是what,抽取的历史纪录等等。
数据仓库中的管理参照表
数据仓库中的参考数据(起数据年鉴作用),数据仓库存在目的也就是为了提供参考依据,所以定期的产生参照数据可以减少数据仓库中的数据量。这也不难理解:有了参照数据,自然就没必要保留那些陈年旧帐了。
建立参照数据表有两种方法:
1. 每隔一个特定的时间,就做一个参考表的一个快照。
2. 一个快照就是一张参考表(合而为一),然后,针对每次修改做纪录。
数据周期
所谓数据周期是指从操作型环境数据发生改变,到这个变化在数据仓库中体现出来所用的时间。例如某位银行用户搬家,他的新地址被添加在操作型数据中,数据仓库觉察到后,立刻把自己的数据更新。这就是一个数据周期。
问题来了,这种调整应该什么时间进行一次呢?原则上是大于或等于24小时。这是为了数据的稳定和代价问题。
转换和集成的复杂性
这里有很多很多的内容,偏偏他们都很零碎,象是在介绍经验一样,还是留给你一点研究吧。(我要偷懒啦)这就是建数据库的方法。
触发数据仓库纪录
触发数据仓库需要一个事件,而这个事件应该是一重要活动,重要的以至于不能忽略它的存在,呵呵,简单点就像点了一个按钮,弹出了一个对话框一样。当捕获到这个事件的时候,在数据仓库中添加这个事件的快照。很简单,不是么?可能你会想知道,什么事件,怎么触发?举个例子,你的一个重要的客户,打电话通知你,修改交货地点,OK!你的反应恐怕是先找到这条发货纪录和客户纪录(这是快照),修改其中的交货地点(二次数据),写入数据仓库中。明白了?
管理数据仓库
管理的目的是为了让数据该走的走,该留的留,该统计的就统计,不要让过了期的数据占用宝贵的空间,呵呵,说着容易做着难,每人知道用户那一天会发疯似的翻陈年旧帐,万一出了差错,会坏事的哦。所以正确的处理方法就是:·#¥%…!·#。没看懂?啊哈,不好意思,这是外语,嘻嘻,总结一下有两点:
1. 使用简单纪录方式,概括、综合数据。这里有一个综合尺度的问题,不要一次就把数据综合到底,不要一次就丢掉数据的所有细节。让简单纪录的第一遍为第二遍提供依据。
2. 同时建立数据备份。这是最保险的方法,找张光盘阿,磁带阿之类的,写进去丢到保险箱里就完事了。什么?费钱费时,我觉得挺好啊,用户查的时候,可以收她的费么。还赚了一笔J
根据以上诸多的论述,你是不是已经建立了一个大体的框架?知道什么才算是数据仓库,怎样的表结构才算是符合数据仓库的?说句老实话,我现在也没能明白数据模型到底是个什么东西?是类似c++里的对象,还是类似数据结构里的结构体?我从中学到的是:数据仓库在设计的时候就必须考虑什么,而不是怎样做。所以,你一定要把这个东西搞明白,近期是不可能的。只能通过不断的实践,只应该是一个经验积累的过程,可以说还没有一个完全可行,可以照搬的方法来设计数据仓库。J是不是挺失望的,没关系,这本来就是一个需要反复的过程,%50的成功率就算是不错的了,所以没必要担心 :P
好吧,假设我们在考虑了所有的情况后,建了一个十分完美的数据仓库(有点厚颜无耻,xixi),开始访问吧,你必须牢记这样一个事实,数据仓库一定有你所需要的数据,否则就必须进行二次补丁开发。你开始统计、抽取、计算等等,没有能不能,只有要不要!
模拟一下,你是一个银行雇员,在收到了一个用户的借贷请求,那你就必须想方法确定这个用户的信用值和个人资产以及工作情况,来判断是否给这个人贷款。这里有一个非常复杂的程序在后台做这件事情。而且数据仓库中也为这种请求准备了相应的数据。这种审核是综合的也是非常快的。这时,必须考虑:
1. 偿还历史。
2. 私有财产。
3. 财务管理。
4. 净值。
5. 全部收入。
6. 全部开销。
7. 其它的无形资产。
……
在经过复杂的计算后,才能得到审核的最后结果,但这个过程所需的很多数据都是数据仓库整理出来的。Ok,你是不是明白了数据仓库还是挺有用的。
但让我们考虑一下这种数据的存在形式吧,……,有没有发现最后的数据是一个综合了很多情况的合成数据。很多很多的内容,像一个大锅腊八粥,但里边的配料来在不同的地方。嘻嘻,其实这是数据仓库中必然的现象,称之为星型联接。哦——,其实这些部分都是有名字的,中间的综合的是“事实表”,周边的是维表。而且这里边还有一个现象:事实表中包含了维表的主键。你可能没有反应过来,但事实就是这样。
这里遍蕴含了数据仓库的访问技巧。
好好想想吧,想明白了最好能教一下我J。
&n 上一页 [1] [2] [3] 下一页 没有相关教程
|