杂感-关于数据仓库的一点体会
刚才看到同事的签名:没有妞泡的情人节,调戏代码吧!我只能:写篇日志转移注意力吧,其实对我影响最大的是:酒店房价涨的厉害,差点露宿街头了。
为什么我每天都有忙不完的事情呢?
从我实习时就到这个项目组,但现在项目还没有做完,年前拿到的竣工报告只有70%!!而现在又有忙不完的工作安排。为什么呢?
虽然我们模型已经建好了,系统也每天在运行,每天的交易数据都按时采集过来,并装载到数据仓库中了。正常来说应该很快转入运维了,而不是开发调试。
但是虽然数据仓库中有这么多企业的宝贵数据信息,但客户不知道这些数据的准确度,尤其当这些数据装载如程序,采用核算客户资金,客户持仓市值,时一旦出现小小失误,他们开始怀疑数据仓库里的数据质量了。接着提出针对每个环节的数据校验核对,工作就来了(赶紧写核对脚本)。
事实上我们数据质量做得不够好。尤其对一个复杂的系统,应用系统。比如oracle,它能够让人知道它每一步做了什么。而我们还做不到,
E:有没有在指定的时间抽取到符合要求的数据
T:有没有在指定的时间内完成数据清洗,确定的清洗规则合理吗?
L:能不能在指定的时间内完成数据装载,如何保证完整装载呢?(曾经遇到数据部分丢失的情况,折腾了一个月!)
觉得项目里实时数据处理也是我们非常蹩脚的方面。因为实时,频率高,性能问题就来了,数据质量管理难度就增加了。需要实时处理的数据如果有流水号,时间戳,由于需求,设计特殊,这部分数据竟然还有大文本字段。我们是怎么处理的?不说了,反正不是最佳实践!
希望我们用上 information analyzer后能把数据质量管理好。
以后重点学习性能优化方面的。