急求etl工具及解决方案
实现以下功能
源数据表 A
目标数据表 B
A 表现在5亿记录,及在每日不停的增长。
功能需求
1、从A表中抽取三个字段放入B表
2、监视A表,如果有新记录插入时同进插入B表
3、当B中已存这条记录时不再插入(A有重复数据)
请搞指定,有没有开源的,解决方案
[解决办法]
工具:informatica
可以在mapping中设置A、B两个目的表,在插入A表的时候插入B表
然后在session中分别设置2个表的不同更新方式。
[解决办法]
如果不要求实时,那可以一天更新一次。
强烈建议引入时间键,否则,很难追踪与排查。
另外,从数据质量角度分析,最好能从表A(源头)管理,重复数据按理就不应当存在。