请问ETL不是实时的,有什么更好的方式吗
背景:现在公司有很多网站,是不同厂家做的,数据库是Mysql或者Oracle,现在想做一个集成网站,数据放在网站里面,现在要写一个具体实施方案。问题:请问想要做一个中间库,用来实时接收之前网站中数据库内的数据,进行数据展示,了解ETL后发现不是实时传递的,有什么实时方式吗。
谢谢老哥们。 如果你的服务器性能很好,可以做成实时把数据传递到中间库 可以给需要同步的表增加触发器,内容新增或者改变的时候执行,把新数据插入中间库中。 oracle访问其它数据库要先建立dlink,mysql没用过。 Oracle 使用 OGG,这个支持异构数据库的。且 OGG 是基于 LOG 日志做同步的,不影响主服务器性能。
我现在的环境就是,OGG获取数据库变动信息,推送到中转服务器(减小生产机的压力),中转服务器向 kafka 推送变更信息。消费端再向kafka获取需要的数据。
若不使用 kafka,可直接落地数据库。ogg 本身支持 mysql/db2/sysbase 等老牌数据库的,而 kafka 可以向 hadoop 兼容。 存储过程也可以
spark硬干
flink,这个比较成熟 先离线存储,再根据需要调用 建议采用
informatica pwc和pwx 可以实时同步数据 apache flink cdc 或者 apache seatunel
页:
[1]