触宝科技基于Apache Hudi的流批一体架构实践

1. 前言 当前公司的大数据实时链路如下图,数据源是MySQL数据库,然后通过Binlog Query的方式消费或者直接客户端采集到Kafka,最终通过基于Spark/Flink实现的批流一体计算引擎处理,最后输出到下游对应的存储。 2. 模型特征架构的演进 2.1 第一代架构 广告业务发展初期,为
posted @ 2021-07-11 22:51  leesf  阅读(1350)  评论(0编辑  收藏  举报