干货!Apache Hudi如何智能处理小文件问题

1. 引入 Apache Hudi是一个流行的开源的数据湖框架,Hudi提供的一个非常重要的特性是自动管理文件大小,而不用用户干预。大量的小文件将会导致很差的查询分析性能,因为查询引擎执行查询时需要进行太多次文件的打开/读取/关闭。在流式场景中不断摄取数据,如果不进行处理,会产生很多小文件。 2.
posted @ 2021-04-11 09:26  leesf  阅读(2307)  评论(1编辑  收藏  举报