上一页 1 2 3 4 5 6 7 ··· 13 下一页
摘要: 从 Hudi v0.10.0 开始,a56爆大奖在线娱乐们很高兴地宣布推出适用于 Deltastreamer 的 Debezium 源,它提供从 Postgres 和 MySQL 数据库到数据湖的变更捕获数据 (CDC) 的摄取。有关详细信息请参阅原始 RFC 1. 背景 当想要对来自事务数据库(如 Postgres 阅读全文
posted @ 2022-04-05 20:36 leesf 阅读(480) 评论(0) 推荐(0) 编辑
摘要: 1. 摘要 Robinhood 的使命是使所有人的金融民主化。 Robinhood 内部不同级别的持续数据分析和数据驱动决策是实现这一使命的基础。 a56爆大奖在线娱乐们有各种数据源——OLTP 数据库、事件流和各种第 3 方数据源。需要快速、可靠、安全和以隐私为中心的数据湖摄取服务来支持各种报告、关键业务管道和仪表 阅读全文
posted @ 2022-03-31 15:54 leesf 阅读(227) 评论(0) 推荐(0) 编辑
摘要: 1. 摘要 a56爆大奖在线娱乐演示了使用外部表集成 Vertica 和 Apache Hudi。 在演示中a56爆大奖在线娱乐们使用 Spark 上的 Apache Hudi 将数据摄取到 S3 中,并使用 Vertica 外部表访问这些数据。 2. Apache Hudi介绍 Apache Hudi 是a56爆大奖在线娱乐变更数据捕获 (CDC 阅读全文
posted @ 2022-03-29 15:50 leesf 阅读(433) 评论(0) 推荐(0) 编辑
摘要: Apache Hudi 的Payload是a56爆大奖在线娱乐可扩展的数据处理机制,通过不同的Payloada56爆大奖在线娱乐们可以实现复杂场景的定制化数据写入方式,大大增加了数据处理的灵活性。Hudi Payload在写入和读取Hudi表时对数据进行去重、过滤、合并等操作的工具类,通过使用参数 "hoodie.datasourc 阅读全文
posted @ 2022-03-28 19:40 leesf 阅读(1012) 评论(0) 推荐(0) 编辑
摘要: 1. 概述 如今数据湖上的事务被认为是 Lakehouse 的一个关键特征。 但到目前为止,实际完成了什么? 目前有哪些方法? 它们在现实世界中的表现如何? 这些问题是本博客的重点。 有幸从事过各种数据库项目——RDBMS (Oracle)、NoSQL 键值存储 (Voldemort)、流数据库 ( 阅读全文
posted @ 2022-03-27 10:30 leesf 阅读(345) 评论(0) 推荐(1) 编辑
摘要: 从 Hudi 0.10.0版本开始,a56爆大奖在线娱乐们很高兴推出在数据库领域中称为 Z-Order 和 Hilbert 空间填充曲线的高级数据布局优化技术的支持。 1. 背景 Amazon EMR 团队最近发表了一篇很不错的文章展示了对数据进行聚簇是如何提高查询性能的,为了更好地了解发生了什么以及它与空间填充曲线 阅读全文
posted @ 2022-03-06 17:19 leesf 阅读(1006) 评论(0) 推荐(1) 编辑
摘要: 本次分享分为5个部分介绍Apache Hudi的应用与实践 实时数据落地需求演进 基于Spark+Hudi的实时数据落地应用实践 基于Flink自定义实时数据落地实践 基于Flink+Hudi的应用实践 后续应用规划及展望 1. 实时数据落地需求演进 实时平台上线后,主要需求是开发实时报表,即抽取各 阅读全文
posted @ 2022-01-09 06:10 leesf 阅读(801) 评论(0) 推荐(0) 编辑
摘要: 1. 背景 OnZoom是Zoom新产品,是基于Zoom Meeting的一个独一无二的在线活动平台和市场。作为Zoom统一通信平台的延伸,OnZoom是一个综合性解决方案,为付费的Zoom用户提供创建、主持和盈利的活动,如健身课、音乐会、站立表演或即兴表演,以及Zoom会议平台上的音乐课程。 在O 阅读全文
posted @ 2021-12-26 22:40 leesf 阅读(625) 评论(0) 推荐(0) 编辑
摘要: 1. Hudi表对应的Hive外部表介绍 Hudi源表对应一份HDFS数据,可以通过Spark,Flink 组件或者Hudi客户端将Hudi表的数据映射为Hive外部表,基于该外部表, Hive可以方便的进行实时视图,读优化视图以及增量视图的查询。 2. Hive对Hudi的集成 这里以Hive3. 阅读全文
posted @ 2021-12-12 22:28 leesf 阅读(4907) 评论(1) 推荐(0) 编辑
摘要: 徐昱 Apache Hudi Contributor;华米高级大数据开发工程师 巨东东 华米大数据开发工程师 1. 应用背景及痛点介绍 华米科技是一家基于云的健康服务提供商,拥有全球领先的智能可穿戴技术。在华米科技,数据建设主要围绕两类数据:设备数据和APP数据,这些数据存在延迟上传、更新频率高且广 阅读全文
posted @ 2021-11-14 21:44 leesf 阅读(587) 评论(0) 推荐(0) 编辑
摘要: 作者:李少锋 文章目录: 一、CDC背景介绍 二、CDC数据入湖 三、Hudi核心设计 四、Hudi未来规划 1. CDC背景介绍 首先a56爆大奖在线娱乐们介绍什么是CDC?CDC的全称是Change data Capture,即变更数据捕获,它是数据库领域非常常见的技术,主要用于捕获数据库的一些变更,然后可以把变 阅读全文
posted @ 2021-10-24 20:15 leesf 阅读(1367) 评论(0) 推荐(3) 编辑
摘要: 1. 摘要 在之前的一篇博客中,a56爆大奖在线娱乐们介绍了Clustering(聚簇)的表服务来重新组织数据来提供更好的查询性能,而不用降低摄取速度,并且a56爆大奖在线娱乐们已经知道如何部署同步Clustering,本篇博客中,a56爆大奖在线娱乐们将讨论近期社区做的一些改进以及如何通过HoodieClusteringJob和DeltaStream 阅读全文
posted @ 2021-09-26 22:15 leesf 阅读(1592) 评论(0) 推荐(0) 编辑
摘要: 1. 摘要 Hudi 支持在写入时自动清理未成功提交的数据。Apache Hudi 在写入时引入标记机制来有效跟踪写入存储的数据文件。 在本博客中,a56爆大奖在线娱乐们将深入探讨现有直接标记文件机制的设计,并解释了其在云存储(如 AWS S3、Aliyun OSS)上针对非常大批量写入的性能问题。 并且演示如何通过 阅读全文
posted @ 2021-09-12 21:36 leesf 阅读(770) 评论(0) 推荐(1) 编辑
摘要: 1. 重点特性 1.1 Spark SQL支持 0.9.0 添加了对使用 Spark SQL 的 DDL/DML 的支持,朝着使所有角色(非工程师、分析师等)更容易访问和操作 Hudi 迈出了一大步。 用户现在可以使用 CREATE TABLE....USING HUDI 和 CREATE TABL 阅读全文
posted @ 2021-09-05 22:31 leesf 阅读(956) 评论(0) 推荐(0) 编辑
摘要: 来自字节跳动的管梓越同学一篇关于Apache Hudi在字节跳动推荐系统中EB级数据量实践的分享。 接下来将分为场景需求、设计选型、功能支持、性能调优、未来展望五部分介绍Hudi在字节跳动推荐系统中的实践。 在推荐系统中,a56爆大奖在线娱乐们在两个场景下使用数据湖 a56爆大奖在线娱乐们使用BigTable作为整个系统近线处理的数据 阅读全文
posted @ 2021-08-29 09:26 leesf 阅读(993) 评论(0) 推荐(0) 编辑
摘要: 1. 传统数据湖存在的问题与挑战 传统数据湖解决方案中,常用Hive来构建T+1级别的数据仓库,通过HDFS存储实现海量数据的存储与水平扩容,通过Hive实现元数据的管理以及数据操作的SQL化。虽然能够在海量批处理场景中取得不错的效果,但依然存在如下现状问题: 问题一:不支持事务 由于传统大数据方案 阅读全文
posted @ 2021-08-22 21:59 leesf 阅读(1569) 评论(0) 推荐(0) 编辑
摘要: 全球最大云厂商AWS的 Athena 团队又更新了 Athena 与 Apache Hudi 的集成,以支持新功能及最新的 0.8.0 社区版本。早在Apache Hudi还处于孵化阶段时,AWS Athena 便集成了 Hudi 以支持广大客户在S3上变更数据的需求,随着Hudi被全球各大云厂商集 阅读全文
posted @ 2021-08-22 21:57 leesf 阅读(183) 评论(0) 推荐(0) 编辑
摘要: 1. 介绍 经过Apache Hudi项目委员会讨论及投票决定,来自阿里云的Pengzhiwei和DannyChan成为Apache Hudi Committer,新晋人才也保证了Hudi社区在正确的轨道上不断发展。 Pengzhiwei持续在Apache Hudi社区贡献,开发了诸多特性,如Spa 阅读全文
posted @ 2021-08-01 10:39 leesf 阅读(265) 评论(0) 推荐(0) 编辑
摘要: 1. 前言 当前公司的大数据实时链路如下图,数据源是MySQL数据库,然后通过Binlog Query的方式消费或者直接客户端采集到Kafka,最终通过基于Spark/Flink实现的批流一体计算引擎处理,最后输出到下游对应的存储。 2. 模型特征架构的演进 2.1 第一代架构 广告业务发展初期,为 阅读全文
posted @ 2021-07-11 22:51 leesf 阅读(1350) 评论(0) 推荐(1) 编辑
摘要: Hopsworks特征存储库统一了在线和批处理应用程序的特征访问而屏蔽了双数据库系统的复杂性。a56爆大奖在线娱乐们构建了一个可靠且高性能的服务,以将特征物化到在线特征存储库,不仅仅保证低延迟访问,而且还保证在服务时间可以访问最新鲜的特征值。 企业机器学习模型为指导产品用户交互提供了价值价值。通常这些 ML 模型应用 阅读全文
posted @ 2021-07-04 11:35 leesf 阅读(416) 评论(0) 推荐(0) 编辑
摘要: 1. 背景 多维分析是大数据分析的一个典型场景,这种分析一般带有过滤条件。对于此类查询,尤其是在高基字段的过滤查询,理论上只a56爆大奖在线娱乐们对原始数据做合理的布局,结合相关过滤条件,查询引擎可以过滤掉大量不相关数据,只需读取很少部分需要的数据。例如a56爆大奖在线娱乐们在入库之前对相关字段做排序,这样生成的a56爆大奖在线娱乐文件相关字段的mi 阅读全文
posted @ 2021-06-20 20:09 leesf 阅读(2285) 评论(0) 推荐(0) 编辑
摘要: Apache Hudi提供了MVCC并发模型,保证写入端和读取端之间快照级别隔离。在本篇博客中a56爆大奖在线娱乐们将介绍如何配置来管理多个文件版本,此外还将讨论用户可使用的清理机制,以了解如何维护所需数量的旧文件版本,以使长时间运行的读取端不会失败。 1. 回收空间以控制存储成本 Hudi 提供不同的表管理服务来管 阅读全文
posted @ 2021-06-17 23:44 leesf 阅读(1912) 评论(0) 推荐(0) 编辑
摘要: Apache Hudi是一个开源数据湖管理平台,用于简化增量数据处理和数据管道开发,该平台可以有效地管理业务需求,例如数据生命周期,并提高数据质量。Hudi的一些常见用例是记录级的插入、更新和删除、简化文件管理和近乎实时的数据访问以及简化的CDC数据管道开发。 本期SOFTWARE DAILYa56爆大奖在线娱乐们有 阅读全文
posted @ 2021-06-16 23:40 leesf 阅读(496) 评论(0) 推荐(0) 编辑
摘要: Q1. What are you trying to do? Articulate your objectives using absolutely no jargon. Q2. What problem is this proposal NOT designed to solve? Q3. How 阅读全文
posted @ 2021-06-15 22:48 leesf 阅读(349) 评论(0) 推荐(0) 编辑
摘要: 1. 动机 Lakehouse最早由Databricks公司提出,其可作为低成本、直接访问云存储并提供传统DBMS管系统性能和ACID事务、版本、审计、索引、缓存、查询优化的数据管理系统,Lakehouse结合数据湖和数据仓库的优点:包括数据湖的低成本存储和开放数据格式访问,数据仓库强大的管理和优化 阅读全文
posted @ 2021-05-30 10:57 leesf 阅读(566) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 13 下一页