BigQuery 数仓架构调研与 CDC 方案实践
概述BigQuery 是 Google Cloud 提供的企业级无服务器数据仓库解决方案。本文档基于实际调研,总结 BigQuery 在数据仓库场景下的应用方案,特别是如何高效处理变更数据捕获(CDC)场景。 核心特点: 📊 列式存储,适合大规模数据分析 ⚡ 无服务器架构,自动扩展 💰 按查询量计费 🔄 支持实时数据流和批处理 背景知识BigQuery 的特殊性主键约束BigQuery 可以定义主键(Primary Key)和外键(Foreign Key),但与传统关系型数据库不同: 非强一致性:主键不会阻止重复数据插入 无唯一键:不存在 UNIQUE 约束 数据叠加:相同主键的数据会累加,而非覆盖 示例: 12345678910-- 定义主键(声明式,不强制)CREATE TABLE `project.dataset.table` ( id INT64 NOT NULL, name STRING, PRIMARY KEY (id) NOT ENFORCED);-- 即使有主键,以下操作依然会成功INSERT INTO `project.dataset.tab...
