当前位置: 首页 > news >正文

大数据基础:离线与实时数仓区别和建设思路

文章目录

离线与实时数仓区别和建设思路

离线数仓与实时数仓区别

​​​​​​​实时数仓建设思路


离线与实时数仓区别和建设思路

​​​​​​​离线数仓与实时数仓区别

离线数据与实时数仓区别如下:

对比方面

离线数仓

实时数仓

架构选择

传统大数据架构

Kappa架构

建设方法

传统数仓主题建模理论

传统数仓主题建模理论

准确性

准确度高

准确度随着技术发展,准确度高

实时性

T+1

分钟级别、秒级别

稳定性

稳定性好,方便重算

对数据敏感稳定性差,需要考虑数据重新计算

数据存储

HDFS/Hive

Kafka/HBase/Redis/Druid

吞吐量

较高

 

​​​​​​​实时数仓建设思路

在实时数仓中计算框架选型建议优先选择Flink,其具有“流批一体”特性,并且在处理复杂业务场景上性能优异,在实时处理中有逐渐替代spark的趋势。

实时数仓分层方面,实时数仓可采用离线数仓的数据模型进行分层处理,目前建议选择Kafka,实时数仓的数据来源可以为kafka消息队列,这样可以做到队列中的数据既可以写入HDFS用于批量分析,也可以实时处理,下游可以写入数据集市供业务使用。如果实时数据量不大也可以将实时明细层写入ClickHouse、Druid等查询效率高的存储方便下游使用,轻度汇总层对数据进行汇总分析后供下游使用。

数据存储选型中首要考虑查询效率,其次是插入、更新等问题,这里说的存储时最终计算数据结果的存储,可选择ClickHouse、Hbase、apache Druid、Redis等,频繁更新的数据建议不要采用ClickHouse与Druid。当然存储这块需要具体问题具体分析,不同场景下hbase、redis等都是可选项。


  • 📢博客主页:https://lansonli.blog.csdn.net

  • 📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正!

  • 📢本文由 Lansonli 原创,首发于 CSDN博客🙉

  • 📢停下休息的时候不要忘了别人还在奔跑,希望大家抓紧时间学习,全力奔赴更美好的生活✨ 


http://www.mrgr.cn/news/14402.html

相关文章:

  • AI模型:全能与专精的较量与未来潜力探讨
  • Vue vue/cli3 与 vue/cli4 v-for 和 v-if 一起使用冲突
  • IPv4地址和子网掩码
  • 2024最新FL Studio24.1.1.4285破解版中文安装包百度云网盘下载地址
  • python脚本自动备份华为交换机配置,Console重置密码,升级系统文件
  • 全局点云配准的新思考:没有良好初值时如何配准?
  • 少儿编程入门,Scratch、Python与C++,谁能成为孩子的首选语言?
  • AI绘画SD教程 | StableDiffusion像素风格绘制,轻松制作复古怀旧像素游戏画面风格,保姆级教程带你快速入门!
  • 153页PPT丨麦肯锡-咨询公司流程管理体系规划建设方法论
  • 基于SpringBoot的银行OA系统设计与实现
  • MC新手教程
  • 【SpringCloud Alibaba】(九)学习 Gateway 服务网关
  • 微服务入门
  • 【学习笔记】技术分析-华为智驾控制器MDC Pro 610分析
  • ansible的脚本
  • 汽车DV与PV测试
  • 游戏设计师:创造虚拟世界的艺术家
  • ‍ 猫头虎 分享:Python库 PyTorch 的简介、安装、用法详解入门教程
  • 工厂模式说明
  • Prometheus 和 Grafana 通过nginx-exporter监控nginx