当前位置: 首页 > news >正文

【Log Storage】SLS 技术分析

文章目录

  • SLS 技术分析
    • 日志分析技术流派演进
    • LogStore 技术原理
    • Scan 模式原理
    • 参考文献

SLS 技术分析

日志分析技术流派演进

  1. 传统方式:日志存在本地硬盘,运维人员登录到跳板机,通过 pssh+grep 的脚本去分析日志;pssh(Parallel SSH)是一个命令行工具,对于批量操作非常有用,允许运维人员能够高效地对大量服务器执行相同的操作。
    1. 优点:简单有效,不依赖第三方数据采集和处理设施,适合快速定位线上问题;
    2. 缺点:单机磁盘有限,无法保证可靠存储;bash 脚本只能做简单处理,无法做复杂分析;Bash内置的工具(如grepawksed等)适用于简单的文本处理,但它们不支持复杂的数据分析算法;
  2. ElasticSearch:分区+多副本实现可靠的数据集中存储,倒排索引实现快速的关键词检索,有自身的 DSL 进行聚合分析;Elasticsearch 是建立在 Lucene 之上的,它将 Lucene 的功能进行了封装,并添加了分布式特性,如数据分片、副本管理、集群管理等。
    1. 优点:查询检索能力强,特别是各种模糊、短语查询等;
    2. 缺点:DSL 在分析场景下的表达能力和易用性不如标准 SQL;获取数据通过 REST API 的参数指定,如字段匹配、排序规则和查询范围。数据处理需要使用特定 Java 库;
  3. 大数据技术:如 Hive 和 Spark 等批处理引擎;百度也还是用这种方式;例如:Spark 能够动态地根据作业需求分配和回收资源,这使得它可以高效地处理不同规模的数据集;Spark 通过弹性分布式数据集(RDDs)的谱系图来跟踪数据的转换过程。如果一个节点失败,Spark 可以使用谱系图来恢复丢失的数据。
    1. 优点:可以非常大规模的数据分析,支持 SQL;
    2. 缺点:批处理引擎主要关注扩展性和容错,实时分析场景下较慢;批处理引擎的计算模型更适合批量处理而非实时处理。它们在处理完整个数据集之前不会返回结果,这对于需要即时响应的实时分析来说是不够的。批处理作业通常需要分配大量资源来完成,而这在资源有限的实时分析场景中可能会导致性能问题。
  4. ClickHouse:MPP 架构的 OLAP 引擎,以“快”为第一目标,定义好分配到各个节点的执行计划,全内存流水线操作,出错后快速失败,使用代码生成、向量化等技术去做加速;
    1. 优点:快;ClickHouse 专门为 OLAP 场景优化,使用了列式存储、全内存计算、执行计划优化等技术;代码生成技术用于优化查询的执行计划,特别是在处理复杂的表达式和函数时,通过将查询中的表达式转换成高效的机器代码,可以显著提高查询性能。
    2. 缺点:可扩展性和容错不足,不适合处理长周期任务,更适合交互式实时分析场景;为了发挥出MPP的速度优势,存储层面往往要结合列式存储(压缩比高,加速 IO )和额外的索引(快速定位);

ClickHouse 和 Spark 的设计&#


http://www.mrgr.cn/news/13341.html

相关文章:

  • 【百日算法计划】:每日一题,见证成长(003)
  • 数学建模----线性回归分析(引入热力图的绘制方法)
  • Polar:提高DevSecOps的可观测性
  • git提交本地项目到远程仓库
  • Zookeeper shell 的操作
  • uniapp生活记账小程序
  • 大数据学习路线基础指南‌
  • 应用软件初始化的优缺点,读写ini,json,xml...
  • 《上海服饰》是什么级别的期刊?是正规期刊吗?能评职称吗?
  • [数据集][目标检测]电力场景输电线杆塔塔架金属锈蚀腐蚀生锈检测数据集VOC+YOLO格式1344张1类别
  • 【硬核】开源的高性能轻量级ORM框架
  • 小琳AI课堂:使用ChatGPT API搭建系统(二)
  • docker 数据存储
  • GB28181 SDP协议学习笔记
  • Linux Debian12安装Peek录屏软件,录制gif动态图
  • 【Axure高保真原型】输入框控制多选下拉列表选项
  • 最短路 - BellFord算法
  • 常见拓扑结构的工作原理
  • 抽奖系统PHP源码开源二开版带完整后台
  • 从繁荣到衰退:资本周期如何影响投资回报?-《资本回报》读后感