当前位置: 首页 > news >正文

SQL进阶技巧:数据清洗如何利用组内最近不为空的数据填充缺失值。【埋点日志事件缺失值填充】

目录

0 引言

1 问题描述

2 数据准备 

3 问题分析

4 小结


0 引言

   在用户行为分析中,我们往往需要对用户浏览行为进行分析或获客的渠道进行分析,在埋点日志中用户一个session中会浏览不同的界面,会进行url的跳转,在前端埋点时,往往将用户刚进入界面时的url进行存储,后续在当前页面内的url不会重复存储,这样就会造成大量的空值存在,在数仓建设中我们在dwd层往往需要对数据进行清洗,希望通过对缺失值填充,以满足后续分析的需要。针对用户浏览渠道的缺失,我们往往采用获取当前用户当前行最近的一条数据进行填充,下面我们将该问题进行抽象,模型化,来详细讲解该类问题的处理思路。

1 问题描述

如下图所示,有一张埋点事件表(event),表中渠道id存在部分为空的数据,现在根据如下规则将缺失的数据补充完整。

规则:渠道id为空的,补充为该用户最近一个不为空的渠道id

user_id

http://www.mrgr.cn/news/930.html

相关文章:

  • hive学习(四)
  • 成为Python砖家(3): 何时产生字节码 .pyc 文件
  • 群晖NAS本地搭建可远程交互的大型语言模型LLM聊天机器人
  • HarmonyOs透明弹窗(选择照片弹窗样式)
  • 微前端架构下的负载均衡实现:策略与技术
  • 【项目】Java文档搜索引擎测试报告
  • 域名注册查询方法
  • 一文读懂 服务器
  • JVM 类加载机制
  • JavaScript初级——对象和函数
  • 详细了解JavaScript中的原型链和继承机制
  • 我遇到的flutter问题以及答案(一)
  • windows调试ios记录
  • 深度学习--tensorflow/keras出现各种维度不匹配问题解决
  • STM32之MPU6050实战
  • MiniCPM-V: A GPT-4V Level MLLM on Your Phone论文阅读
  • 所生成项目的处理器架构“MSIL”与引用“***”的处理器架构“x86”不匹配。
  • Android 使用`layer-list`打造精美的背景
  • docker数据卷
  • Vue.js中的v-once指令:全面解析与应用指南