当前位置: 首页 > news >正文

Flink常用转换算子使用教程(DataSTream API)

前言

一个 Flink 程序,其实就是对 DataStream 的各种转换。具体来说,代码基本上都由以下几部分构成,如下图所示:

  • 获取执行环境(execution environment)
  • 读取数据源(source)
  • 定义基于数据的转换操作(transformations)
  • 定义计算结果的输出位置(sink)
  • 触发程序执行(execute)

在这里插入图片描述

数据源读入数据之后,我们就可以使用各种转换算子,将一个或多个 DataStream 转换为新的 DataStream,如上图所示。一个 Flink 程序的核心,其实就是所有的转换操作,它们决定了处理的业务逻辑。

我们可以针对一条流进行转换处理,也可以进行分流、合流等多流转换操作,从而组合成复杂的数据流拓扑。

本篇博客主要重点介绍基本的单数据流的转换。

数据准备

为了更好地理解,我们先构建一个实际应用场景。比如网站的访问操作,可以抽象成一个三元组(用户名,用户访问的 urrl,用户访问 url 的时间戳),所以在这里,我们可以创建一个类 Event,将用户行为包装成它的一个对象。Event 包含了以下一些字段,如下表所示:


http://www.mrgr.cn/news/2624.html

相关文章:

  • Floyd算法(最短路问题)
  • 【论文学习与撰写】快捷搜索指令filetype:pdf,搜索引擎关键词搜索pdf格式文件或者word格式文件。文献搜索方法大全。
  • 集团数字化转型方案(四)
  • 性能基础之硬盘性能知识必知必会
  • Javaweb学习之JavaScript输出与字符串(二)
  • 【鸿蒙学习】HarmonyOS应用开发者基础 - 构建更加丰富的页面(一)
  • Android.bp和Android.mk文件有的区别
  • web服务器相关知识
  • Redis
  • web服务nginx
  • 企业选择刀片式服务器租用的用途?
  • Ubuntu/Windows双系统中设置 Windows 为默认启动系统的三种方法
  • Hadoop 的基本 shell 命令
  • 如何查看Squid的DNS缓存
  • XSS游戏
  • Servlet的三种写法
  • 生产环境docker nginx+php8.0镜像
  • ubuntu安装虚拟环境(tensorflow、torch)
  • Linux环境开发工具【yum与vim】
  • ESLint 配置的最佳实践