1、ETL工具
ETLCloud数据集成平台集实时数据集成和离线数据集成以及API发布为一体的数据集成平台。与其他开源数据集成工具相比,采用轻量化架构、拥有更快的安排速度、更快的数据传输速度、更低的运维成本,同期支持多租户的团队协作能力,能够满足企业各样繁杂的数据处理需求。含有丰富的ETL操作关联的组件,经过拉取的方式来搭建流程,针对小白和非研发人员来讲非常的友好。
今天咱们要介绍两个在ETL过程中经常运用的组件,双流join合并组件和多流UnionAll合并组件。
2、组件演示
1、双流join合并组件
首要创建好流程,在数据运算组件中找到双流合并组件,顾名思义这个组件是将两边的数据流合并在一块,join便是咱们sql语法中的内连接和外连接了,因此咱们必须拉取两个输入组件,这儿咱们拉取库表输入组件,流程设计如下:
库表输入配置,只必须配置好关联数据源,选取库表,设置输入字段就可
双流join组件,点击组件打开配置页面,必须理解了sql语法中的join操作就可上手。
在join模式中有三个选项,分别是左连接,内连接,笛卡尔积, LEFT JOIN 会返回左边表(左表)的所有行,以及右边表(右表)中与左表匹配的行。倘若右表中无匹配的行,则会返回 NULL 值。INNER JOIN 是最常用的连接操作,它按照两个表之间的一起列的值将两个表进行连接。只返回符合连接要求的行,即两个表中经过连接要求相关起来的行。笛卡儿积指的是将两个表中的每一行都与另一个表中的每一行进行组合,返回的结果集体积为两个表行数的乘积。
经过leftjoin举例说明,按照自己的需求决定上下表对应的数据流,
相关要求配置,即符合要求的数据就保存
字段配置能够决定那些字段保存那些去掉,A表合并后的数据将以此字段配置为准,无配置在本字段列表中的字段将被删除
指定B表必须加入到A表中的字段,不必须加入的字段请删除
点击保留,运行结果如下,数据会按照咱们所配置的输出。
2、多流合并组件
拉取多流Uinon合并组件,创建如下流程,多流合并组件相比双流join组件有两个区别点,一个是把多个流合并成一个流的数据,将区别节点的数据组合为新的数据。
打开多流Union合并配置页,能够发掘便是单纯把必须的字段保存不必须的去掉,而后把多条流的数据合并输出。
字段配置中,咱们选取咱们必须的字段。
合并运行查看日志能够看出
双流join是会按照join要求而合并的,多流union会对每条流的数据进行字段合并,而后统一输出成新的数据。
3、总结
在ETL过程中经常运用的两个组件是双流join合并组件和多流UnionAll合并组件。
双流join合并组件:用于将两边的数据流合并在一块,支持左连接、内连接和笛卡尔积。用户能够按照必须选取左连接保存左表所有行、内连接返回符合要求的数据行,或笛卡尔积返回两表所有可能组合的行。配置简单直观,按照相关要求和字段配置进行数据合并,并输出结果。
多流UnionAll合并组件:用于将多个数据流合并成一个流的数据,将区别节点的数据组合为新的数据。用户能够选取必须的字段进行保存,而后将多条流的数据合并输出。在字段配置中选取所需字段,而后合并运行查看日志就可输出合并后的数据。
总的来讲,双流join合并组件适用于按照要求合并数据流,而多流UnionAll合并组件适用于将多条流数据合并成一个新的数据流。这些组件在ETLCloud中供给了强大的数据处理功能,方便用户进行数据集成和处理操作。
|