Skip to content

重复数据过滤

插件名称: plug_skip_null_field_filter

注:(正常过滤插件为在其他插件执行前执行,如需在本条数据分析完后执行,插件名改为 plug_skip_null_later) 插件作用:跳过指定字段全为空或全为零的数据。

例如,当给文章数据更新数值字段时,可指定原文件的数值字段,若所有数值字段均为 0,或者为空,则跳过不进行处理,可减少对无效数据的处理,节约系统资源

任务串示例

配置示例
text
:数据处理:输入字段="filter",任务="plug_skip_null_field_filter",参数列表="IR_NRESERVED1+IR_NRESERVED2+IR_NRESERVED3+IR_NRESERVED4",输出字段="字段全为空过滤"(filter);

任务串解释

  • :数据处理:输入字段="filter" :
    1. 每一组任务串都应以 :数据处理: 开头,末尾以 ; 英文分号结尾。
    2. filter 为记录字段名,此处可以为任意字段,你还可以填写一个不存在的字段,不影响空数据的过滤,只是保证任务串的格式统一而已。
  • 任务="plug_skip_null_field_filter" :
    1. 任务插件固定名称:plug_skip_null_field_filter
  • 参数列表="IR_NRESERVED1+IR_NRESERVED2+IR_NRESERVED3+IR_NRESERVED4" :
    1. 指定判定为空的字段,多个参数之间使用加号 + 分割,当参数中的字段值有一个不为空时,则保留这条数据。当参数中所有字段均为 空,"NULL", "null", "0" 时,则跳过这条数据
    2. 注意:此插件在分析的最开始执行,与任务串的位置无关,应指定原数据文件中的判定字段。若字段值均为空,则直接跳过,不进行后续任务串的分析
  • 输出字段="字段全为空过滤"; :
    1. "是否重复" 代表输出字段的描述,你可以任意写一个该输出字段的备注,比如 "过滤结果"。
    2. 通常输出字段 都会使用 (field) 来输出结果到指定字段,但是此插件目的是对重复数据过滤,你可以不再写输出字段,但为了保持任务串格式统一你也可以像这样写一个 输出字段="是否重复"(filter); 但这并不影响过滤结果。

数据业务研发中心