Skip to content

规则分类打标

插件名称: plug_frulecat

插件作用:根据规则分类模板,识别文本中命中的规则词,标记所属分类,常用于地域、领域分类

服务依赖:ckm8

任务串示例

配置示例
text
:数据处理:输入字段="IR_URLTITLE+IR_CONTENT",任务="plug_frulecat",参数列表="数据打标",输出字段="通用规则"(SY_COMMON_TAGS),输出字段="通用规则词"(SY_COMMON_FEATURE_WORDS),输出字段="市场监管规则"(SY_COMMON_MARK_TAG2),输出字段="市场监管规则词"(SY_COMMON_MARK_WORD2),输出字段="省市县分类"(SY_COMMON_MARK_TAG1),输出字段="省市县分类规则词"(SY_COMMON_MARK_WORD1);

任务串解释

  • :数据处理:输入字段="IR_URLTITLE+IR_CONTENT" :
    1. 每一组任务串都应以 :数据处理: 开头,末尾以 ; 英文分号结尾。
    2. IR_URLTITLE+IR_CONTENT 为记录字段名,多个字段使用+ 加号分割,你可以自定义从一个或多个字段值中进行抽取。 💡提示:减少分析压力可以调整从摘要抽取。
    3. 文本抽取前默认会清理 html 标签、转义字符等。
  • 任务="plug_frulecat" :
    1. 任务插件固定名称:plug_frulecat
  • 参数列表="数据打标++" :
    1. 多个参数之间使用加号 + 分割,加号+ 个数没有具体含义。💡提示:此任务支持一个参数。
    2. 第一个参数 "数据打标" 代表 ckm 规则分类的模板名称,你可以修改成 ckm 中存在的其他模板名称。
    3. 当你要对多个规则模板进行打标时,你可以配置多组任务串,但是为了提高分析速度,可以将多个模板合并为一个模板,把结果一并返回存放在字段中,也可以将返回的结果根据匹配存放在不同字段中。
      1. 如图,模板 "数据打标" 就是一个包含了"监管机构名称"、 "市场监管"、"省市县分类"等多个分类的合并模板。 1.png
  • 输出字段=" 通用规则"(SY_COMMON_TAGS),输出字段="通用规则词"(SY_COMMON_FEATURE_WORDS),输出字段="市场监管规则"(SY_COMMON_MARK_TAG2),输出字段="市场监管规则词"(SY_COMMON_MARK_WORD2),输出字段="省市县分类"(SY_COMMON_MARK_TAG1),输出字段="省市县分类规则词"(SY_COMMON_MARK_WORD1) :
    1. 输出字段中的描述(蓝色字体)是系统内置,可将返回的结果集根据描述名称分别匹配到指定字段,括号中的字段你可以任意指定。当前内置描述包括如下部分:
      1. 通用规则 通用规则词
      2. 领域规则 领域规则词
      3. 地区分类 地区规则词
      4. 市场监管规则 市场监管规则词
      5. 省市县分类 省市县分类规则词
    2. (SY_COMMON_TAGS) 代表抽取的规则分类存放在该字段上,通用规则会存放合并模板里的所有结果规则分类,形如: 2.png
    3. (SY_COMMON_FEATURE_WORDS) 代表抽取的规则分类词存放在改字段上,通用规则词会存放合并模板里的所有结果规则词。 3.png
    4. 对于合并模板,你也可以将某个分类结果单独存放在指定字段中,比如将合并模板中的省市县规则分类结果存放在 SY_COMMON_MARK_TAG1 中,规则分类词结果存放在 SY_COMMON_MARK_WORD1 中,形如: 4.png

任务过滤

  • 当前插件还提供了过滤配置,你可以选择跳过某些不需要进行分类的记录,示例如下:
配置示例
text
:数据处理:输入字段="IR_URLTITLE+IR_CONTENT",任务="plug_frulecat",参数列表="数据打标++",条件过滤="SY_OVERSEA#0-true#1-false",输出字段="通用规则"(SY_COMMON_TAGS),输出字段="通用规则词"(SY_COMMON_FEATURE_WORDS)

条件过滤="SY_OVERSEA#0-true#1-false" :

  1. 当 SY_OVERSEA 字段值为 0 时输出 true,进行规则规则分类。
  2. 当 SY_OVERSEA 字段值为 1 时输出 false,跳过记录,不进行规则分类。

数据业务研发中心