Skip to content

关键词摘要抽取

插件名称: plug_abs

插件作用:用于从一段文本中同时抽取出摘要和关键词

配置示例
text
:数据处理:输入字段="IR_URLTITLE+IR_CONTENT",任务="plug_abs",参数列表="++++++",输出字段="摘要"(SY_ABSTRACT),输出字段="关键词"(SY_KEYWORDS);

任务串解释

  • :数据处理:输入字段="IR_URLTITLE+IR_CONTENT" :
    1. 每一组任务串都应以 :数据处理: 开头,末尾以 ; 英文分号结尾。
    2. IR_URLTITLE+IR_CONTENT 为记录字段名,多个字段使用+ 加号分割,你可以自定义从一个或多个字段值中进行抽取。 💡提示:当项目中文件分析过慢时,如果数据中心推送字段已存在摘要和关键词,则可以直接使用映射任务串,减少分析压力。
    3. 文本抽取前默认会清理 html标签、转义字符等。
  • 任务="plug_abs" :
    1. 任务插件固定名称:plug_abs
  • 参数列表="++++++" :
    1. 多个参数之间使用加号 + 分割。
    2. 参数列表="+++++" 代表没有任何参数,你可以像这样 参数列表="" 只填写一个加号来对参数占位, 也可以像这样填写多个 参数列表="++" ,甚至可以删除 参数列表="+++++" 这一段参数配置。
    3. 当配置了参数时,参数的位置就具有了严格的含义,对于关键词摘要抽取也可以指定如下参数。
      1. 📌抽取模板:ckm默认
      2. 📌关键词个数:默认值 10
      3. 📌摘要长度(字符数):默认值 200
      4. 📌摘要长度占抽取文本百分比:默认值 50
    4. 配置参数的示例:参数列表="empty+5+150+30"
      1. 含义:使用ckm默认模板,从文本中抽取5个关键词,摘要最大长度为150个字符,最大占比为正文的 30%。
      2. 由于参数具有严格占位,某个参数不想配置使用默认值时,可以使用 empty 来占位,但是不能直接跳过省略。
  • 输出字段="摘要"(SY_ABSTRACT),输出字段="关键词"(SY_KEYWORDS) :
    1. "摘要"、"关键词" 代表输出字段的描述,此处为固定描述不可修改。
    2. (SY_ABSTRACT)代表抽取的摘要值 输出到哪个字段上,字段可以是记录中存在的,也可以自己定义。如果字段在记录中存在,记录的原有值会被覆盖为当前值。
    3. (SY_KEYWORDS) 代表抽取的关键词值 输出到哪个字段上,字段可以是记录中存在的,也可以自己定义。如果字段在记录中存在,记录的原有值会被覆盖为当前值。
    4. 注意 "摘要"(SY_ABSTRACT) 引号 和英文括号是必须的格式。

数据业务研发中心