主题
关键词摘要抽取
插件名称: plug_abs
插件作用:用于从一段文本中同时抽取出摘要和关键词
配置示例
text
:数据处理:输入字段="IR_URLTITLE+IR_CONTENT",任务="plug_abs",参数列表="++++++",输出字段="摘要"(SY_ABSTRACT),输出字段="关键词"(SY_KEYWORDS);
任务串解释
- :数据处理:输入字段="IR_URLTITLE+IR_CONTENT" :
- 每一组任务串都应以 :数据处理: 开头,末尾以 ; 英文分号结尾。
- IR_URLTITLE+IR_CONTENT 为记录字段名,多个字段使用+ 加号分割,你可以自定义从一个或多个字段值中进行抽取。 💡提示:当项目中文件分析过慢时,如果数据中心推送字段已存在摘要和关键词,则可以直接使用映射任务串,减少分析压力。
- 文本抽取前默认会清理 html标签、转义字符等。
- 任务="plug_abs" :
- 任务插件固定名称:plug_abs
- 参数列表="++++++" :
- 多个参数之间使用加号 + 分割。
- 参数列表="+++++" 代表没有任何参数,你可以像这样 参数列表="" 只填写一个加号来对参数占位, 也可以像这样填写多个 参数列表="++" ,甚至可以删除 参数列表="+++++" 这一段参数配置。
- 当配置了参数时,参数的位置就具有了严格的含义,对于关键词摘要抽取也可以指定如下参数。
- 📌抽取模板:ckm默认
- 📌关键词个数:默认值 10
- 📌摘要长度(字符数):默认值 200
- 📌摘要长度占抽取文本百分比:默认值 50
- 配置参数的示例:参数列表="empty+5+150+30"
- 含义:使用ckm默认模板,从文本中抽取5个关键词,摘要最大长度为150个字符,最大占比为正文的 30%。
- 由于参数具有严格占位,某个参数不想配置使用默认值时,可以使用 empty 来占位,但是不能直接跳过省略。
- 输出字段="摘要"(SY_ABSTRACT),输出字段="关键词"(SY_KEYWORDS) :
- "摘要"、"关键词" 代表输出字段的描述,此处为固定描述不可修改。
- (SY_ABSTRACT)代表抽取的摘要值 输出到哪个字段上,字段可以是记录中存在的,也可以自己定义。如果字段在记录中存在,记录的原有值会被覆盖为当前值。
- (SY_KEYWORDS) 代表抽取的关键词值 输出到哪个字段上,字段可以是记录中存在的,也可以自己定义。如果字段在记录中存在,记录的原有值会被覆盖为当前值。
- 注意 "摘要"(SY_ABSTRACT) 引号 和英文括号是必须的格式。