Skip to content

微博内容抽取

插件名称: plug_wb_extract

插件作用:从微博正文中抽到标题、话题、表情符号、转发层级、博主名称等。

服务依赖:无

任务串示例

配置示例
text
:数据处理:输入字段="IR_URLTITLE",任务="plug_wb_extract",输出字段="标题抽取"(SY_WB_TITLE),输出字段="话题抽取"(SY_WB_TOPIC),输出字段="表情抽取"(SY_WB_EMOJI),输出字段="转发关系抽取"(SY_WB_FORWARD_RELA),输出字段="转发层级"(SY_WB_FORWARD_LEVEL),输出字段="博主名称抽取"(SY_WB_EXTRACT_NAME),输出字段="纯文本"(IR_CONTENT);

任务串解释

  • :数据处理:输入字段="IR_URLTITLE" :
    1. 每一组任务串都应以 :数据处理: 开头,末尾以 ; 英文分号结尾。
    2. IR_URLTITLE 为记录字段名,多个字段使用 + 加号分割,你还可以自定义多个字段作为抽取来源。
  • 任务="plug_wb_extract" :
    1. 任务插件固定名称:plug_wb_extract
  • 输出字段="标题抽取"(SY_WB_TITLE),输出字段="话题抽取"(SY_WB_TOPIC),输出字段="表情抽取"(SY_WB_EMOJI),输出字段="转发关系抽取"(SY_WB_FORWARD_RELA),输出字段="转发层级"(SY_WB_FORWARD_LEVEL),输出字段="博主名称抽取"(SY_WB_EXTRACT_NAME),输出字段="纯文本"(IR_CONTENT) :
    1. 以下所有描述名称均可任意定义修改,当前抽取主要包含如下描述部分
    2. "标题抽取"
    3. "话题抽取"
    4. "表情抽取"
    5. "转发关系博主名抽取"
    6. "转发层级"
    7. "博主名称抽取"
    8. "存文本",清理表情、博主名后的文本内容。
    9. (SY_WB_TITLE)、(SY_WB_TOPIC)、(SY_WB_EMOJI)、(SY_WB_FORWARD_RELA)、(SY_WB_FORWARD_LEVEL)、(SY_WB_EXTRACT_NAME)、(IR_CONTENT) 代表抽取结果存放字段,字段名称不可修改。

结果示例

📃微博内容样本: 人民日报:【#中国为什么加快推进数字人民币# ?】数字人民币渐行渐近,先后在深圳、苏州等地完成多轮试点测试,且测试规模、测试场景以及参与机构不断实现突破 。@中国青年网记者采访了解到,【中国央行正加速推进数字人民币研发工作】中国的数字货币研发在全球处于什么位置?中国为什么加快推进数字人民币的步伐?数字人民币将引发金融业乃至更大范围哪些变化呢?@财经网 #洞见计划# 速戳 O 中国为什么加快推进数字人民币,现在出行和工作需要用这种检测结果的地方太多了。//@政经观察员范利祥:转发微博//@环球网:120 元降到 80 元!

⭐"标题抽取" 多个标题使用英文分号 ; 分割,内容中以被中文中括号包裹的定义为微博短标题 结果:【#中国为什么加快推进数字人民币# ?】;【中国央行正加速推进数字人民币研发工作】

⭐"话题抽取" 多个话题使用英文分号 ; 分割 结果:#中国为什么加快推进数字人民币#;#洞见计划#

⭐"表情抽取" 多个表情使用英文分号 ; 分割,重复表情会去重提取 结果: ;

⭐"转发关系博主名抽取" 根据转发关系规律(正文中以 //@开头 英文冒号: 结尾,中间的为博主名 作为一个转发标识),提取博主名称。 结果: 人民日报;政经观察员范利祥;环球网

⭐"转发层级" 根据转发关系规律提取到的转发次数 结果:2

⭐"博主名称" 识别规则 1,内容中转发关系的博主名,识别规则 2,带@的博主名 @符号到其后的第一个标点符号 结果:中国青年网;财经网;政经观察员范利祥;环球网

⭐"纯文本" 提取不含转发关系和博主名称,表情符号的正文 结果: 【#中国为什么加快推进数字人民币# ?】数字人民币渐行渐近,先后在深圳、苏州等地完成多轮试点测试,且测试规模、测试场景以及参与机构不断实现突破。,【中国央行正加速推进数字人民币研发工作】中国的数字货币研发在全球处于什么位置?中国为什么加快推进数字人民币的步伐?数字人民币将引发金融业乃至更大范围哪些变化呢? #洞见计划# 速戳 O 中国为什么加快推进数字人民币,现在出行和工作需要用这种检测结果的地方太多了。转发微博 120 元降到 80 元!

数据业务研发中心