Skip to content

URL 格式化处理

插件名称: plug_url_standard

  • 插件作用:用于将信息的链接处理成相同标准的格式。
    • 🎈通常一条信息的 url 链接应该代表一条唯一的记录,也常用于生成主键 SID,IR_HKEY 等,但有时由于采集方式的不同,同一条记录会出现 如下 url 链接的情况:

任务串示例

配置示例
text
:数据处理:输入字段="IR_URLNAME",任务="plug_url_standard",输出字段="标准化结果"(IR_URLNAME);

任务串解释

  • :数据处理:输入字段="IR_URLNAME" :
    1. 每一组任务串都应以 :数据处理: 开头,末尾以 ; 英文分号结尾。
    2. IR_RULNAME 为记录字段名,字段值为要进行标准化的 url 链接。
  • 任务="plug_url_standard" :
    1. 任务插件固定名称:plug_url_standard
  • 输出字段="标准化结果"(IR_URLNAME) :
    1. "标准化结果" 代表输出字段的描述,你可以任意指定修改。
    2. (IR_URLNAME) 代表格式化后的结果输出到该字段,你可以任意指定修改。
    3. 对于所有满足 本文开头中提到的 url 链接情况,系统都会将其格式化为 以 http:// 开头的格式,形如:http://baijiahao.baidu.com/s?id=1690300164379111734&wfr=spider&for=pc

数据业务研发中心