主题
URL 格式化处理
插件名称: plug_url_standard
- 插件作用:用于将信息的链接处理成相同标准的格式。
- 🎈通常一条信息的 url 链接应该代表一条唯一的记录,也常用于生成主键 SID,IR_HKEY 等,但有时由于采集方式的不同,同一条记录会出现 如下 url 链接的情况:
- 📍 一条记录可能会有 http 和 https 两种链接
- 📍 一条记录可能会有 http 协议头重复
- http://http://baijiahao.baidu.com/s?id=1690300164379111734&wfr=spider&for=pc
- 📍 一条记录可能会有 https 协议头重复
- https://https://baijiahao.baidu.com/s?id=1690300164379111734&wfr=spider&for=pc
- 📍 一条记录可能会有 http 和 https 协议头混合
- http://https://baijiahao.baidu.com/s?id=1690300164379111734&wfr=spider&for=pc
- https://http://baijiahao.baidu.com/s?id=1690300164379111734&wfr=spider&for=pc
- 📍 一条记录可能 不包含 http 或者 https 协议头
- baijiahao.baidu.com/s?id=1690300164379111734&wfr=spider&for=pc
- 🎈通常一条信息的 url 链接应该代表一条唯一的记录,也常用于生成主键 SID,IR_HKEY 等,但有时由于采集方式的不同,同一条记录会出现 如下 url 链接的情况:
任务串示例
配置示例
text
:数据处理:输入字段="IR_URLNAME",任务="plug_url_standard",输出字段="标准化结果"(IR_URLNAME);
任务串解释
- :数据处理:输入字段="IR_URLNAME" :
- 每一组任务串都应以 :数据处理: 开头,末尾以 ; 英文分号结尾。
- IR_RULNAME 为记录字段名,字段值为要进行标准化的 url 链接。
- 任务="plug_url_standard" :
- 任务插件固定名称:plug_url_standard
- 输出字段="标准化结果"(IR_URLNAME) :
- "标准化结果" 代表输出字段的描述,你可以任意指定修改。
- (IR_URLNAME) 代表格式化后的结果输出到该字段,你可以任意指定修改。
- 对于所有满足 本文开头中提到的 url 链接情况,系统都会将其格式化为 以 http:// 开头的格式,形如:http://baijiahao.baidu.com/s?id=1690300164379111734&wfr=spider&for=pc