主题
相似文章转载判定
插件名称: plug_sim_standard
插件作用:用于判断两篇文章是否相似,通常作为文章相互转载的判断依据。
服务依赖:可以选择使用 redis 或者 以前 windows 版本的排重服务
redis 方式任务串示例(使用 tair 时,第三个参数改为 tair)
配置示例
text
:数据处理:输入字段="SY_MD5TAG",任务="plug_sim_standard",参数列表="0+null+redis+0+RID++1",输出字段="是否重复"(SY_ISSAME);
任务串解释
- :数据处理:输入字段="SY_MD5TAG" :
- 每一组任务串都应以 :数据处理: 开头,末尾以 ; 英文分号结尾。
- SY_MD5TAG 为记录字段名,字段值为进行重复判断的依据称之为 key,通常会使用标题或正文的 md5 存入 redis 中,但你也可以自定义任何一个字段来判断其值是否重复。
- 任务="plug_sim_standard" :
- 任务插件固定名称:plug_sim_standard
- 参数列表="0+null+redis+0+RID++1" :
- 多个参数之间使用加号 + 分割。
- 每个参数的位置具有严格的含义,不可省略,具体说明如下:
- 第 1 个参数:0 系统预留无含义。
- 第 2 个参数:
- 依赖排重服务时配置排重服务的 ip 和端口,注意 此处格式为 ip:port。
- 依赖 redis 服务时,无需配置此参数,将使用执行器连接的 redis 进行排重,参数可置为 null。
- 第 3 个参数:标记使用何种服务进行相似转载判定。
- redis 使用 redis 进行相似文章判定。(系统内置固定标识,不可修改)
- 第 4 个参数:0 系统预留无含义。
- 第 5 个参数:RID 给存入 redis 记录的字段添加一个标记值称之为 value,通常使用记录的 RID 或者 SID,便于查看 redis 中存入的 key(md5)是哪条记录。💥此参数值为空时不再进行 redis 验证,结果直接判定为相似(redis 服务实际未使用该值)
- 第 6 个参数:1 系统预留无含义。
- 🎈key 值存入 redis 有效时长,默认为 3 天。
- 输出字段="是否重复"(SY_ISSAME) :
- "是否重复" 代表输出字段的描述,你可以任意指定修改。
- (SY_ISSAME)代表判定结果值输出到哪个字段上,字段可以是记录中存在的,也可以自己定义。结果值为系统内置,值分别为 "0"和 "1"。
- 0 代表不相似。
- 1 代表相似。
排重服务方式示例
配置示例
text
:数据处理:输入字段="SY_MD5TAG",任务="plug_sim_standard",参数列表="0+127.0.0.1:9090+news+0+SID++1",输出字段="是否重复"(SY_ISSAME);
任务串解释
- :数据处理:输入字段="SY_MD5TAG" :
- 每一组任务串都应以 :数据处理: 开头,末尾以 ; 英文分号结尾。
- SY_MD5TAG 为记录字段名,字段值为进行重复判断的依据称之为 key,通常会使用标题或正文的 md5 存入排重服务中,但你也可以自定义任何一个字段来判断其值是否重复。
- 任务="plug_sim_standard" :
- 任务插件固定名称:plug_sim_standard
- 参数列表="0+127.0.0.1:9090+news+0+SID++1" :
- 多个参数之间使用加号 + 分割。
- 每个参数的位置具有严格的含义,不可省略,具体说明如下:
- 第 1 个参数:0 系统预留无含义。
- 第 2 个参数:127.0.0.1:9090 排重服务的 ip 和端口, 注意 此处格式为 ip:port。
- 第 3 个参数:news 排重服务的库名,不同信息类型可以定义不同的库名,以此提高相似比对速度,比如你可以定义 news_title 来存储标题 md5,定义 weixin 来作为微信正文 md5 库。
- 第 4 个参数:0 系统预留无含义。
- 第 5 个参数:SID 给存入排重库记录的字段添加一个标记值称之为 value,通常使用记录的 RID 或者 SID,便于查看排重库中存入的 key(md5)是哪条记录。💥此参数值为空时不再进行排重服务验证,结果直接判定为相似。
- 第 6 个参数:1 系统预留无含义。
- 🎈key 值存入排重库有效时长,根据排重库配置而定。
- 输出字段="是否重复"(SY_ISSAME) :
- "是否重复" 代表输出字段的描述,你可以任意指定修改。
- (SY_ISSAME)代表判定结果值输出到哪个字段上,字段可以是记录中存在的,也可以自己定义。结果值为系统内置,值分别为 "0"和 "1"。
- 0 代表不相似。
- 1 代表相似。
其他参数
- saveMd5Time :
- redis 存储有效期,默认为 3 天。超过这个时间新过来的数据会重新标记为 0,可根据 redis 资源和实际项目需要适当调整该参数。该参数与 readPath 等参数平级配置。