Skip to content

通用分析任务

任务名称:analyJobHandler

任务作用:根据配置的任务串插件,对源数据进行字段映射,媒体打标等分析转换处理

配置示例
text
readPath=/home/data/weibo
writePath=/home/data/weibo_ret
corePoolSize=10
maximumPoolSize=16
:数据处理:输入字段="IR_BBSNUM",任务="plug_change_colname",参数列表="0+IR_BBSNUM#isEmpty-0",输出字段="映射字段名称"(IR_BBSNUM);
:数据处理:输入字段="SY_INFOTYPE",任务="plug_change_colname",参数列表="4",输出字段="映射字段名称"(SY_INFOTYPE);
:数据处理:输入字段="SY_INFOTYPE",任务="plug_merge",参数列表="IR_HKEY+IR_BBSNUM+#",输出字段="拼接结果字段"(SID);
:数据处理:输入字段="IR_HKEY",任务="plug_gen_id",参数列表="null+null+redis+",输出字段="ID标记"(RID);
:数据处理:输入字段="IR_RETWEETED_URL",任务="plug_change_colname",输出字段="映射字段名称"(IR_PEXTAG1);
:数据处理:输入字段="IR_THUMBNAIL_PIC",任务="plug_change_colname",输出字段="映射字段名称"(IR_PEXTAG3);
:数据处理:输入字段="IR_UID",任务="plug_change_colname",输出字段="映射字段名称"(IR_ACCOUNT_UID);
:数据处理:输入字段="IR_RTTCOUNT",任务="plug_change_colname",参数列表="0+IR_RTTCOUNT#isEmpty-0",输出字段="映射字段名称"(IR_COUNT1);
:数据处理:输入字段="IR_COMMTCOUNT",任务="plug_change_colname",参数列表="0+IR_COMMTCOUNT#isEmpty-0",输出字段="映射字段名称"(IR_COUNT2);
:数据处理:输入字段="IR_SCREEN_NAME",任务="plug_change_colname",输出字段="映射字段名称"(IR_AUTHORS);
:数据处理:输入字段="IR_CREATED_AT",任务="plug_change_colname",输出字段="映射字段名称"(IR_URLTIME);
:数据处理:输入字段="IR_KEYWORD",任务="plug_change_colname",输出字段="映射字段名称"(IR_KEYWORDS);
:数据处理:输入字段="IR_STATUS_CONTENT",任务="plug_change_colname",输出字段="映射字段名称"(IR_CONTENT),输出字段="映射字段名称"(IR_URLTITLE);
:数据处理:输入字段="IR_RETWEETED_UID",任务="plug_change_colname",输出字段="映射字段名称"(IR_CEXTAG1);
:数据处理:输入字段="IR_RETWEETED_SCREEN_NAME",任务="plug_change_colname",输出字段="映射字段名称"(IR_CEXTAG2);
:数据处理:输入字段="IR_RETWEETED_MID",任务="plug_change_colname",输出字段="映射字段名称"(IR_CEXTAG3);
:数据处理:输入字段="IR_TABLEFLAG",任务="plug_change_colname",参数列表="0+IR_TABLEFLAG#isEmpty-0",输出字段="映射字段名称"(IR_TABLEFLAG);
:数据处理:输入字段="IR_GROUPFLAG",任务="plug_change_colname",参数列表="0+IR_GROUPFLAG#isEmpty-0",输出字段="映射字段名称"(IR_GROUPFLAG);
:数据处理:输入字段="IR_IMAGEFLAG",任务="plug_change_colname",参数列表="0+IR_IMAGEFLAG#isEmpty-0",输出字段="映射字段名称"(IR_IMAGEFLAG);
:数据处理:输入字段="IR_CONTENT",任务="plug_weibo_topic",输出字段="微博话题抽取"(SY_CEXTAG1);
:数据处理:输入字段="IR_ACCOUNT_UID",任务="plug_media_standard",参数列表="OM_媒体库词典.dict+IR_SITENAME",输出字段="媒体性质"(SY_MEDIA_TYPE1),输出字段="媒体类型"(SY_MEDIA_TYPE2),输出字段="城市"(SY_MEDIA_CITY),输出字段="省份"(SY_MEDIA_PROVINCE),输出字段="大区"(SY_MEDIA_AREA),输出字段="是否校验"(SY_MEDIA_CHECKED),输出字段="国家"(SY_MEDIA_COUNTRY),输出字段="排名"(SY_MEDIA_RANK);
:数据处理:输入字段="IR_CONTENT",任务="plug_md5",输出字段="md5标记"(SY_MD5TAG),输出字段="映射字段名称"(SY_MD5TAG_TITLE);输入字段="SY_MD5TAG",任务="plug_sim_standard",参数列表="0+null+redis+0+RID+++1+",输出字段="是否重复"(SY_ISSAME),输出字段="映射字段名称"(SY_ISSAME_TITLE);
:数据处理:输入字段="IR_CONTENT",任务="plug_cal_string_len",输出字段="映射字段名称"(SY_WORDCNT);
:数据处理:输入字段="IR_CONTENT",任务="plug_abs",参数列表="++++++",输出字段="摘要"(SY_ABSTRACT),输出字段="关键词"(SY_KEYWORDS);
:数据处理:输入字段="IR_CONTENT",任务="plug_frulecat",参数列表="RULE_COMMON_NEW++",输出字段="通用规则"(SY_COMMON_TAGS),输出字段="通用规则词"(SY_COMMON_FEATURE_WORDS),输出字段="地区规则"(SY_CONTENT_AREA),输出字段="地区规则词"(SY_CONTENT_FEATURE_WORDS),输出字段="领域规则"(SY_PROJECT_TAGS),输出字段="领域规则词"(SY_PROJECT_FEATURE_WORDS);
:数据处理:输入字段="IR_URLTITLE",任务="plug_frulecat",参数列表="EMOTION++",输出字段="通用规则"(SY_BB_COMMON),输出字段="通用规则词"(SY_BB_KEYWORDS);
:数据处理:输入字段="IR_CONTENT",任务="plug_plo",输出字段="人名"(SY_PEOPLE),输出字段="地名"(SY_LOC),输出字段="机构名"(SY_ORG);
:数据处理:输入字段="IR_URLTIME",任务="plug_date_standard",参数列表="SY_URLTIME",输出字段="年"(SY_URLTIME_YEAR),输出字段="月"(SY_URLTIME_YM),输出字段="日"(SY_URLTIME_YMD),输出字段="时"(SY_URLTIME_HOUR),输出字段="YYYY.MM.DD HH"(SY_URLTIME_YMDH);
:数据处理:输入字段="IR_ACCOUNT_UID",任务="plug_wb_account",输出字段="账号省份"(IR_ACCOUNT_PROVINCE),输出字段="账号城市"(IR_ACCOUNT_CITY),输出字段="账号粉丝数"(IR_ACCOUNT_COUNT1),输出字段="账号关注数"(IR_ACCOUNT_COUNT2),输出字段="账号发文数"(IR_ACCOUNT_COUNT3),输出字段="账号认证类型"(IR_ACCOUNT_VERIFIED),输出字段="账号性别"(IR_ACCOUNT_GENDER),输出字段="账号头像"(SY_WB_PROFILE_IMAGE),输出字段="博主介绍"(SY_WB_REASON);
:数据处理:输入字段="IR_URLTITLE",任务="plug_wb_extract",输出字段="标题抽取"(SY_WB_TITLE),输出字段="话题抽取"(SY_WB_TOPIC),输出字段="表情抽取"(SY_WB_EMOJI),输出字段="转发关系抽取"(SY_WB_FORWARD_RELA),输出字段="转发层级"(SY_WB_FORWARD_LEVEL),输出字段="博主名称抽取"(SY_WB_EXTRACT_NAME),输出字段="纯文本"(IR_CONTENT);
:数据处理:输入字段="SY_CEXTAG3",任务="plug_change_colname",参数列表="数据中心",输出字段="数据来源"(SY_CEXTAG3);

任务串解释

  • readPath:必填 文件读取路径
  • writePath:必填 文件写入路径,多个路径使用英文 ; 分号分割
  • corePoolSize:核心线程池大小,默认为3,可根据实际情况调整大小
  • maximumPoolSize:最大线程数,默认为5
  • :数据处理:输入字段="IR_BBSNUM",任务="plug_change_colname",参数列表="0+IR_BBSNUM#isEmpty-0",输出字段="映射字段名称"(IR_BBSNUM);
    1. 每一组任务串都应以 :数据处理: 开头,末尾以 ; 英文分号结尾。
    2. 输入字段="IR_BBSNUM",指定待处理的字段名称,此处为原始文件中的待处理字段,若经过了中间的字段转换,则应以处理后字段名称为准
    3. 任务="plug_change_colname",指定使用哪个组件进行字段转换处理,不同的组件有不同的功能,示例中的组件plug_change_colname主要对通用字段进行名称的转换处理,实际的组件使用可参考 omjob-任务组件说明
    4. 参数列表="0+IR_BBSNUM#isEmpty-0",参数列表指定插件可选的一些参数,需根据具体组件说明和实际需要进行配置
    5. 输出字段="映射字段名称"(IR_BBSNUM),"映射字段名称"代表输出字段的描述,你可以任意写一个该输出字段的备注,比如 "楼层数";(IR_BBSNUM) 代表处理之后的数据值 输出到哪个字段上,字段可以是记录中存在的,也可以自己定义。如果字段在记录中存在,记录的原有值会被覆盖为当前值。

其他参数

  • ckmDbId:指定plug_plo、plug_md5等组件使用的ckm配置id,默认随机挑选启用状态的ckm配置进行调用
  • maxdelFile:每个线程每次处理最大文件数,默认为200
  • keepPath:
    1. 文件保留路径,多个路径使用英文分号 ; 分隔;
    2. 当此路径不为空时,分析完毕的源数据将挪到此目录下(如有ok文件,一并移动);
    3. 此路径为空时,分析完的数据将作常规删除
  • interceptPath:当该文件夹数量达到指定阈值时,跳过本次任务
  • fileSkipNum:当interceptPath参数不为空时,检查interceptPath目录下的文件数,当文件个数达到 指定数目时 跳过本次分析,默认值为500
  • fileEncode:文件读写编码 默认trs格式 GB18030
  • cusFileName:
    1. 自定义文件名称前缀。指定文件名称前缀时,文件名的组成为 cusFileName+系统当前时间.trs;
    2. 不指定时,写出文件名称与写入文件名称一致
  • fileSuffix:文件后缀名,默认trs
  • errorSkipNum:
    1. 当一个文件分析时ckm报错达到指定错误数时跳过该文件,并将出错的文件备份至bakPath下,相应的错误信息存储为同名的.error文件,默认为20
    2. rid生成异常(1次),ckm异常(20次或errorSkipNum次)出现后,均会将出错的源文件备份至bakPath目录下,并输出相应的错误信息存储为同名的.error文件
  • isBakFile:是否备份文件,默认备份,默认路径为当前文件所在父级同级anabak下,指定bakPath参数时,备份至bakPath路径下
  • bakPath:文件备份路径
  • saveMd5Time:redis存储有效期,默认为3天。针对plug_repeat_filter(重复数据过滤)、plug_sim_standard(相似文章转载)有效,可根据redis资源和实际项目需要适当调整该参数
  • outFileMaxCount:输出文件的最大条数。不填默认原文件输出。例如:原文件分析完后有1000条数据,outFileMaxCount=100,会输出10个文件,每个文件100条数据。
  • fileSuffix:输出文件后缀,默认.trs
  • inputFileSuffix:读取文件后缀,默认.trs
  • outDataType:输出文件类型,默认trs类型。 其他类型:json,csv
  • splitDatePath:输出文件路径是否按日期分文件夹 值为true,false 。默认值为:false
  • extraDatePathName:路径追加目录,仅在splitDatePath为true时生效。输入为news时,会在日期的文件夹名后面追加文字,输入为\news时,追加目录
  • exportFieldPath:抽取字段导出路径,多个路径直接以英文;分割,不写此参数不进行抽取字段文件的导出
  • exportFields:指定导出的抽取字段,多个字段之间以英文;分割,导出分析后的数据,只保留指定字段。如果不指定则导出全部字段

数据业务研发中心