DataEngineDI出现执行器心跳丢失

关键词:
问题现象

DI的作业执行过程中出现报错,界面出现告警信息,告警执行器心跳丢失

告警信息

 

告警信息如下:

心跳丢失 2017-11-16 11:10:25 执行器【exec6717】心跳丢失,请检查!
原因分析

比如平台有三个节点 10.1.1.11,10.1.1.12,10.1.1.13

1;三个节点时间不一致,相差一分钟以上会出现心跳丢失

2:跑批数据量过大,负荷超出执行器内存(默认4G),导致心跳丢失告警

解决办法

比如平台有三个节点 10.1.1.11,10.1.1.12,10.1.1.13,其中一个执行器名字exec621

1:首先修改三个节点系统时间,保持一致。

2: 然后调整ETL数据量或者调整执行器内存:登录执行器节点

     a.cd /usr/local/dig/dig-executor/bin 进入执行器目录

     b.vi exec621.pid  调整执行器内存(以M为单位)

     c.启动执行器 dig-executer start 生效

然后重跑作业解决问题。

 

建议与总结

调试作业任务尽量先限制较小数据量

案例信息

案例类型:经验案例
案例号:201711170022
创建时间:2017年11月17日
更新时间:2017年12月12日
发布时间:2017/12/12 14:44:18
文章密级:游客可见
有效期:长期有效
发布者:王乐A [w13928]
点击次数:871
评论平均得分:0
关键词:
产品线:大数据
产品系列:DataEngine DI
产品版本:0.6
故障类型:

附件
常用操作
收藏