课程费用

6800.00 /人

课程时长

50分钟以下及更短时间

成为教练

课程简介

案例背景:
故障会影响留存率甚至导致直接的资金损失,所以运维工程师投入了大量的时间和精力在监控系统。运维工程师通过采集大量的指标,并给指标人工配置了报警规则,希望在第一时间发现故障并进行故障诊断。但实际上,由于核心指标漏监控或者配置阈值不合理导致故障无法在用户之前被发现;另外大量的误报造成了『狼来了』的现象,运维工程师对报警已不再有敬畏之心。
为了让监控系统尽到它应有的职责,如何利用好海量的监控数据是一个关键的问题。在故障发现阶段应该对哪些指标进行监控,各指标应该用何种异常检测算法;故障发生后,应该提供什么信息帮助运维工程师缩短诊断时间;如何进行故障预警避免故障的发生等。

解决思路:
a. 运维专家经验:总结黄金指标,解决监控遗漏的问题;故障后提供信息缩小需要排查的范围,帮助运维工程师快速“救火”
b. 人工智能算法:统计学概率+机器学习+深度学习
c. 行业领域知识:核心业务功能、典型故障场景等


成果:
根据过去在故障处理、故障预警、故障巡检等场景的经验,结合客户行业的领域知识,产出了智能运维解决方案,将百度AIOps赋能各行业客户,帮助运维工程师快速“救火”,并在考虑如何“防火”。
我们提供的行业智能运维解决方案中,包含了在百度积累的丰富运维经验、先进的AIOps算法以及对行业领域知识的深入了解,这三个要素是我们的智能运维解决方案将AIOps赋能各行业客户的关键。

目标收益

a. 了解百度智能运维发展历史及整体思路
b. 了解百度在故障管理场景的AIOps解决方案
c. 了解百度AIOps在百度内及行业客户的落地案例及效果

培训对象

课程内容

案例方向


大规模机器学习算法/机器学习框架及实践/图神经网络/知识图谱/AIops/AITest

案例背景


故障会影响留存率甚至导致直接的资金损失,所以运维工程师投入了大量的时间和精力在监控系统。运维工程师通过采集大量的指标,并给指标人工配置了报警规则,希望在第一时间发现故障并进行故障诊断。但实际上,由于核心指标漏监控或者配置阈值不合理导致故障无法在用户之前被发现;另外大量的误报造成了『狼来了』的现象,运维工程师对报警已不再有敬畏之心。
为了让监控系统尽到它应有的职责,如何利用好海量的监控数据是一个关键的问题。在故障发现阶段应该对哪些指标进行监控,各指标应该用何种异常检测算法;故障发生后,应该提供什么信息帮助运维工程师缩短诊断时间;如何进行故障预警避免故障的发生等。

收益


a. 了解百度智能运维发展历史及整体思路
b. 了解百度在故障管理场景的AIOps解决方案
c. 了解百度AIOps在百度内及行业客户的落地案例及效果

解决思路


a. 运维专家经验:总结黄金指标,解决监控遗漏的问题;故障后提供信息缩小需要排查的范围,帮助运维工程师快速“救火”
b. 人工智能算法:统计学概率+机器学习+深度学习
c. 行业领域知识:核心业务功能、典型故障场景等

结果


根据过去在故障处理、故障预警、故障巡检等场景的经验,结合客户行业的领域知识,产出了智能运维解决方案,将百度AIOps赋能各行业客户,帮助运维工程师快速“救火”,并在考虑如何“防火”。
我们提供的行业智能运维解决方案中,包含了在百度积累的丰富运维经验、先进的AIOps算法以及对行业领域知识的深入了解,这三个要素是我们的智能运维解决方案将AIOps赋能各行业客户的关键。

提交需求