案例名称
新一代智能运维系统
案例简介
(相关资料图)
新一代智能运维系统旨在解决传统运维系统人工干预多、监控手段单一、无法适应技术快速迭代等问题,打造一个自动化、智能化、可持续升级的全能型运维平台。基于云原生的微服务架构,该平台实现了十余个高内聚、低耦合的能力中心,涵盖了日常运维工作的各个方面;同时通过应用质量拨测、智能巡检、全方位数据采集、自适应机器学习算法等创新技术,显著地提高了运维人员的工作效率,保障了系统和应用的安全稳定运行。
创新技术/模式应用
新一代智能运维系统在创新技术/模式应用上主要有五个方面。
(一)面向云原生,基于微服务架构
本系统在底层依托开源的Spring Cloud框架,对搭建在其上的应用按照业务范围划分为十余个能力中心。每个能力中心即是一个微服务,互相之间通过Restful API进行调用,方便了后续功能的扩展和架构的持续升级。另外,划分的每个微服务都能以容器方式进行部署,并利用Kubernetes进行容器编排,实现微服务的动态扩容和自动运维。整体系统架构图如图1所示。
图1 系统架构图
(二)敏捷开发,拥抱DevOps
在本系统的开发、测试、部署过程中,团队使用了基于DevOps的软件开发管理模式。DevOps是在敏捷开发模式的基础上,将运维并入进来,是软件开发、运维和质量保证三个部门之间的一体化沟通机制。基于持续集成的软件交付方式,编译、打包、发布、测试等行为能够更高效,更稳定。整体研发流程如图2所示。
图2 DevOps流程图
(三)主动出击,应用质量拨测
重庆农商行在智能运维系统建设过程中敏锐地发现运维系统的智能化不仅体现在对系统、应用的被动监控上,还应主动出击,对应用进行质量拨测。系统通过应用主动拨测技术来模拟各业务环节的访问流程,化被动处置为主动感知,实时洞察客户端存在的各类风险,并进行有效干预。现阶段,系统主要对应用及数据库的健康状态进行拨测,包括基于HTTP协议的RestFul请求,以及基于TCP的心跳指令。应用拨测架构如图3所示。
图3 质量拨测架构图
(四)智能巡检,业务安全防护
尽早发现故障、处置风险是智能运维系统建设的目的之一。该行通过融合多维度业务安全指标实现对应用的智能防护,主要包含三个方面:一是交易链路时序分析;二是用户异常交易检测;三是敏感交易监控。所有的业务安全指标既可自定义固定阈值,也可以基于智能运维系统生成的动态基线,实现智能化业务安全告警。
(五)应用预警,自适应式机器学习
该系统梳理各应用系统指标模型,形成标准化的指标拓扑图和指标模板。通过引入自适应式的机器学习算法,根据历史运行数据建立融合多种异常检测模型,对指标曲线实现高准确率的异常检测,系统生成各指标动态阈值基线,实现智能预警。目前可供融合的算法包括:Ripple、Dtmos、Spider等。同时,系统根据波动分析、根因量化,能够智能地提供处理建议,有效地提高了问题处理效率。
项目效果评估
(一)打通各个系统运维信息孤岛
该系统的建成解决了传统运维场景分散建设,各种烟囱式的系统之间存在数据重复、数据割裂、数据不准等问题,实现有效整合,达到数据集中存储,统一分析,集中展示,高效处置的目标。同时,各业务系统运维数据的统一归集,也形成了海量的数据。在此基础上,系统利用大数据、人工智能技术,能够快速挖掘系统之间交易的关联性,并由此构建场景特定的智能算法学件,实现智能运维功能,有效地打通各系统信息孤岛,形成全行统一的智能数据湖。
(二)实现自动化作业代理的统一
系统采用统一的自动化作业代理agent,代替了以往为网络、系统运维需求而开发的单一功能代理,实现了日志采集、指标巡检、应用发布、运维工具箱等各业务模块所需的底层能力,减少了因部署多个agent而导致的服务器性能损耗。目前行内已经部署2159台agent,涵盖150个应用系统,制定了107条定制化日志采集规则,平均每日处理日志量为5.5TB。
(三)重要信息系统应用发布自动化
自动化应用发布依据传统流水线操作流程,结合定制化的作业脚本进行优化,实现应用版本发布自动化。目前已接入50余套业务系统,实现了三百余次上线。固定的上线流程6个,可实现应用服务器的分批备份上线。应用发布时间由之前的90分钟左右缩短至30分钟之内,除去人工检查上线结果所花费的时间外,自动化发布时间可缩短至15分钟左右,发布效率提升了至少3倍,运行至今所有变更流程全部执行成功,0失败。
(四)智能预警实践银行AIOPS
应用智能预警服务通过融合多种机器学习算法生成动态基线,目前支持单指标异常检测类算法6个,单指标预测类算法4个,多指标分析类算法2个,已监控1963个指标,涉及55个系统。异常检测准确率96%,5分钟内可完成根因定位,速度提升70%。平台上线以来,准确预警因第三方机构重启服务器导致行内支付交易失败的问题,使我行开发人员迅速定位处理问题,并与第三方机构取得联系,尽快恢复服务,避免了用户的投诉,提升了系统的稳定性。
项目牵头人
常学亮 科技信息部副总经理
项目团队成员
谭勇、李倩、廖伟、苟瑞、周涛、吕斌、范攀峰、田若坪、代斯科、吴昱君、邱昌良、张颖、马艺、赵偲为、姚寅、蔡宇
关键词: