零事故背后:揭秘NGSOC如何助力冬奥安全运营中心-安全运维和应急响应篇
通信产业网|2022-03-28 14:37:01
作者:通文来源:通信产业网

揭秘NGSOC如何助力冬奥安全运营中心-标准化运营篇展示了冬奥安全运营中心如何进行标准化运营,本篇将介绍冬奥安全运营中心背后的安全运维保障及应急响应保障。

如果说冬奥安全运营中心是整个冬奥会网络安全的保障,那么安全运维和应急响应就是安全运营中心的保障。

提前800天进场 打磨出标准化安全运维流程

“以往所有项目运维团队往往是最后介入,而冬奥项目运维团队在2019年12月份就开始介入进场了。”提起冬奥项目的安全运维工作,奇安信冬奥项目集成交付负责人曾庆表示。

“在这两年多的过程中,我们要与规划组对接目的和预期,负责所有产品的集成交付,这里的交付还包括了解冬奥组委和各个业务相关方的业务架构,服务对象、范围等,赛前与所有团队协同完成测试赛,还要负责赛后的场馆资产有效撤离、设备清退和数据清退等全流程的工作。”

如何梳理安全运维工作流程?曾庆认为,制定安全运维流程要考虑的最关键因素,就是是否影响比赛。在冬奥会进行过程中,肯定会出现如由于配置或者设备本身的问题影响到正常的安全监测甚至影响到前端赛事,所以奇安信要清晰的知道冬奥组委在赛时阶段的要求是什么,安全运维所有流程都是要符合赛时业务要求。如果出现重大事件影响到比赛赛事,我们整个的处理流程要确保在一个小时之内业务全部恢复,所以,冬奥项目的安全运维流程就是基于这样的目标来做的。

由此,奇安信冬奥团队为安全运维梳理制定了三级体系的SOP:其中一级是总册,包括运行保障的范围,组织架构、岗位定义、岗位职责等;二级是流程,比如巡检流程、交接班流程、问题处置流程等;三级是具体的动作执行规范,即将二级流程做更细化的拆解和要求,每个动作要有明确的执行标准。在流程制定出来后,通过桌面推演、交叉验证等手段,校验合理性,还要组织培训、考试、实操,让运维队伍更加熟悉流程。

2022-03-28_143308.jpg

举个例子,冬奥项目中对于产品变更的管理要求是非常严格的。在提交变更申请的时候要清晰的解释变更的必要性是什么?要解决什么的问题,通过变更能够提升什么样的能力?这些在变更申请中必须要告知,如果说不清楚不允许随意变更。如果同意变更,需要进行的变更操作是什么?操作硬件还是软件或者软件中的某个组件、某个进程?怎么去操作?执行什么样的命令?在操作过程中是否需要对这个组件所在服务器进行重启?这种操作所带来的风险和缓解措施是什么?一旦操作不成功回退方案是什么?这些要在变更操作手册里把每个环节清晰地写清楚,以便一线人员去执行。

此外,在变更之前,团队还设计了三道防线,每道防线要有明确的测试报告。第一,产品要首先经过产品团队的严格测试,要有明确的测试报告。第二,奇安信内部搭了一个跟冬奥1:1的环境,所有产品变更需要再在那个环境中做一遍回退测试,测试完没问题之后才可以提交到一线团队,一线团队基于产品团队给的操作手册去执行。

“通过NGSOC(态势感知与安全运营平台)一个平台可以监测整个冬奥的网络安全态势,当时比较担心的是,大量数据的汇集,可能会影响数据的实时接入,比如,某几个场馆数据上不来,就好像我们的监控摄像头坏掉了,无法实时感知攻击,好在我们的运维团队比较给力,全程保障我们的数据实时接入,保证了平台的平稳运行,使得运营团队可以实时监测攻击。”奇安信冬奥保障团队NGSOC产品专家表示。

标准化应急响应流程 将风险处置时间缩短到分钟级

除了安全运营和安全运维标准化外,在奇安信安全中心专门成立了一支针对冬奥项目进行应急保障的团队,即应急三线组。2021年9月,应急保障团队成员在冬奥组委正式起草应急响应流程,从软件、硬件故障等多维度,经过10余次深入讨论,以及与一线监控、运维经理的密切沟通,最终输出40多种针对NGSOC平台的应急场景及应急响应SOP手册初版。

制定了应急响应SOP初版手册之后,还要进行详细的演练和完善。应急演练的价值在于落实每一个组件的异常处理,NGSOC事业部冬奥项目组有3人参加了应急三线组,一旦出现紧急事件,这3人必须第一时间进行事件应急,保证产品稳定性。按照演练的要求,需针对40多种应急场景进行实操演练,前期由应急保障团队模块负责人操作具体步骤模拟具体场景,之后由应急三线组成员进行每个场景的模拟并逐步完善手册。

微信图片_20220328143324.png

NGSOC事业部冬奥项目工程师表示,“采用自己实操及交叉验证的方式,经过N轮模拟演练,保证应急步骤正确性。应急三线组成员要详细地记录每个场景恢复的时间及风险点。为了一件伟大的事情,我们不放弃不抛弃,最终功夫不负有心人,在初版基础上又输出了一个版本。经过集团冬奥项目组领导、架构师与专家组的层层评审,以及N轮的完善与优化,最终形成了终版应急响应SOP手册。”

以冬奥标准为理念,凡事做在前边,NGSOC应急三线组为冬奥项目还做了备机备件及整套环境拷贝与备份。在备机备件中提前准备好快速恢复的安装包,应急时可直接替换故障设备。 另外,还准备了一套与冬奥安全运营中心运行环境一模一样的集群,配置完全一致,NGSOC应急三线组花了3天3夜完成了集群的备份。

应急响应SOP的培训和落地是至关重要的环节。为了整个应急链路的完整性,要把应急响应SOP手册对冬奥运维工程师进行应急培训,推动验证备机备件恢复的演练工作。NGSOC应急三线组协同监控经理、运维经理等各种一线人员进行培训模拟演练,从发现事件、故障判断、应急响应、故障确认和定级、信息同步机制、故障上报机制、处置审核取证、复验等逐个环节落实执行情况,以充足的准备,做好应急响应工作,形成闭环。

2022-03-28_143412.jpg

在实际的处理现场应急事件过程中,标准化的应急响应SOP起到了重要作用,按照标准化流程实现了预期的效果。比如,由于其他业务系统的故障导致NGSOC平台日志积压超过三分钟,EPS长时间高达80000以上且持续产生告警。当发现这个问题时,按照流程: 监控人员收到告警短信后,立即上报运维经理和应急三线组,应急三线组根据应急响应SOP做出判断符合2级事件,立即按照应急响应SOP内的方法进行处理,同时找到到问题产生的根源,从源头切断影响,经过一系列标准化操作后,该问题快速得到解决。

十余次测试演练反复检验 锤炼出冬奥标准NGSOC

自2021年起,为了检验冬奥项目建设的情况,在半年多的时间里,共经历了由不同主管机构组织的五次测试赛的校验,十余次专门针对冬奥的攻防演练和渗透测试,其中一次的目标是将NGSOC平台作为靶标系统去让攻击队去打,最终NGSOC顺利通过检验。

2022-03-28_143439.jpg

十余次的测试演练,也是对NGSOC牢固性的深刻检验,NGSOC产品团队每一次都做好充足准备去面对。通过奇安信网络安全部进行代码审计、漏洞扫描、渗透测试,针对漏洞进行补丁修复,同奇安信内部专家团队共同讨论整理防护方案,并对暴露面、防护策略、访问路径、开放端口、用户、密码等全方位进行梳理,并进一步输出加固方案。对异常访问NGSOC创建规则及监控维护,并对访问源排查及制定应急策略。每一次检验过程中针对不同场景优化规则,事后还要进行复盘总结,十余次不断往复。

“在以往所有这些测试过程中,NGSOC平台始终都是安全监控、分析中枢,针对这些过程不断完善冬奥专属的建模规则,把每一条日志,每一个告警都完整的记录下来,为我们安全运维人员带来了极大的便利性,也使得在多次测试赛、攻防演习中取得胜利。”冬奥项目网络安全运维专家表示。

即便有十余次的测试演练,NGSOC产品团队依然不断强化自身的要求。为了达到NGSOC平台7*24H“零事故”的目标,梳理出1000+项巡检项,由安全运维经理每天2次巡检,由NGSOC产品研发团队进行确认,并给出确认结果。同时,NGSOC产品研发团队每天针对EPS趋势、告警量、日志量、磁盘、资源等指标进行监控分析,监测平台运行状态。

未来:冬奥标准NGSOC将带来四大价值

首先是高并发和高可靠全面满足大型企业安全运营需求。冬奥会的高并发和高可靠要求,对于大型企业客户来说具备非常强的示范作用。目前,多个大型企业的安全运营团队越来越大,已经从最开始完全没有运营团队,发展到十几人、几十人的规模,安全运营平台需要支持越来越高的并发,才能满足大型客户的日常运营需求。在安全事件处置方面,部分企业已经建立的7*24H运营团队,要求对紧急事件进行实时处置,因此平台的持续稳定运行就至关重要。NGSOC实践了200+人使用及50+并发使用的场景,对于HA(双机集群)在冬奥项目中也做出了宝贵的探索和实践,能够保障持续安全运营。

其次,是NGSOC云化方案未来将满足更多客户要求。在冬奥项目中,NGSOC建立了一套完善的云端数据对接的方案以及高并发、高精准、高性能的对接程序,对云端海量日志可实现秒级同步,支持上百种数据异步对接,并针对不同种类的日志可进行实时分析。随着云时代的演进,政企机构不断完善数字化体系,业务系统逐步迁移至云端,海量的日志,多维度资产,不同种类的告警等信息如何对接安全产品,成为了各企业应该考虑的问题,NGSOC云化方案可快速获取云上数据,并快速进行解析、分析、富化等一系列操作,可进一步实现了云上、云下协同联动的战略目标。

第三,强大的监测和威胁发现能力让安全运营更得心应手。NGSOC在冬奥项目中已实现接入云上云下上千种数据源,上百种日志,设计了上千个威胁检测场景,实现了与奇安信全体系产品的接入、联动,每天处理各类日志达30多亿,让安全运营人员只需通过一个平台完成监测、分析、处置、溯源等全流程工作,并通过告警处置和评论功能,大幅降低告警处置时间,提升安全运营效率。

最后,标准化流程对于常态化安全运营意义重大。安全运营中心先要建立安全运营团队并制定安全运营目标和流程,再通过工具支撑流程落地。一套完整的安全运营中心SOP包括安全运营流程、安全运维流程、应急响应流程,这套流程可以解决绝大多数的安全事件处置问题。安全运营不是靠工具解决所有安全问题,而是人+工具+流程+数据的交互结合,并且不断完善的动态体系,不等同于简单的独立加和。在实际运营过程中,用流程将人和工具贯穿起来,既能满足常态化运营,又能轻松解决各种紧急事件。

总体来看,以NGSOC等为核心构建起的冬奥安全运营中心,经受住了“实际网络战”的检验,助力奇安信兑现了冬奥会网络安全“零事故”的承诺,创更造了奥运会网络安全的世界纪录。未来,奇安信集团董事长齐向东表示,包括冬奥安全运营中心在内的 “零事故”奥运工作模式,将总结成为“奥运遗产”,为关键信息基础设施和重大活动的网络安全保障提供示范样本和有益经验。

0

责任编辑:晓燕

【欢迎关注通信产业网官方微信(微信号:通信产业网)】

版权声明:凡来源标注有“通信产业报”或“通信产业网”字样的文章,凡标注有“通信产业网”或者“www.ccidcom.com”字样的图片版权均属通信产业报社,未经书面授权,任何人不得复制、摘编等用于商业用途。如需转载,请注明出处“通信产业网”。

发表评论
×