通信瘫痪事故 是否能引起对5G核心网的重视
半导体器件应用从外媒Retuers获悉,近期,欧洲老牌电信运营商沃达丰在德国的移动通信网络突然出现大面积故障,其中包括柏林、汉堡、慕尼黑、科隆、法兰克福和其他城市共计超过10万的手机用户,超过3小时的时间内无法建立语音连接和数据连接。
根据沃达丰集团反馈,网络出现问题的原因在于部署慕尼黑、法兰克福、柏林三地的工作时,出现的“控制设备宕机”(failure of control equipment)事故。
一般而言,网络故障往往源自于整体或者局部出现漏洞,在此次事故中超数小时都无法处理好问题,不难得知是来自控制设备的核心网控制面出现严重故障。要知道,核心网是通信网络是大脑,承担着网络全局资源的调度和管理,同时也是5G数字化转型的动力引擎。在进入5G网络时代后,核心网控制需要承载各行各业的多样化业务需求,所以此次德国沃达丰事故无疑给我国在5G核心网的运维问题上“敲响了警钟”,此外,如何保障核心网高效、高可靠、低成本的运维,也成为了各大运营商以及相关产业链的关注焦点。
回顾国内情况,首先从基站建设数量来看,中国铁塔党委书记、董事长佟吉禄在2020年世界5G大会上透露,5G商用以来,中国铁塔联合电信企业累计承建5G基站项目超过70万座。再从终端产品方面来看,我国获得入网许可终端已达253款,其中5G手机218款,并在产品价格上逐渐走低。最后从用户入网数量来看,根据国内三家运营商公布的10月份运营数据显示,三家企业5G套餐用户总和已经突破两亿大关。
由此可见,我国在基站建设、终端配套、用户基数上都有着庞大的支撑能力,并为赋能每个行业的多元化应用和需求打好基础。但我们是否有过深一层的思考,这么大基数的设备与配套,如果一旦在核心网上出现重大故障,是否能继续保持用户的通讯稳定?如不能,如何及时修补处理?
5G核心网整个控制系统的可靠性涉及了多网元稳定性、抗冲击能力、流程顺序等多项因素,如果单靠传统的人工维护模式是无法支撑网络业务的要求,更何况5G网络复杂性与多样性的特点大大增加了其运维的难度。截止目前,大部分运营商都尝试采用AI技术来自动化、智能化处理核心网系统的运维问题,从阈值设置上进行异常检测,并由AI算法持续根据现有核心网的数据而建立起一个训练校准模型,然后通过模型得出动态的阈值范围。简单来说,就是当核心网系统发生变化时,阈值范围随之变化,这样有利于帮助检测人员在异常的早期发现核心网存在的隐患和故障,而不是等待核心网异常后再去做处理工作。
另一方面,假设5G核心网已经出现了故障情况下,能否瞬间运用备份数据去恢复用户通讯业务才是重中之重。以基于SA架构的5G核心网网络功能为例,控制层的AMF与数据层UDM是实现瞬间恢复的突破口:5G核心访问和移动性管理功能(AMF)是从用户设备(UE)(N1 / N2)接收所有连接和会话相关信息,但仅负责处理连接和移动管理任务;5G核心网络用户统一数据管理功能(UDM)是从负责用户标识、签约数据、鉴权数据的管理、用户的服务网元注册管理。
其中在AMF与UDM之间在故障发生后启动备份数据恢复时,会引发UDM数据存储过载效应,从而进一步导致网络瘫痪。因此目前亟需解决的是在启动瞬间恢复指令后,不会对UDM产生数据过载后果的解决方案。目前业界亦有采用VNF方案来应对,VNF是基于NFVI虚拟资源部署的业务网元,对应到初期部署的5GC,主要业务网元就有包括AMF与UDM。
但值得注意的是,单一VNF的维护组织架构并不能“一劳永逸”,而是需要根据网络建设和技术演变的步骤变化,加强网络结构的简化设计,持续提升核心网软硬件的性能,才能使整个应用数据管理在VNF的数据共管下,全力保障网络的可靠性。
暂无评论