波音客机坠机的启示: 警惕智造系统功能安全隐患
最近波音飞机的坠落,严格说是人工智能影响人类的灾难性事件,也是智能化系统功能失效的典型案例。
波音737MAX8是波音成熟度最高的机型,燃料消耗是同类机型的30%,但发动机更改导致飞机机头容易抬高。因此,它使用了一个机动特性增强系统(MCAS),在飞机迎角过大时该系统会自动下调机头以进入它设定的安全状态。但从最近发生的事故来看,MCAS更像波音公司在737MAX8飞机上埋的炸弹。
狮航空难事故调查已有结论,其直接原因是机头左侧攻角传感器故障,使MCAS错误地连续26次进入自杀式俯冲。狮航飞行员曾33次试图拉升机头,但最终人工操作没能成功纠偏。埃塞俄比亚航空空难事故调查还在进行,但从已经披露的信息可以判断,飞机在起飞后,连续出现了爬升和下降两种飞行姿态,飞行员称无法控制飞机,最后导致坠毁。
这两起事故都是智能化系统功能错误导致的飞机失控,属功能安全事故。
什么是功能安全
功能安全是一门安全工程学科,专门研究复杂控制系统的功能失效避免。它的基础标准是2000年发布的IEC61508。近20年来,针对各领域的安全相关系统,已经发展出一个标准族群。
功能安全主要从3个方向展开研究:预期功能安全、硬件随机性失效避免和系统性失效避免。其中,预期功能安全是系统性失效的一部分,它要求全面识别受控设备中的所有危险,并把风险控制在可容忍范围之内。一旦受控设备中包含智能化系统时就极富挑战——这也是目前面临的新问题。
硬件随机性失效避免要求组成安全相关系统的硬件系统必须具有足够的可靠性、足够的容错能力和诊断覆盖率,系统性失效避免则要避免所有可能导致系统性失效的错误和故障,如软件功能安全、环境适应性、检测到故障时的系统行为等。
功能安全标准规定了各种原则、方法,是多个行业多年经验的总结,对于提高复杂控制系统与保护系统执行功能的可靠性,具有十分重要的指导意义。
MCAS存在的功能安全问题
埃塞俄比亚航空和狮航坠机事故原因都聚焦在波音737MAX8飞机的MCAS上。MCAS是一个安全相关系统,从功能安全视角看,它存在多个问题。
首先是设计缺陷,体现在:第一,波音公司在加装MCAS系统时,忽视了发动机更改会使飞机容易在大迎角飞行时失速,违背了本质安全原则;第二,对MCAS系统的危险评估定为有害等级而不是灾难级,定级有误,说明设计者对MCAS失效可能造成的后果严重性估计不足,对这个系统的软硬件都没有配置足够的鲁棒性;第三,系统容错能力不足,即使是有害等级,MCAS系统仅采集左侧传感器数据作为启动条件也是不符合要求的;第四,对安全关键部件(如攻角传感器)的故障,没有诊断和报警;第五,出现死亡俯冲时,没有明显提示警告机组人员;第六,波音公司的培训资料从未提及该项功能,也没有任何特别的培训课程。
其次是维护和操作问题。一个细节是,狮航飞机空难前带着这个故障飞行了4次之多,事故前一天还出现过机头持续下压的危险状况,直到飞行员关闭MCAS才安全降落。此外,狮航的维修工作及程序未能解决涉事客机的问题,而客机关键零件(攻角传感器)的安装及校准记录不完整未受到重视。
最后是监管问题。波音737MAX8在美联邦航空管理局进行新飞机的安全批准时,为了加快进度,把该机型MCAS系统的安全评估交给了波音,并要求工程师加快检查进度。这极大降低了监管的力度和有效性。同时,这也违反了功能安全标准的规定,“对于失效后会导致严重后果的安全相关系统,必须由独立的第三方评估后给出合格与否的结论”。
此外,波音提交的报告数据与实际不符,评估报告未发现MCAS的诸多设计缺陷,评估未要求飞行手册上标注MCAS且未要求特别的培训等,都是监管上的纰漏。
功能安全标准要求采用全生命周期来管理安全相关系统,设计者有责任设计高安全完整性等级的安全相关系统,维护者有责任维护安全相关系统,监管者有责任独立评估安全相关系统的功能安全性能。但如果在设计上存在本质缺陷,那么仅靠维护难以提高安全相关系统执行功能的可靠性。设计者要考虑到维护者和使用者的能力限制。
新技术下复杂系统
面临更多安全挑战
联想到狮航飞行员努力奋斗拉了33次机头仍失败坠机,听到埃塞俄比亚航空的飞行员惊恐地报告无法控制飞机的声音,所有人都会心疼不已。我们不禁要问,在智能化时代,我们应如何趋利避害?
从智能制造到人工智能、从5G到工业互联网,新的热点层出不穷,新的技术不断更新换代,智能化系统越来越复杂。互联互通、信息集成,要将系统所有边界情况一网打尽是天方夜谭。这种情况下,无论是设计者还是监管部门都严重缺乏经验,面临“你不知道自己不知道什么”的困境。
我们批评波音自己对自己的系统进行评估,但实际上,对于类似MCAS这样的系统,监管部门的理解和评测能力很可能不足,也没有相应的标准。对复杂的智能化系统进行功能安全评测一直是业内难题。
在智能化系统控制的飞机、自动驾驶汽车、现代化的工厂中,人的错误可能是导致事故的重要原因。比如2009年6月1日法航447坠落事件中,空速管结冰导致飞行控制系统进入故障模式,副驾驶持续拉杆的错误动作导致飞机失速坠落。在波音这架飞机上,驾驶员与MCAS一直在抢夺控制权,最终驾驶员失败了。在危急时刻,该听谁的?这需要针对每个功能进行认真研究。
另外,机器学习具有“黑箱”特质(不确定性),面对相同情况时可能会产生不同结果。数据采集和学习系统的不完善,也可能导致无意的偏差和数据失真问题。以自动驾驶汽车为例,机器学习训练的自动驾驶汽车很有可能在学习了相关“学习资料”之后,仍会选择径直撞向穿荧光绿色背心的建筑工人。
因此,当我们推行智能化与人工智能技术时,必须同步研究功能安全。
为智能制造保驾护航
波音飞机坠机事件不是孤立的功能安全事故案例。近年来的特斯拉和优步自动驾驶汽车事故、大众汽车变速箱机电单元问题导致汽车失速事故、辽宁钢铁厂钢包控制系统功能失效事故、美国得州炼油厂因液位计失灵导致的爆炸事故等,都是由于设备故障导致系统失控,最终发生严重事故。
面对更新换代的新技术和“层出不穷”的热点,我们必须理解风险埋藏在哪里,能够识别出那些未知且不安全的部分,然后将它们的风险控制在可容忍范围之内,对它们进行区分,拿出化解风险的方案并对其进行验证。需要制定标准规范行业行为,比如,制定安全标准以规范数据采集和学习系统的开发行为,从而减少人工智能系统无意的偏差和数据失真问题。
鄂公网安备 42011102003528号