航天质量管理中人为操作失误原因与对策分析


航天地面系统承担着卫星管理控制、指令上传、遥测数据和业务数据接收处理、以及地面设备设备管理维护等任务,完好的设备状态、正确的任务操作,是确保系统安全和业务实施的前提和基础。在航天任务操作中,有些工作可以通过自动化的流程实现,像基于时间序列顺序执行的每一圈次的数据业务通常可以自动执行,而像设备故障、计划调整、系统测试、设备维护等工作,往往都需要人工手动进行操作或处置。人的可靠性、特别是人为操作失误问题,不仅得到了常规生产流程的重视, 在核电厂、航空、航海和航天等对可靠性、安全性要求更高的行业,投入了更多的精力进行分析和解决。

在影响航天任务质量的各种因素中,有的是因设备故障引起,有些是人为误操作所致。美国航天局针对其有人参与的关键任务进行统计分析[1],这些操作都是基于双岗复核实施,其中航天飞机在肯尼迪航天中心(KSC)的地面停放期间,所进行的开关切换操作主要是简单的手工操作,人为失误率为1.9E-3,平均每43次切换发生一次失误;约翰逊航天中心(JSC)国际空间站的岗位控制操作,需要在状态评估的基础上,在规定的时间内从列表中选择执行相应的控制指令,从1998年到2008年,共发送指令1223496次,其中人为失误647次,平均每1900次指令发送发生一次失误,人为失误率为5.3E-4;喷气推进实验室(JPL)火星探测器的控制操作,需要分析判断并人工生成指令操作,在1054644次指令控制中,发生 111 次人为失误,平均每9500次指令发送发生一次失误,人为失误率为1.05E-4。欧空局分析其地面跟踪站网2007年至2012年期间发生的6973个异常,其中有202次是由人为操作失误引起,平均每月有3.4次此类问题发生,每执行482圈次任务发生一次人为错误,每35次异常中有一次是人为失误导致。可见人为操作失误对航天任务质量有着不可忽视的影响,轻则导致遥测数据或业务数据损失、某一圈次任务失败,重则危及航天系统的安全。

*人为操作失误类型分析

人为操作失误的发生,有些是在正常操作中发生,有的发生在异常应急处置的时机,发生的任务阶段也不尽相同;从发生的原因来看,有操作者自身的内在原因,也有系统设计不合理等外在原因。下面分别加以分析。

·内在原因分析

对于操作者自身的原因,从认知过程和人工参与的任务层次两个角度,重点分析岗位人为操作失误的原因。

(1)基于认知过程的原因分析

为了更好的分析人为操作失误的原因,有必要了解人对工作任务的认知过程,这个过程通常可分为三个阶段:第一个阶段是策划阶段,该阶段主要是明确工作目标以及为实现目标而需要采取的一系列操作;第二阶段是存储阶段,将计划内容进行记忆以备需要时实施;第三阶段是执行阶段,对计划中的过程行动进行操作实施。

根据上述三个阶段的划分,就操作者自身原因来看,主要可以分为以下几个方面:一是疏忽,这主要发生在执行阶段,即对计划操作的不正确实施。在任务操作时,因疲劳或其他原因而精力不集中,这是导致操作失误的主要原因,像在卫星地面设备操作中没有注意到提示信息、选错了参数配置、键盘输入错误等。有分析表明,人只能短时间内对某项工作做到全神贯注,这个指标通常是20分钟左右,超出了这个时间就会注意力下降并有可能产生操作失误。二是遗漏,这主要发生在记忆阶段,因为人记忆能力的局限,短时内只能记住有限的操作程序,在记忆过程中遗漏了操作规程的部分操作步骤。这样就会发生像没有完全检查到所有指标项、任务实施过程中省略了关键操作步骤,设备维护后没有装订初值等问题。以及操作过程中被外界影响或干扰而中断后,继续后续操作时很容易出现遗漏步骤的情况。还有像对一些近期口头交代尚未纳入操作规程的操作,没有正确的执行,如交接班过程中交代的有关操作事项。三是失策,这主要发生在任务计划阶段,如果把计划的制定也作为一种操作,错误往往发生在策划的方案不适用实现期望的目标,这种错误的代价往往更大,像卫星寿命末期离轨方案的设计,如果操作计划设计不合理就会影响轨位的再利用,严重的还会产生太空垃圾。

上述都是无意造成的失误,还有一类就是出于走捷径,为节省时间精力,而主观违背操作程序和规则。具体原因有的是习惯性的;有的是在特性场景下发生,像迫于时间或工作压力,还有在异常情况下为解决问题而背离程序。

(2)基于人工参与层次的原因分析

根据通用失误建模系统,可将工作任务对人的认知能力需求分为三个层次:第一个层次是岗位基础操作层次,这个层次的工作主要是熟悉掌握任务的基本操作程序,能够完成正常岗位操作;第二个层次是基于规则的操作,需要在既有的问题解决规则中,能够准确地将发生的问题匹配到正确的预案并实施操作;第三个层次是基于知识的操作,这需要在熟练掌握系统结构和工作原理的基础上,通过分析、推理来解决遇到的问题。

操作失误在每个层次都有可能发生。在第一层次中,操作失误通常是疏忽或纰漏,往往是精力分散,注意力不够集中造成;在第二层次和第三层次,操作失误主要是失策导致,在第二层次通常是因为状态判断不清或选取了不适当的处置规则,在第三层次往往是受系统复杂性的影响,操作失误通常是因为对系统的认识理解不充分、压力过大,过于自信或认知局限引起。

有研究表明,在人为失误发生的时机中,61%发生第一层次,28%发生在第二层次,11%发生在第三层次;但由于在实践中最多的是岗位基础操作,而很少进行第二、三层次的操作,所以基于知识的操作发生失误的可能性更大。从发现和改正的概率来看,第一、二、三层次分别是70%、50%和25%。

·外部原因分析


从外部原因分析,主要有以下几个方面:

一是防差错设计不到位。在设备的设计研制阶段没有贯彻落实防差错设计原则,导致本可以避免的差错发生,或者导致更加严重的后果。比如人机接口设计不合理,操作界面的配色设计、按键位置的设计和标识不清,不同关键操作集中在狭小区域、布局和分布不合适等情况;还有缺乏必要的引导信息或者操作后果提示信息,以及逻辑设计上缺乏复核校验环节等。

二是训练不够充分,操作人员不能胜任复杂的系统操作。任务操作、尤其是关键任务操作,往往是要求在规定的很短时间内,岗位人员承受高度压力情况下实施,这就对岗位人员的能力、操作的正确性、熟练程度提出了更高的要求,训练的针对性、覆盖性、频度和贴近任务的程度都在一定程度上影响到岗位人员的操作。

三是岗位职责不够明晰,各岗位间界限不够明确。在职责划分上对不同岗位间交叉重叠部分关注不够,分工上存在模糊、不明确之处,从而导致这些部位发生问题或故障后,得不到及时的响应,有效的处置,乃至误操作的发生。像卫星地面设备操作中远程岗位和设备本地岗位之间的职责划分,就必须明确在状态监视、设备操作和应急处置中的详细分工。

四是沟通交流和状态传递不到位。这种情况多发生在任务要求变化或设备状态变化等时机,设备线和任务线的沟通交流不充分,岗位人员没有及时掌握设备状态变化;或者前后班次之间关于任务要求传递不到位,导致任务操作过程还按照原有模式或既定程序,易于发生操作失误的情况。

*预防规避人为操作的主要对策措施

因为人的特殊性,人为操作失误不可能完全避免,只能是通过各种方法手段,无限地减少其发生的概率、控制其发生后的后果影响。以肯尼迪航天中心航天飞机地面停放期间开关切换操作为例,作为一个简单的切换操作,在设计了严格的双岗复核程序的基础上(基本程序如下:测试工程师读取操作指令,操作手复述并经测试工程师确认后,操作手口诵并执行该步切换操作,然后报告),仍存在较高误操作的发生。

从人为操作失误的应对方式,可以分为预防、降低、发现、改正和容错等几个层次。通过分析研究,主要有以下几方面的工作可以开展。

·加强系统运行机制设计,提高运行的自动化水平

越来越多的人认识到人为操作失误并不仅是与系统交互的终端操作者的责任,系统设计者和运行管理者同样负有责任。因此应在系统层面考虑人为操作失误风险的防控管理,在航天任务系统运行机制设计上,尽可能地将各种能够基于设备和软件实现的操作,通过合理的设计纳入自动执行。采用优化的系统模型,最大限度地利用专家知识,通过程序化的语言实现自动状态监视报警,以及故障的自恢复、自处置。在操作模板设计上尽可能的做到清晰简洁,符合工作要求和人的操作习惯。避免因岗位人员能力的差异、操作时精神状态的好坏,引起错误操作的发生。

系统自动化运行水平的提高,在很大程度上减少了正常操作和有预案的应急操作的人为失误风险,降低了岗位人员的工作强度和能力要求;但是也在一定程度上阻断了岗位人员对系统机理和操作程序的深入认识理解,特别是在发生自动化系统本身故障,需要人工逐步操作实施的时机;以及发生无预案的异常需要在对系统和操作深入认识的基础上,基于知识进行分析推理的情况。这些尽管是小概率事件,但值得在系统设计和人员培训时投入时间和精力。

·加强防差错设计,增强系统的容错处置能力

好的系统设计不给人轻易犯错误的机会,加强系统容错能力比穷尽所及试图消除错误更有现实意义。在系统设计上,应把人作为其中的一个重要因素加以关注,要尽可能减少系统操作的复杂性,要考虑增加有效控制人为操作失误的产生严重后果的环节,比如在一些危及系统安全的操作增加权限等级控制、告警提示环节,在一些可能影响任务实施的操作增加逻辑处置分支,在一些核心关键操作增加复核校验环节,针对可能危及系统安全的操作设计“取消操作”环节。基于系统结构、工作流程和历史经验,不断增强系统的容错处置能力,并将其规范化形成标准,指导后续系统的设计。

同时,不合理的人机接口设计往往使岗位人员很快就视觉疲劳、不同关键操作的按键和选项距离过近、设计上缺少再次确认核实的环节等,往往也会造成误操作的发生。因此应优化人机接口设计,使配色合理、指示清晰、关键操作分离等,增加向导式和后果提示性的操作设计,从人机接口设计上避免可能的误操作发生。

·采用标准化的方法,加强质量控制和风险防控


这部分的核心就是建立标准的航天任务工作制度和程序,实行标准化和质量管理,把每项具体操作落实到人、落实到操作程序、检查表、记录表。针对系统测试、设备维护等无法实现自动化操作的工作,有必要明确现场负责人,加强现场的组织管理,避免遗漏像状态恢复检查等关键重要环节。良好的设备状态也是减少人工干预和误操作的重要保证,为此有必要严格落实设备维修维护方面的质量文件,使设备始终处于完好的工作状态。针对设备故障情况下的应急人工操作,有必要不断完备状态判断方法、优化应急预案和规则,在操作时按照应急预案,采用双岗复核的方式,确保每一个步骤的正确实施。清除一切可能引起注意力分散的无关物品、图标等。并针对实践过程中发现的问题,不断优化完善,定期开展风险形势分析评估,做到持续改进。

·加强实际条件下岗位培训,始终保持胜任岗位的能力


除了在入职时进行岗位资格培训外,还有考虑到记忆遗忘规律,经常性地开展培训巩固;针对设备状态、任务状态变化,及时地开展针对性培训;在操作规程新旧版本交替时发生操作失误的概率很高,这时候就要在新版本启用前,集中高强度地开展培训和考核。同时在岗位训练中增加操作失误的场景设计,探索从试错中找到解决办法、提高能力。不断强化基础理论、系统架构、信息流程方面的知识学习培训,提高问题分析解决和应急决策处置能力。

有研究表明,人在与实际操作环境一致的条件下更容易记住有关操作程序步骤,为此一方面要设计开发逼真的仿真训练系统,在贴近实际工作环境的条件下开展训练,另一方面就是充分利用维修维护、测试联试等环节,让岗位人员有实际接触任务设备的时间和机会。

岗位训练和增加熟悉程度不会完全消除人为操作失误,但是能够最大限度地减少明显的错误发生,而像疏忽、遗漏等情况是训练无法解决的问题。

·加强人因工程考虑和安全文化建设

岗位人员在岗的身体状况对于任务可靠性有着重要影响。面对长期单调的航天任务岗位工作,需要在组织层面确保充足的岗位人员规模,合理地设计值班时间和间隔时间,让岗位人员能够得到充分的休整,以充沛的精力回到工作。同时要针对岗位人员的身体状况,像疲惫、生病、眼睛不适等情况,要及时发现,予以关注并做出灵活适当的调整。

同时岗位人员的心理状况对任务可靠性的影响同样不容忽视,主要包括两方面的内容,即工作满意度和工作压力。其中工作满意度主要是岗位人员对工作内容、工作酬劳、工作环境及保障条件和自我实现的心理预期和感受,具有一定的主观性,有必要在系统层面通过方方面面的考虑,来调动和激发岗位人员的主动性和创造性;工作压力作为一个复杂的因素也是因人而异,但关于在何种条件下心理压力相对较大有一些研究结论:低收入低技能的岗位、技术或状态变化后、工作要求过高、单调缺乏变化、以及技术问题频发时等。

特别是发生故障需要人工操作处置时,避免过多的人员涌向操作岗位,一方面进一步增加岗位人员的心理压力,另一方面嘈杂的声音也影响岗位操作的准确实施。

工作环境也是影响岗位人员工作状态和工作质量的重要因素,像灯光、噪音、温湿度等方面,工作台和座椅的高度等,如果设置不合适,很容易让岗位人员感到不适或易于疲惫。

还要加强安全文化建设,领导层重视,引导全员参与,不断提高安全意识、发现和消除安全隐患。并通过激励奖励措施,激发起岗位人员的专注度和热情。

在上述研究基础上,结合有关参考文献,对人为失误原因分析和对策考虑进行了归纳总结,如表1所示。

图一 人为失误原因及对策分析表

*需要解决的几个关键问题

要想有效地、最大限度地减少人为操作失误的发生,从系统层面还有很多工作要做,其中最关键的有两个方面:一是要改进问责机制,二是要建立起收集和分析人为操作失误的系统机制。

·改进问责机制

人为失误是不可避免的,相比严苛问责,事前通过努力降低其发生概率、研究发生后最小化减少损失的对策方法更具建设意义。在发生任务异常后,如果是因为技术故障引起,通常按正常设备问题排查、分析和归零程序实施,而如果任务异常是因为人为操作失误导致,往往定位为管理问题,从方方面面找原因,负责管理的各级机构、各个环节都要进行检查、审视,特别是涉及到人员的问责问题,这就导致人为操作错误这类问题各个管理层级不敢暴露、不愿暴露。这就导致未能对问题发生的原因和机理进行深入的剖析,丧失了优化系统设计、任务流程、岗位及班次设置、改进人机接口等系统能力提升的机会,也为后续问题的再次发生埋下了伏笔。

因此在发生人为操作错误后,要转变思想观念,不先入为主地就定性为单位的管理能力问题或个人责任问题,在全面调查清楚事情经过和原因后再研究确定问题责任,把问题的发生作为改进系统、优化流程、提升能力的契机,从避免类似情况再次发生的角度,从设备、制度、管理等方面进行完善。当然,对于那些明显玩忽职守、人为故意导致的操作错误,惩戒还是必要的。

·建立收集和分析人为操作失误的系统方法

这项工作并不是简单的建立一个数据库、或者在系统层面成立一个组织机构,来做数据的分析评估工作。更为重要的是要在系统内有关的每个分支机构、每个分系统建立相应的制度机制,跟踪分析那些已发生的人为操作失误,尤其要包含那些没有造成明显影响的、或者没有影响到任务实施的操作失误,提出设备、流程和管理层面的改进方案,这件工作对于系统和流程的改进优化具有重要意义。为了避免系统的繁杂、更有针对性,并消除子系统在问题暴露和处理方面的顾虑,可以考虑在系统层面设计好有关的规则和实施程序,由各个子系统自身开展问题分析、提出改进的措施和方案,这样可能更便于把那些未暴露在系统层面的问题,转化为系统和流程改进的契机。

*结论

人为操作失误问题对航天任务成败的影响不可忽视,针对其发生的机理开展深入的分析具有重要价值。人固有的弱点决定了这类问题只能是通过方方面面的努力无限地减少,但永远不会消灭。解决或减少这类问题的根本途径在于通过科技进步不断提高任务操作的自动化、自主化能力;通过质量建设和流程优化不断提高操作规程的科学化、规范化;通过对人体工程学和安全文化的不断深化认识和实践最大限度地提高在岗人员的专注度;通过持续开展的训练锻炼不断提高岗位人员的操作技能和熟练程度;通过上述这些工作的开展,不断提高航天任务的系统效能和操作的可靠度,进而取得航天任务的成功!


来源 | 我们的太空
作者 | 频传(笔名)
编辑 | 麻雨洁
举报