ISO 26262中的安全分析:FMEA、FMEDA与FTA


出品 |  焉知
知圈 |  进“毫米波雷达社群”请加微信13636581676,备注毫米波

ISO 26262中对“Functional Safety, 功能安全”的定义如下: Absence of unreasonable risk due to hazards caused by malfunctioning behavior of E/E systems. (不存在由电子电气系统的功能异常表现引起的危害而导致不合理的风险)

而从本质上来讲,电子电器系统的功能异常表现由两类失效引起:
  • 随机硬件失效(random hardware failure):在硬件要素的生命周期中,非预期发生并服从概率分布的失效。

  • 系统性失效(systematic failure):以确定的方式与某个原因相关的失效,只有对设计或生产流程、操作规程、文档或其他相关因素进行变更后才可能排除这种失效。

从这个角度,可以认为功能安全的目标就是将电子电器系统的随机硬件失效和系统性失效控制在合理的(或者说可接受的)范围内。适当且充分的安全分析可以帮助功能安全开发更好地实现这一目标。安全分析方法包含两类:
  • 归纳分析 (Inductive analysis)

  • 演绎分析 (Deductive analysis)


ISO 26262标准中对这两类分析方法分别推荐了FMEA (Failure Mode and Effects Analysis)和FTA (Fault Tree Analysis)。

ISO 26262中的安全分析:FMEA、FMEDA与FTA的图1


另一方面,ISO 26262中对功能安全开发的要求既有定性分析的要求,也有定量分析的要求。当试图将这些要求与分析方法对应时存在着一些误解,认为FMEA只能用于定性分析,而FTA则只用于定量分析,其实不然。

作为两种被很多行业广泛使用的分析方法,FMEA和FTA均既能用于定量分析也能用于定性分析,只是不同行业会基于不同的目标加以筛选使用。而实际上在功能安全开发过程中,FMEA和FTA的定量分析和定性分析均所有体现且发挥着不同的作用。本文将对这一点进行说明。

1.FMEA中的定性分析与定量分析


1.1.FMEA简介


FMEA(Failure Mode and Effects Analysis)历史悠久,最早于1949年在美国军事装备开发中提出,后来形成了国际标注1977年引入汽车行业,目前被汽车行业广泛使用的标准为德国汽车工业协会VDA和美国汽车工业行动小组AIAG联合发布的“ Failure Mode and Effects Analysis – FMEA Handbook ”。

FMEA主要针对技术风险,是对产品开发和生产流程中进行预防性质量管理的一种分析方法。FMEA分析方法最大的特点是从系统各元器件的失效原因到它们的失效对系统的影响,从而对可能造成不可接受的影响的失效原因制定优化措施,是一种“自下而上(bottom-up)”的分析方法。

ISO 26262中的安全分析:FMEA、FMEDA与FTA的图2

FMEA 图解,自下而上的方法


1.2.FMEA与定性分析——“七步法”


在2019版的《Failure Mode and Effects Analysis – FMEA Handbook》中FMEA定性分析归纳为七步,如下图所示。

ISO 26262中的安全分析:FMEA、FMEDA与FTA的图3

FMEA“七步法”

其中第1步和第7步是新版本加上去的,分别对计划和最后的文档工作进行了指导,而中间五步则是FMEA的核心。接下来将重点对这五步的关键点进行阐述。

1.2.1.Structural Analysis(结构分析)


这里的结构指的是系统的结构。系统由若干个要素(element)组成,这些要素都具备相应的特征同时通过一定的关系与其他要素相互联系。同时系统具有将系统与外界环境分开的明确的边界,并且其与环境的关系由输入和输出定义。

结构分析的目的就是清晰、完整地描述产品的组成部分,包括系统的边界。在FMEA中用树状图的形式描述了整个系统中的要素。

ISO 26262中的安全分析:FMEA、FMEDA与FTA的图4

车窗升降系统树状图示例


1.2.2.Function Analysis(功能分析)


功能分析的目的是保证产品功能被适当地分配给了相应的要素,从而将产品功能和要素功能关联起来形成功能网络。而这个工作将在已经确定的系统结构树的基础上完成。

ISO 26262中的安全分析:FMEA、FMEDA与FTA的图5

车窗升降系统功能网示例


1.2.3.Failure Analysis(失效分析)


对失效的定义来源于功能定义,当功能不能被实现时即为失效。功能的失效模式可以从以下几个方面定义:
  • Loss of function (e.g. inoperable, fails suddenly)

  • Degradation of function (e.g. performance loss over time)

  • Intermittent function (e.g. operation randomly starts/stops/starts)

  • Partial function (e.g. performance loss)

  • Unintended function (e.g. operation at the wrong time,

  • unintended direction, unequal performance)

  • Exceeding function (e.g. operation above acceptable threshold)

  • Delayed function (e.g. operation after unintended time interval)


一条完整的失效网包含以下三个因素,三者的关系如下。失效分析的目的是正确地识别出失效原因(failure cause)、失效模式(failure mode)和失效影响(failure effect), 从而基于功能网确定失效网。
  • 失效原因(failure cause)

  • 失效模式(failure mode)

  • 失效影响(failure effect)


ISO 26262中的安全分析:FMEA、FMEDA与FTA的图6

失效网模型

failure mode是使要素无法满足预期功能的方式;而failure cause则为使failure mode发生的原因;failure effect被定义为failure mode所引起的后果。

ISO 26262中的安全分析:FMEA、FMEDA与FTA的图7

车窗升降系统失效网示例


1.2.4.Risk Analysis (风险分析)


风险分析的目的是通过评估风险的严重度(Severity)、频度(Occurrence)和探测度(Detection)来确定需要采取优化措施的优先级。
  • Severity值指的是最顶层(整车层)的failure effect所造成的严重程度。简单来说,10表示最严重,0表示最不严重。

  • Occurrence值反映的是在为避免failure cause发生所采取的预防措施的作用下failure cause发生的可能性。简单来说,10表示发生的可能性最大,0表示可能性最小。

  • Detection值则反映了在产品量产释放之前采取的探测failure cause的措施的有效性。简单来说,10表示探测的有效性最差,0表示有效性最好。


1.2.5.Optimization(优化)


在确定失效网的S\O\D值后,将进行风险分析,确定需要采取优化措施的优先级。对于风险评估的标准每个公司都可能有自己的标准,有些公司用RPN值,RPN=O*D*S,根据RPN的结果大小来确定优先级。有些公司采用S*O值的结果来进行确定。不管采取哪一种评价标准,核心的目的是识别出系统中最需要优化的点。

优化的目的是对需要采取进一步措施的failure cause定义新的预防措施和探测措施,以降低O/D值从而将风险降低到可接受的范围。

1.3.FMEA与定量分析——FMEDA


在功能安全开发中,FMEDA(Failure Modes, Effects and Diagnostic Coverage Analysis)作为对电子元器件的随机硬件失效分析方法而被广泛熟知,而实际上FMEDA是在FMEA的“自下而上(bottom-up)”的分析思路的基础上,加入以下两部分内容发展而来的:
  • 底层故障的各个故障模式失效率(failure rate)和故障模式占比(failure mode distribution)

  • 故障模式的诊断及诊断覆盖率(Diagnostic Coverage)


从这个角度,可以认为FMEDA就是FMEA分析方法进行定量分析的典型应用。
FMEDA的第一步是识别出电子元器件的每一个故障模式对系统造成的影响。完成这一目标需使用上节提到的FMEA定性分析步骤中的“结构分析”、“功能分析”与 “失效分析”,从而构建出功能网和失效网。当失效网确定后,有安全影响的电子元器件及其失效模式也随之确定。

FMEDA的第二步是对每一个与安全相关的失效模式确定以下三个值,从而为定量分析提供数据支持(这一点在2.3.3节“FTA与FMEDA的合作”中有更进一步的说明)。


电子元器件输入
来源
失效率(failure rate)
SN 29500等标准
故障模式占比(failure mode distribution)
Reliability Engineering等手册
诊断覆盖率(Diagnostic Coverage)
ISO 26262,part5指南、企业know-how与专家经验
举例来说,假设下图中电阻R72通过标准和相关手册确定的故障模式及失效率信息如下:

ISO 26262中的安全分析:FMEA、FMEDA与FTA的图8

ISO 26262中的安全分析:FMEA、FMEDA与FTA的图9

某电路图(示例)

为便于后文展开分析,做出如下约定:
λ _SPF:单点故障失效率
λ _RF:残余故障失效率
λ _MPF_L:潜伏故障失效率
λ _sum:电子元器件总失效率
λ _unsafe:电子元器件所有安全相关的总失效率
λ _type:电子元器件某个故障模式下的总失效率

假设R72短路会直接违背安全需求,但不会构成多点失效电路中对短路故障有监控机制且覆盖率为90%。则该失效模式的分析结果为:

λ _SPF = 0 (FIT)

λ _RF = λ _type * (1-90%) = 28 * 10% = 2.8 (FIT)

λ _PMF_L = 0 (FIT)


ISO 26262中的安全分析:FMEA、FMEDA与FTA的图10


假设R72断路不会直接违背安全需求,但是它会与另一个元器件的失效共同构成双点失效。且电路中对断路故障有监控机制且覆盖率为80%。则该失效模式的分析结果为:

λ _SPF = 0 (FIT)

λ _RF = 0 (FIT)

λ _PMF_L = λ _type * (1-80%) = 8 * 20% = 1.6 (FIT)


ISO 26262中的安全分析:FMEA、FMEDA与FTA的图11


综上,FMEDA对R72的分析总结如下:


ISO 26262中的安全分析:FMEA、FMEDA与FTA的图12


2.FTA中的定性分析与定量分析


2.1.FTA简介


1961年以前的安全与失效分析方法仅局限于对系统部件的失效模式何失效影响进行定性分析。但是随着系统复杂性逐渐提高,要想把每个失效模式对系统可能造成的影响理清越来越困难;与此同时,这种分析方法不适用于对系统的可靠性进行定量分析。1961年,基于可靠性理论的知识,贝尔实验室的布尔代数工程师H. Watson将带有逻辑符号的布尔模型引入失效分析方法中去定量评估控制系统的可靠性,FTA便诞生了。

在波音公司首次在Minuteman I发射控制安全研究中公开使用FTA并获得很好的实践结果后,FTA随后被引入航空航天、核工程、机器人行业,几十年的发展使得FTA在评估复杂系统的安全性和可靠性方面得到了广泛的应用。2011年ISO 26262将FTA作为推荐的演绎分析法(Deductive analysis method)引入到汽车的功能安全开发中。

何为演绎分析法?简单来说就是从影响出发找出到原因的“自上而下(top-down)”的分析方法。通常把顶层影响成为顶层事件或顶事件(top event),底层原因称为原始事件或底事件(primary event)。

ISO 26262中的安全分析:FMEA、FMEDA与FTA的图13

FTA 图解,自上而下的方法

FTA的作用可以概括为:
1).识别出可能引起顶层事件非预期发生的原始事件和原始事件组合
2).筛选出最有可能导致顶层事件非预期发生的原始事件或组合
3).通过布尔代数理论计算导致顶层事件非预期发生的可能性
4).确定改进设计的思路和方向

2.2.FTA与定性分析——割集(cut set)


FTA的定性分析的主要作用是通过构建故障树识别顶事件与底事件之间的关系,同时识别出可能引起顶层事件非预期发生的原始事件和原始事件组合。

由于FMEA是从系统的底层原因触发,因此在分析某个底层事件的某个失效模式时会假定其他底层事件都是正常状态,而不考虑与其他底层事件同时发生故障对系统顶层造成的影响,所以FMEA仅用于分析单点故障。而FTA的优势则可以分析多点故障。接下来以EPB系统(电子驻车系统,Electric Parking Brake)为例对FTA的定性分析的这一优势进行说明。

搭建故障树是进行FTA定性分析的第一步,而确定顶事件是搭建故障树的第一步。在功能安全分析中,系统的Safety Goal通常定义为顶事件。选取EPB系统的一条Safety Goal为例搭建故障树并对说明FTA如何做定性分析。

Safety Goal:EPB应避免错误建压而造成过高的减速度,ASIL: C

这条Safety Goal对应EPB系统的动态液压制动功能。法规要求EPB能够作为第二套行车制动系统,通过拉起EPB开关,可以触发电控液压制动单元主动建压以实现最低1.5m/s2的减速度。

动态液压制动功能由ESC Assy的SSM模块实现,SSM模块的功能主要包括:
  • evaluation of the state of the vehicle (static/dynamic)

  • respond driver bottom intention to release and apply the parking brake

  • comfort functions such as automatic release and application

  • Requesting the dynamic deceleration function


ISO 26262中的安全分析:FMEA、FMEDA与FTA的图14

动态液压制动功能信号链,由ESC Assy(蓝色)实现

当动态液压功能正确工作时,其信号链为:EPB开关拉起 → SSM模块计算目标减速度 → ESC响应目标减速度建压。反之,以下事件任何一个发生都会导致顶事件的发生(或门):
  • EPB开关非错误拉起

  • SSM模块错误请求动态建压

  • ESC错误主动建压


最终搭建的故障树如下所示(此处故障树仅作示例使用,略去很多细节,与真实开发存在差距):

ISO 26262中的安全分析:FMEA、FMEDA与FTA的图15

故障树

基于顶事件与底事件之间的关系,也就识别出了可能引起顶层事件非预期发生的原始事件和原始事件组合,也即识别出割集(cut set)。当一个原始事件即可以引起顶层事件非预期发生时,记为order=1; 当两个原始事件同时发生才会引起顶层事件非预期发生时,记为order=2,以此类推。

割集结果验证了前面提到的FTA定性分析相比FMEA既可以识别单点故障又可以识别多点故障的优势。基于分析结果可以筛选出对安全目标有影响的故障以及故障的类型(单点故障或者多点故障),从而优化设计。

Cut set

order

SSM软件bug

1

EE存储错误

1

(EPB开关电路错误,EPB开关监控失效)

2


2.3.FTA与定量分析——SPFM, LFM, PMHF


在功能安全开发中,FTA定量分析被广泛运用于计算电子电器系统的随即硬件失效率是否满足以下两个方面的要求:
1).硬件架构度量的评估 (Evaluation of the hardware architectural metrics)
2).随机硬件失效导致违背安全目标的评估 (Evaluation of safety goal violations due to random hardware failures)


2.3.1.要求1:硬件架构度量的评估


简单来说,硬件架构度量用来评估相关项的架构应对随机硬件失效时的有效性。这些度量所针对的随机硬件失效仅限于相关项中某些安全相关电子和电气硬件元器件,即那些能对安全目标的违背或实现有显著影响的元器件,并限于这些元器件的单点故障、残余故障和潜伏故障。

硬件架构度量的评估旨在实现以下目标:
  • 显示用于防止硬件架构中单点或残余故障风险的安全机制的覆盖率是否足够(单点故障度量,single-point fault metric, SPFM);

  • 显示用于防止硬件架构中潜伏故障风险的安全机制的覆盖率是否足够(潜伏故障度量, Latent fault metric, LFM)


单点故障度量的计算公式为:

ISO 26262中的安全分析:FMEA、FMEDA与FTA的图16

式中分母即安全相关的失效率总和。

ISO 26262中对单点故障度量的要求如下,对ASIL A的安全目标没有要求,对ASIL B的安全目标没有强制要求,对ASIL C和ASIL D的安全目标有强制要求。

ISO 26262中的安全分析:FMEA、FMEDA与FTA的图17

潜伏故障度量的计算公式为:

ISO 26262中的安全分析:FMEA、FMEDA与FTA的图18

式中分母即安全相关的失效率总和。

ISO 26262中对潜伏故障度量的要求如下,对ASIL A的安全目标没有要求,对ASIL B的安全目标没有强制要求,对ASIL C和ASIL D的安全目标有强制要求。

ISO 26262中的安全分析:FMEA、FMEDA与FTA的图19


2.3.2.要求2:随机硬件失效导致违背安全目标的评估


简单来说,对随机硬件失效导致违背安全目标的评估是用来确定违背安全目标的残余风险已经足够低。最常用的方法为“随机硬件失效概率度量”( Probabilistic Metric for random Hardware Failures,PMHF)。PMHF表示在汽车运行周期中每小时平均失效概率。ISO 26262对PMHF的要求如下:

ISO 26262中的安全分析:FMEA、FMEDA与FTA的图20


2.3.3.FTA与FMEDA合作


FTA定量分析的目标为计算并分析电子电器系统的随机硬件失效是否满足ISO 26262对SPFM, LFM以及PMHF的要求。这一过程需要FTA和FMEDA合作完成。

从微观角度讲,对于一个电子电器系统的的ECU电路图,我们可以确定电路图中所有电子元器件的失效模式与对应的失效率以及对失效的诊断覆盖率。但是,从宏观角度讲有两点需要明确:
  • 不是所有的电子元器件都能引起引起整车安全问题

  • 于某一个安全相关的电子元器件,不是所有的失效模式都能引起整车安全问题


因此需要对所有电子元器件的失效模式进行分析和筛选。FTA定性分析过程中搭建的故障树中的底事件中已经识别出了能造成整车安全影响的硬件失效,将这些底事件转换成系统对硬件的需求输入给FMEDA,以构建出顶层失效与底层电子元器件故障的失效网络;失效网络确认后,通过FMEDA分析确定和安全相关的电子元器件的失效率、故障模式占比以及安全机制的诊断覆盖率,并将相关数据作为FTA的输入。

在此需要指出,除了在ECU层设计安全机制外,在软件层也可以设计满足一定诊断覆盖率的安全机制(即软件监控),而这一部分在FMEDA中是没有的,它存在于FTA故障树中。因此,FTA在计算SPFM, LFM以及PMHF时,输入并不完全是来自FMEDA,而应该是FMEDA加上软件层的安全机制覆盖率。

ISO 26262中的安全分析:FMEA、FMEDA与FTA的图21

FTA与FMEDA之间的交互


总结


通过上述说明可以归纳以下几点:

1、FMEA和FTA作为两种不同的分析方法被引入功能安全开发中,两者均能进行定性分析,也能进行定量分析;

2、FMEA进行定性分析的主要目标是从系统各元器件的失效原因到它们的失效对系统的影响,从而对造成不可接受的影响的失效原因制定优化措施;
3、FMEDA作为对电子元器件的随机硬件失效分析方法,实际上是在FMEA的方法论基础上发展而来,因此可以认为FMEA的定量分析体现在FMEDA的应用中;
4、FTA进行定性分析的主要作用是通过构建故障树识别顶事件与底事件之间的关系,同时识别出可能引起顶层事件非预期发生的原始事件和原始事件组合;
5、确定电子电器系统的随即硬件失效是否满足ISO 26262的定量要求,通常需要借助FTA和FMEDA共同完成,FTA的底事件为FMEDA提供设计需求,FMEDA为FTA提供随机硬件失效相关的数据

ISO 26262中的安全分析:FMEA、FMEDA与FTA的图22
登录后免费查看全文
立即登录
App下载
技术邻APP
工程师必备
  • 项目客服
  • 培训客服
  • 平台客服

TOP

1
1
2