软件可靠性（计算机术语）-趣爱秀

定义

1983年美国IEEE计算机学会对“软件可靠性”作出了明确定义，此后该定义被美国标准化研究所接受为国家标准，1989年中国也接受该定义为国家标准。该定义包括两方面的含义：

（1）在规定的条件下，在规定的时间内，软件不引起系统失效的概率；

（2）在规定的时间周期内，在所述条件下程序执行所要求的功能的能力；

其中的概率是系统输入和系统使用的函数，也是软件中存在的故障的函数，系统输入将确定是否会遇到已存在的故障（如果故障存在的话）。

越难保证

用软件系统规模越做越大越复杂，其可靠性越来越难保证。应用本身对系统运行的可靠性要求越来越高，在一些关键的应用领域，如航空、航天等，其可靠性要求尤为重要，在银行等服务性行业，其软件系统的可靠性也直接关系到自身的声誉和生存发展竞争能力。

特别是软件可靠性比硬件可靠性更难保证，会严重影响整个系统的可靠性。在许多项目开发过程中，对可靠性没有提出明确的要求，开发商(部门)也不在可靠性方面花更多的精力，往往只注重速度、结果的正确性和用户界面的友好性等，而忽略了可靠性。在投入使用后才发现大量可靠性问题，增加了维护困难和工作量，严重时只有束之高阁，无法投入实际使用。

与硬件

软件可靠性与硬件可靠性之间主要存在以下区别:

1.最明显的是硬件有老化损耗现象，硬件失效是物理故障，是器件物理变化的必然结果，有浴盆曲线现象；软件不发生变化，没有磨损现象，有陈旧落后的问题，没有浴盆曲线现象。

2.硬件可靠性的决定因素是时间，受设计、生产、运用的所有过程影响，软件可靠性的决定因素是与输入数据有关的软件差错，是输入数据和程序内部状态的函数，更多地决定于人。

3.硬件的纠错维护可通过修复或更换失效的系统重新恢复功能，软件只有通过重设计。

4.对硬件可采用预防性维护技术预防故障，采用断开失效部件的办法诊断故障，而软件则不能采用这些技术。

5.事先估计可靠性测试和可靠性的逐步增长等技术对软件和硬件有不同的意义。

6.为提高硬件可靠性可采用冗余技术，而同一软件的冗余不能提高可靠性。

7.硬件可靠性检验方法已建立，并已标准化且有一整套完整的理论，而软件可靠性验证方法仍未建立，更没有完整的理论体系。

8.硬件可靠性已有成熟的产品市场，而软件产品市场还很新。

9.软件错误是永恒的，可重现的，而一些瞬间的硬件错误可能会被误认为是软件错误。

总的说来，软件可靠性比硬件可靠性更难保证，即使是美国宇航局的软件系统，其可靠性仍比硬件可靠性低一个数量级。

软件差错

软件差错是软件开发各阶段潜入的人为错误：

1.需求分析定义错误。如用户提出的需求不完整，用户需求的变更未及时消化，软件开发者和用户对需求的理解不同等等。

2.设计错误。如处理的结构和算法错误，缺乏对特殊情况和错误处理的考虑等。

3.编码错误。如语法错误，变量初始化错误等。

4.测试错误。如数据准备错误，测试用例错误等。

5.文档错误。如文档不齐全，文档相关内容不一致，文档版本不一致，缺乏完整性等。

从上游到下游，错误的影响是发散的，所以要尽量把错误消除在开发前期阶段。

错误引入软件的方式可归纳为两种特性：程序代码特性，开发过程特性。

程序代码一个最直观的特性是长度，另外还有算法和语句结构等，程序代码越长，结构越复杂，其可靠性越难保证。

开发过程特性包括采用的工程技术和使用的工具，也包括开发者个人的业务经历水平等。

除了软件可靠性外，影响可靠性的另一个重要因素是健壮性，对非法输入的容错能力。

所以提高可靠性从原理上看就是要减少错误和提高健壮性。

三个要素

1.规定的时间

软件可靠性只是体现在其运行阶段，所以将“运行时间”作为“规定的时间”的度量。“运行时间”包括软件系统运行后工作与挂起(开启但空闲)的累计时间。由于软件运行的环境与程序路径选取的随机性，软件的失效为随机事件，所以运行时间属于随机变量。

2.规定的环境条件

环境条件指软件的运行环境。它涉及软件系统运行时所需的各种支持要素，如支持硬件、操作系统、其它支持软件、输入数据格式和范围以及操作规程等。不同的环境条件下软件的可靠性是不同的。具体地说，规定的环境条件主要是描述软件系统运行时计算机的配置情况以及对输入数据的要求，并假定其它一切因素都是理想的。有了明确规定的环境条件，还可以有效判断软件失效的责任在用户方还是研制方。

3.规定的功能

软件可靠性还与规定的任务和功能有关。由于要完成的任务不同，软件的运行剖面会有所区别，则调用的子模块就不同(即程序路径选择不同)，其可靠性也就可能不同。所以要准确度量软件系统的可靠性必须首先明确它的任务和功能。

可靠性测试

测试目的

软件可靠性测试的主要目的有:

(1)通过在有使用代表性的环境中执行软件，以证实软件需求是否正确实现。

(2) 为进行软件可靠性估计采集准确的数据。估计软件可靠性一般可分为四个步骤，即数据采集、模型选择、模型拟合以及软件可靠性评估。可以认为，数据采集是整个软件可靠性估计工作的基础，数据的准确与否关系到软件可靠性评估的准确度。

(3)通过软件可靠性测试找出所有对软件可靠性影响较大的错误。

测试特点

软件可靠性测试不同于硬件可靠性测试，这主要是因为二者失效的原因不同。硬件失效一般是由于元器件的老化引起的，因此硬件可靠性测试强调随机选取多个相同的产品，统计它们的正常运行时间。正常运行的平均时间越长，则硬件就越可靠。软件失效是由设计缺陷造成的，软件的输入决定是否会遇到软件内部存在的故障。

因此，使用同样一组输入反复测试软件并记录其失效数据是没有意义的。在软件没有改动的情况下，这种数据只是首次记录的不断重复，不能用来估计软件可靠性。软件可靠性测试强调按实际使用的概率分布随机选择输入，并强调测试需求的覆盖面。软件可靠性测试也不同于一般的软件功能测试。

相比之下，软件可靠性测试更强调测试输入与典型使用环境输入统计特性的一致，强调对功能、输入、数据域及其相关概率的先期识别。测试实例的采样策略也不同，软件可靠性测试必须按照使用的概率分布随机地选择测试实例，这样才能得到比较准确的可靠性估计，也有利于找出对软件可靠性影响较大的故障。

此外，软件可靠性测试过程中还要求比较准确地记录软件的运行时间，它的输入覆盖一般也要大于普通软件功能测试的要求。

对一些特殊的软件，如容错软件、实时嵌入式软件等，进行软件可靠性测试时需要有多种测试环境。这是因为在使用环境下常常很难在软件中植入错误，以进行针对性的测试。

测试效果

软件可靠性测试是软件可靠性保证过程中非常关键的一步。经过软件可靠性测试的软件并不能保证该软件中残存的错误数最小，但可以保证该软件的可靠性达到较高的要求。从工程的角度来看，一个软件的可靠性高不仅意味着该软件的失效率低，而且意味着一旦该软件失效，由此所造成的危害也小。一个大型的工程软件没有错误是不可能的，至少理论上还不能证

明一个大型的工程软件能没有错误。因此，保证软件可靠性的关键不是确保软件没有错误，而是要确保软件的关键部分没有错误。更确切地说，是要确保软件中没有对可靠性影响较大的错误。这正是软件可靠性测试的目的之一。软件可靠性测试的侧重点不同于一般的软件功能测试，其测试实例设计的出发点是寻找对可靠性影响较大的故障。

因此，要达到同样的可靠性要求，可靠性测试比一般的功能测试更有效，所花的时间也更少。另外，软件可靠性测试的环境是具有使用代表性的环境，这样，所获得的测试数据与软件的实际运行数据比较接近，可用于软件可靠性估计。

总之，软件可靠性测试比一般的功能测试更加经济和有效，它可以代替一般的功能测试，而一般的软件功能测试却不能代替软件可靠性测试，而且一般功能测试所得到的测试数据也不宜用于软件可靠性估计。

注意问题

软件可靠性测试一般可分为四个阶段:制定测试方案，制定测试计划，进行测试并记录测试结果，编写测试报告。

制定测试方案时需要特别注意被测功能的识别和失效等级的定义。制定测试计划时需设计测试实例，决定测试时要确定输入顺序，并确定程序输出的预期结果，这时也需注意测试覆盖问题。

1. 功能识别

软件可靠性测试的第一步就是进行功能识别，确定使用剖面。功能识别的目标是:识别所有被测功能以及执行这些功能所需的相关输入，识别每一个使用需求及其相关输入的概率分布。为达到第一个目标，需要分析软件功能的所有集合，这些功能之间全部的约束条件，功能之间的独立性、相互关系和相互影响，还需分析系统的不同运行模式、失效发生时系统重构策略等对软件运行方式有较大影响的因素。

第一个目标也是一般软件功能测试需要达到的目标，但第二个目标则是软件可靠性测试特别强调的。为了得到能够反映软件使用的有代表性的概率分布，测试人员必须和系统工程师、系统运行分析员和顾客共同合作。需要指出的是，由于可靠性的要求，输入数据的概率分布应包括合法数据的概率分布和非法数据的概率分布两部分。有时为了更好地反映实际使用状况，还需给出那些影响程序运行方式的条件，如硬件配置.负荷等的概率分布。

2. 定义换效等级

定义失效等级主要是为了解决下面两个问题:

对发生概率小但失效后危害严重的功能需求的识别。

对可不查找失效原因、并不做统计的功能需求的识别。

在制定测试计划时，失效及其等级的定义应由测试人员、设计人员和用户共同商定，达成协议。

3. 可靠性测试覆盖

可靠性测试必须保证输入覆盖和环境覆盖，这是准确估计软件可靠性的基础。

输入覆盖包括下面几个内容:

输入域覆盖，即所有被测输入值域的发生概率之和必须大于软件可靠度的要求。

重要输入变量值的覆盖。

相关输入变量可能组合的覆盖，以确保相关输入变量的相互影响不会导致软件失效。

设计输入空间与实际输入空间之间区域的覆盖，即不合法输入域的覆盖。

各种使用功能的覆盖。

环境覆盖是指测试时必须覆盖所有可能影响程序运行方式的条件。

测试步骤

软件可靠性测试分为四个阶段:

1.制订测试方案

本阶段的目标是识别软件功能需求，触发该功能的输入和对应的数据域，确定相关的概率分布及需强化测试的功能。

以下是我们推荐的步骤。在一些特定的应用中，有的步骤并不是必须的。

(1)分析功能需求分析各种功能需求，识别触发该功能的输入及相关的数据域(包括合法

与不合法的两部分)。分析时要注意下述问题:

该软件是否存在不同的运行模式?如果存在，那么应列出所有的系统运行模式。

是否存在影响程序运行方式的外部条件?如果存在，那么有多少?它们的影响程度如何

各种功能需求之间是相互独立的还是相关的?如果相关，是密切相关还是部分相关?如果两种功能密切相关，那么可将两种功能合并为一种功能。如果功能之间为部分相关，则需列出相应输入变量的合法组合。

(2)定义失效等级

判断是否存在出现危害度较大的1级和2级失效的可能性。如果这种可能性存在，则应进行故障树分析，标识出所有可能造成严重失效的功能需求和其相关的输入领域。

(3)确定概率分布

确定各种不同运行方式的发生概率，判断是否需要对不同的运行方式进行分别测试。如果需要，则应给出各种运行方式下各数据域的概率分布;否则，给出各数据域的概率分布。

判断是否需要强化测试某些功能。

(4)整理概率分布的信息将这些信息编码送入数据库。

2.制订测试计划

(1)根据前一阶段整理的概率分布信息生成相对应的测试实例集，并计算出每一测试实例预期的软件输出结果。

本阶段需要注意:在按概率分布随机选择生成测试实例的同时，要保证测试的覆盖面。

(2)编写测试计划，确定测试顺序，分配测试资源。由于本阶段前一部分的工作需要考虑大量的信息和数据，因此需要一个软件支持工具，建立数据库，并产生测试实例。另外，有时预测软件输出结果也需要大量的计算，有些复杂的软件甚至要用到仿真器模拟输出结果。总之，具体实施与被测应用软件的实际功能类型有关。

3. 测试

本阶段进行软件测试。需注意的是被测软件的测试环境(包括硬件配置和软件支撑环境

)应和预期的实际使用环境尽可能一致，对某些环境要求比较严格的软件(如嵌入式软件)则应完全一致。测试时按测试计划和顺序对每一个测试实例进行测试，判断软件输出是否符合预期结果。测试时应记录测试结果、运行时间和判断结果。如果软件失效，那么还应记录失效现象和时间，以备以后核对。

4.编写测试报告

按软件可靠性估计的要求整理测试记录，并将结果写成报告。

软件可靠性测试的关键在于:

对需求、输入、数据域的识别及相关概率分布的确定。

按照概率分布随机生成测试实例，并确定测试顺序。

据国外有关文献报导，这种测试方法已成功应用于大量应用软件的可靠性测试，包括一些商用软件和航空、航天电子设备中嵌入式软件的测试，其效果很好。因此，我们有必要投入一定的人力、物力，针对我们的实际需要，有目的地对各类应用软件进行软件可靠性测试，从实践中逐步积累经验。同时需要软件开发方和使用方共同合作，进行软件可靠性测试方法的研究和有关支持工具的开发，促进我国软件可靠性水平的提高。

评测技术

软件可靠性评测是指运用统计技术对软件可靠性测试和系统运行期间采集的软件失效数据进行处理并评估软件可靠性的过程。软件可靠性评测的主要目的是测量和验证软件的可靠性，当然实施软件可靠性评测也是对软件测试过程的一种完善，有助于软件产品本身的可靠性增长。

软件测试者可以使用很多方法进行软件测试，如按行为或结构来划分输入域的划分测试，纯粹随机选择输入的随机测试，基于功能、路径、数据流或控制流的覆盖测试，等等。对于给定的软件，每种测试方法都局限于暴露一定数量和一些类别的错误。通过这些测试能够查找、定位、改正和消除某些错误，实现一定意义上的软件可靠性增长。但是，由于它们都是面向错误的测试，测试所得到的结果数据不宜用于软件可靠性评估。

软件可靠性测试是指在软件的预期使用环境中，为进行软件可靠性评估而对软件实施的一种测试。软件可靠性测试应该是面向故障的测试，以用户将要使用的方式来测试软件，每一次测试代表用户将要完成的一组操作，使测试成为最终产品使用的预演。这就使得所获得的测试数据与软件的实际运行数据比较接近，可用于软件可靠性估计。

软件可靠性评测由可靠性目标的确定、运行剖面的开发、测试的计划与执行和测试结果的分析与反馈等四个主要的活动组成。

可靠性目标是指客户对软件性能满意程度的期望。通常用可靠度、故障强度、MTTF等指标来描述，根据不同项目的不同需要而定。建立定量的可靠性指标需要对可靠性、交付时间和成本进行平衡。为了定义系统的可靠性指标，必须确定系统的运行模式，定义故障的严重性等级，确定故障强度目标。

为了对软件可靠性进行良好的预计，必须在软件的运行域上对其进行测试，首先定义一个相应的剖面来镜像运行域，然后使用这个剖面驱动测试，这样可以使测试真实的反映软件的使用情况。由于可能的输入几乎是无限的，测试必须从中选择出一些样本，即测试用例，测试用例要能反映实际的使用情况，反映系统的运行剖面。

将统计方法应用到运行剖面开发和测试用例生成，在运行剖面中的每个元素都被定量地赋予一个发生概率值和关键因子，然后根据这些因素分配测试资源、挑选和生成测试用例。在这种测试中，优先测试那些最重要或最频繁使用的功能，释放和缓解最高级别的风险，有助于尽早发现那些对可靠性有最大影响的故障，以保证软件的按期交付。一个产品有可能需要开发多个运行剖面，这取决于它所包含的运行模式和关键操作，通常需要为关键操作单独定义运行剖面。

在软件的开发过程中使用软件可靠性测试和利用软件可靠性测试对最终产品进行评价，在测试计划的制定上有所不同。用于设计过程的可靠性测试称为可靠性增长测试，测试与故障的排除联系在一起，一般安排在开发过程的系统测试阶段执行，将测试所确定的故障提交给开发者进行修改，建立软件的一个新的版本，再进行下一次测试。

在这种“测试—排错—新版本”的迭代过程中，跟踪故障强度的变化，确认测试是否可以终止及软件是否可以发布。可靠性增长测试的测试脚本将执行多次。针对最终产品的可靠性测试称为可靠性验证测试，通过验证测试可确定软件产品当前的可靠性水平。就单个软件版本而言，可靠性验证测试的测试脚本将仅执行一次。

软件可靠性故障数据的收集是测试活动的一部分，在测试周期内，纪录每个故障的资料，如与时间相关的故障频度、类型、严重性和故障的根源等，并且应区分设计阶段和最终产品的故障。

可靠性增长测试和可靠性验证测试将从不同的角度理解故障数据。在可靠性增长测试中，测试以迭代的方式进行，根据测试期间跟踪到的故障，使用基于软件可靠性增长模型和统计推理的可靠性评估程序进行故障强度的估计，并用于跟踪测试的进展情况。可靠性验证测试是软件系统提交前进行的最后测试。

它是最终检验而不是调试。在验证测试中，其目标是确定一个软件组件或系统在风险限度内是被接受还是被拒绝。验证测试使用可靠性示图，故障被绘制在图上。根据它落入的区域，来决定被测软件是被接受还是被拒绝，或者继续进行测试。可以根据不同的客户风险(接受一个不良程序的风险)和供应商风险(拒绝一个好程序的风险)级别构造图表。