全球诚信报告：2011 年方法白皮书

全球诚信方法

全球诚信的诚信指标为我们对治理和腐败的核心报告和分析提供了基础。这些指标代表了世界上最全面的数据集之一，它提供了关于全球各地国家一级反腐败机制和政府问责制的定量数据和分析。利用我们超过 1,200 名实地分析师的网络以及我们独特的评分系统，全球诚信从 300 多个指标中生成可操作且具有行动价值的数据和定性分析，以评估一个国家的反腐败保障措施和腐败可能性。

诚信指标基于一个简单但强大的概念。全球诚信并没有试图衡量实际的腐败，这被专家认为几乎不可能（例如，Medard 2001；Sik 2002；Arndt 和 Oman 2006），而是定量评估了腐败的对立面，即公民和企业对一个国家的政府的接触，他们监督政府行为的能力，以及他们寻求补救和倡导改进治理的能力。诚信指标将这种“接触”分解为许多类别和问题，从询问选举实践和媒体自由到预算透明度和利益冲突条例。

我们通过观察不仅“书面”的法律或制度，而且通过评估其执行和执行来分解这些概念，这些指标包括人员配备、预算支持、政治独立和公民对最重要的反腐败机制的访问。结合我们团队中的资深记者以随附的记者笔记本形式准备的生动叙述，诚信指标提供的海量数据为每个国家的公民、活动家、捐助者、企业和政府提供了信息和赋能。

全球诚信国家评估提供了关于防止滥用权力和促进公共诚信的机制的详细数据和报告。使用社会科学和新闻的融合，由独立研究人员和记者组成的国内团队报告了腐败和治理的法律现实以及事实现实。虽然记者笔记本中关于腐败文化的报道往往描绘了一幅令人沮丧的画面，描绘了普通公民每天与腐败作斗争的困境，但诚信指标指出了国家反腐败架构中的优势和劣势，并作为可能改革的路线图。我们的方法论和发现的透明性，无论是从方法论还是发现方面，都体现了全球诚信的方法，并增强了我们发现的稳健性和可信度。随着我们不断改进我们的方法论并从我们的实地考察经验中吸取教训，我们欢迎和重视宝贵的批评意见。

研究团队成员和角色

全球诚信华盛顿的工作人员识别和管理我们的国内记者和研究人员团队，他们负责收集最终生成全球诚信国家评估的原始报告和数据。总部员工招募、签约和支付国内团队成员；开发并与国内专家分享方法论；审查所有数据和报告的完整性和准确性；管理同行评审流程（有关详细信息，请参见下文）；并制作由此产生的定性和定量信息的跨国分析。值得注意的是，全球诚信不会在任何类别、子类别或诚信指标中“分配”国家分数；我们所有的数据和报告都是由国内本地专家生成的，并且经过同行评审的，来自基层的信息。全球诚信工作人员管理实地考察流程，并提供总体方法指导和后勤支持。

实地考察和国家选择

从 2011 年 8 月到 2012 年 3 月，全球诚信在以下 33 个国家或地区进行了实地考察

阿尔及利亚、亚美尼亚、阿塞拜疆、波斯尼亚和黑塞哥维那、布基纳法索、布隆迪、中国、哥伦比亚、格鲁吉亚、德国、加纳、印度、印度尼西亚、爱尔兰、约旦、肯尼亚、科索沃、利比里亚、马其顿、马拉维、墨西哥、蒙古、尼加拉瓜、塞尔维亚、塞拉利昂、塔吉克斯坦、特立尼达和多巴哥、乌干达、乌克兰、美国、委内瑞拉、越南和津巴布韦

我们的 2011 年样本绝不具有代表性，但在几个关键变量中提供了有趣的国家覆盖范围。

虽然我们的目标是随着时间的推移覆盖世界上所有国家和地区，但 2011 年的最终国家集是根据以下标准选择的

地理平衡：全球诚信力求在其国家级国家评估的年度回合中确保基本的地理平衡。

预算：由于我们现有捐助者的慷慨支持，我们 2011 年评估涵盖的 33 个国家是我们能够负担得起的评估的国家数量上限。

专家可用性：影响是否选择一个国家的最重要标准是全球诚信是否能够在该国招募到足够合格的研究团队。我们不能，也不愿在对我们的团队缺乏信心的情况下进行国家评估。请查看下面有关如何招募和选择国家团队的更多详细信息。

2011 年国家评估也是我们第三次尝试遵守更加标准化的国家覆盖模式，这将意味着今后每两年对核心 70 个国家进行样本调查。有关详细信息，请访问：http://commons.globalintegrity.org/2009/06/global-integrity-report-2009-country.html。

国家团队

全球诚信将资深记者的技能与专家社会科学家和研究人员结合起来，以生成其全面的国家评估。在每个国家，全球诚信都会保留一个由五到十位专家组成的团队，独立工作，以编译国家评估材料。全球诚信国家团队通常包括

■ 负责报告和撰写记者笔记本的主要记者。

■ 负责编译诚信指标初始分数的主要研究人员。

■ 两个国家的“同行评审员”（其他国内专家和国外专家的混合体），他们对原始数据和报告进行盲审，以提供毫无保留的更正、评论和批评。所有数据和报告的同行评审评论将与原始数据和报告一起透明地发布，为读者提供另一种视角。这些团队通过互联网和电话从华盛顿进行协调。在国家评估公开发布之前，研究人员、记者和同行评审员都不知道国家团队其他成员的身份。这样做是为了维护个人回应的独立性，避免受同行影响的共识。所有工作均由实地团队和总部员工通过 Indaba (http://getindaba.org) 完成，这是一个由全球诚信开发的实地考察管理平台，用于高效管理复杂的全球研究。

为了识别每个国家合适的研究人员、记者和同行评审员，全球诚信积极通过与在反腐败和良好治理领域开展工作的几个有影响力的国际非政府组织的非正式伙伴关系来招募潜在的团队成员；这些合作伙伴协助宣传我们每年的“专家招募公告”。我们还参加国际会议，并寻求与我们在各个国家合作的同事的推荐。然后，全球诚信独立核实潜在团队成员的专业知识和独立性。在 2011 年，我们收到了 450 多份简历，来自有意以三种不同身份之一加入国家团队的个人：记者、主要研究人员或同行评审员。

经过内部竞争性选拔，每个国家最合格的研究人员、记者和同行评审员被确定、邀请并签订了合同，其中包含有关工作范围的具体说明。2011 年，国家团队成员的总数约为 144 人。感兴趣的读者可以在 Indaba 帮助台 (http://getindaba.org) 查看发送给每个团队成员的说明。

国家报告

构成全球诚信报告的国家评估包含以下元素

■ 腐败时间线：由华盛顿全球诚信研究人员编制，这是在国家层面发生的重大腐败相关事件的独特政治/历史时间线。作为快速参考资源，每个时间线都总结了该国过去 10-15 年的主要腐败相关事件。腐败时间线主要基于可靠的英语国际和国家媒体来源，以易于阅读的编年体方式汇总了公共领域中有关特定国家腐败的信息。

■ 记者手记：由驻地首席记者撰写，这些是 1,250 字的原创文章，分析了特定国家的腐败文化和治理状况。这篇犀利的印象派文章对日常生活中腐败的状况以及该国媒体主导的近期高调腐败案件的历史和背景进行了概括。记者手记由该国相应的同行评审人员进行审查。

■ 诚信记分卡：每个国家的 300 多项诚信指标被汇总以生成国家记分卡。记分卡由驻地首席研究人员准备和评分，并由该国相应的同行评审人员进行审查。注意：跨国全球诚信指数从 2010 年开始不再是我们年度国家评估的一部分。下面提供了一个关于消除该指数的理由。

诚信记分卡的详细信息

每个国家的诚信记分卡都考察了三个概念

1. 公共廉政机制的存在，包括促进公共问责制和限制腐败的法律和制度。

2. 这些机制的有效性。

3. 公民获得这些机制的途径。更具体地说，存在指标评估了特定国家已有的法律、法规和机构/实体或等效运行机制。有效性指标评估了公共廉政的各个方面，例如防止政治干预；支持机构独立性的任命；专业全职人员和资金；独立发起的调查；以及处罚的实施。公民获取指标评估了公民在合理时间内和以合理成本获得公共报告或公开信息的便利性。

诚信指标是一种独特的工具，旨在对特定国家在国家层面的反腐败保障措施进行量化评估。诚信指标是根据对反腐败文献和其他民主治理来源（包括透明国际的国家廉政制度框架）的全面审查精心挑选出来的，用于“评分”在国家层面存在的促进公共廉政和问责制以及防止滥用权力的制度框架。 2011 年，诚信指标被组织为六个主要类别和 23 个子类别。它们是

1 非政府组织、公共信息和媒体

1.1 反腐败非政府组织 (NGO)

1.2 媒体报道腐败的能力

1.3 公众对政府信息的请求

2 选举

2.1 投票和政党组建

2.2 选举公正

2.3 政治资金透明度

3 政府利益冲突保障和权力制衡

3.1 利益冲突保障和权力制衡：行政部门

3.2 利益冲突保障和权力制衡：立法部门

3.3 利益冲突保障和权力制衡：司法部门

3.4 预算过程监督和透明度

4 公共行政和职业道德

4.1 公务员：利益冲突保障和政治独立

4.2 举报人保护

4.3 政府采购：透明度、公平性和利益冲突保障

4.4 公共行政职能的私有化：透明度、公平性和利益冲突保障

5 政府监督和控制

5.1 国家监察员

5.2 最高审计机构

5.3 税收和海关：公平性和能力

5.4 对国有企业的监督

5.5 商业许可和监管

6 反腐败法律框架、司法公正和执法专业性

6.1 反腐败法

6.2 反腐败机构或等效机制

6.3 司法独立、公平和公民获得司法救济

6.4 执法：利益冲突保障和职业道德

全球诚信报告的读者会注意到，从 2010 年开始，我们用来描述指标的各个类别和子类别的许多标签都已从前几年发生了变化。这样做是为了更好地传达指标本身实际评估的概念；以前的一些标签，例如“政府问责制”或“法治”，由于其定义含糊不清，令许多报告读者感到困惑。这些指标本身在 2010 年没有发生实质性变化；尽管在某些情况下标签发生了变化，但仍可以在时间范围内比较某个国家的先前子类别和类别得分。

生成诚信记分卡

每个诚信指标都由首席研究人员直接评分，并尽可能用相关参考资料和补充说明来佐证。数据通过 Indaba 通过互联网从现场传递到总部。指标分为两种类型：“法律”和“实践”。所有指标，无论其类型，都按相同的 0 到 100 的顺序量表进行评分，其中 0 为最低分，100 为满分。

“法律”指标对是否存在某些法律法规、基本权利、政府机构和规章制度进行了客观评估。这些“法理”指标以简单的“是”或“否”进行评分，其中“是”得分为 100，“否”得分为 0。

“实践”指标则针对“事实”问题，例如实施、有效执行和公民获取。由于这些通常需要更细致的评估，“实践”指标在 0 到 100 的顺序量表上进行评分，可能的得分分别为 0、25、50、75 和 100。

首席研究人员需要提供参考资料来佐证他们的每一个评分。这可能是一次与有识之士进行的访谈，一个指向相关报告的网站链接，或者是一个特定法律或机构的名称，具体取决于特定的指标。首席研究人员还可以选择在评分和参考资料之外添加额外的说明来支持他们的评分。这些说明对于捕捉特定情况的细微差别特别有用，即“是，但是……”现象，而这种现象往往是进行此类研究的现实。

个性、语言和文化都会影响对特定指标的解释及其所赋予的评分。为了最大限度地减少这种影响并最大限度地提高编码员间信度，全球诚信为研究人员和同行评审人员提供了针对每个诚信指标的评分标准。评分标准将每个指标和子指标锚定到一组预定义的标准。本质上，评分标准通过建议“如果您在实地看到了 X，请按照以下方式对该指标进行评分”来指导首席研究人员。对于二元是/否“法律”指标，提供了“是 (100)”和“否 (0)”响应的评分标准。对于“实践”指标，针对每个 100、50 和 0 分定义了评分标准，其中 25 和 75 故意留空，用作中间评分选项。可以通过将鼠标悬停在任何一个指标的评分范围内，访问每个指标的评分标准。

总之，给定的指标或子指标具有以下元素

■ 指标问题，由全球诚信提供

■ 指标评分标准，由全球诚信提供

■ 指标分数（是 (100)/否 (0) 或 0-100 的顺序量表，步长为 25、50 和 75），由首席研究人员根据以下内容进行分配

■ 参考资料，由首席研究人员提供

■ 评论（可选），由首席研究人员提供

■ 同行评审评论（可选），通过双盲同行评审流程提供（有关同行评审流程的更多信息，请参见以下内容）。

数据汇总

为了生成一个国家的总体记分卡，使用了一种简单的聚合方法。如上所述，原始指标和子指标的值由该国的首席研究员分配（其中一些分数可能会在同行评审过程结束后进行调整；详情见下文）。然后，每个指标分数在其父类别中平均，从而产生一个子类别分数。子类别分数依次与其他子类别分数平均成父类别分数。类别分数平均以产生一个总体国家分数。全球诚信报告根据一个国家的总体汇总分数将国家分为五个绩效“层次”。

■ 非常强（90+）

■ 强（80+）

■ 中等（70+）

■ 弱（60+）

■ 非常弱（< 60）

由于治理和反腐败机制的某些方面难以明确衡量，因此某些类别需要比其他类别更复杂的子指标矩阵问题。因此，这些类别是同等重要的，即使某些类别是从比其他类别更长的子指标/问题系列中推导出来的。同样，子类别在其父类别中具有同等价值。

换句话说，每个分数（子指标、指标等）与其解决相同子类别/类别的同行具有同等权重。然而，来自不同类别的指标不一定具有同等权重。我们使用同等价值概念并在需要时添加下属元素的方法产生了反映六个主要概念类别均匀的得分权重。虽然我们认识到非等权重系统的合理性（为了强调更重要的议题），但我们尚未开发出有力的理由来证明将某些类别、子类别或指标比其他类别、子类别或指标更重要。

（不）生成全球诚信指数

从全球诚信报告：2010 年开始，全球诚信不再发布总体全球诚信指数，该指数之前根据国家在诚信指标上的总体汇总分数对国家进行排名。为什么政策发生了变化？

首先，由于我们在过去两个数据收集周期中减少了国家覆盖范围，以将越来越多的精力和资源集中在我们的地方诚信倡议项目上（有关详细信息，请访问 http://local.globalintegrity.org），考虑到每年大约 35 个国家的有限覆盖范围，国家排名的效用和吸引力已经减弱。

其次，停止发布指数的决定是经过深思熟虑的，旨在强化我们多年来进行此类实地调查后逐渐接受的一个核心信念：指数很少能改变现状。发布指数对出版机构来说非常棒，因为它可以推动媒体报道、头条新闻和争议。它们是非常有效的公共关系工具。但根据我们的经验，将一个国家与其他国家进行比较的单个数字并没有被证明是有效的政策制定或倡导工具。国家排名过于生硬和笼统，无法“可操作”并为真正的回扣和政策选择提供信息。

我们意识到这一决定可能引发争议，欢迎您对我们的政策转变提供积极或消极的反馈。

同行评审过程

同行评审过程的重要性不可言喻。由于全球诚信利用“专家评估”方法来编译诚信指标和记者手册，因此我们必须采用质量控制机制来确保我们的数据和报告尽可能准确和平衡。独立签约并经过仔细审查的同行评审员（因其独立性和对特定国家的专业知识而被选中）被要求通过 Indaba 对原始记者手册和原始诚信指标进行盲审。双盲同行评审过程确保同行评审员在评论时不受限制，这可能有助于他们在评论国家报告草案时更加坦率。同行评审意见用于解释（在某些情况下调整）他们认为存在错误、偏差或过时信息的评分和报告。指标评分调整遵循某些规则，通常需要重复（即多个同行评审员提供类似的评论）或对事实争议进行可靠的引用。有关此内容的更多详细信息，请参见以下内容（最终得分）。

在审查该国的记者手册时，同行评审员被要求考虑以下问题：

■ 记者手册是否真实准确？

■ 记者手册是否公正？是否有任何错误陈述或不清楚的地方？

■ 是否有任何未提及的重大事件或发展？同行评审员对记者手册的评论以叙述、段落形式捕获，并与最终的记者手册一起匿名发布。

对于诚信指标，同行评审员被要求考虑以下问题：

■ 首席研究员对特定指标或子指标的评分是否真实准确？

■ 是否有任何未提及的重大事件或发展？

■ 指标或子指标是否公正、平衡地反映了反腐败环境？

■ 评分是否与整个指标集或子指标集中的评分一致？

■ 评分是否具有争议性或得到广泛接受？有争议的评分是否具有充分的来源？

■ 所使用的来源是否可靠且信誉良好？

数据记分卡的同行评审过程与记者手册的同行评审过程一样，不会将同行评审意见直接归因于特定人员。这确保了同行评审员在评论时不受限制。国家数据记分卡的同行评审意见与最终的记分卡一起发布，并在出版前对最终评分调整起着重要作用。

关于诚信记分卡数据的同行评审反馈，同行评审员被提供四个标准化选择之一，以响应给定指标或子指标，使用上述指南评估每个数据点。

1.“是的，我同意评分，没有其他评论。”

2.“是的，我同意评分，但希望添加评论、澄清或建议其他参考。”同行评审员随后在单独的文本框中提供其评论或其他参考，该文本框与原始数据一起发布。

3.“不，我不同意评分。” 在第三种情况下，同行评审员被要求解释和辩护其对评分的批评，并建议合适的替代评分或参考。

4.我没有资格回应该指标。

在 2011 年，全球诚信为每年一轮的国家评估聘用了大约 66 名国家同行评审员，一小部分同行评审员审查了多个国家。

区域和方法同行评审

从 2011 年报告开始，全球诚信还将聘用区域同行评审员来进行方法论审查，并提供反腐败区域趋势概述。他们预期的输出是审查方法论的叙述性报告以及他们所在区域治理透明度现状的区域概述，确定主要趋势（例如国家间的比较）。2011 年报告涵盖了七个区域，每个区域分配一位同行评审员，共七位区域同行评审员。这些区域是

欧盟成员国和候选国（波斯尼亚和黑塞哥维那、德国、爱尔兰、科索沃、马其顿、塞尔维亚、乌克兰）

高加索三强（亚美尼亚、阿塞拜疆、格鲁吉亚）

美洲（尼加拉瓜、特立尼达和多巴哥、美国、委内瑞拉）

中东和北非（阿尔及利亚、约旦）

东非（肯尼亚、马拉维、乌干达、津巴布韦）

西非（布基纳法索、布隆迪、加纳、利比里亚、塞拉利昂）

亚洲（中国、印度、印度尼西亚、蒙古、塔吉克斯坦、越南）

方法论审查

即使全球诚信竭尽全力仔细定义评分标准并向首席研究员和同行评审员解释方法论，我们也了解到，有时他们会根据不同的因素及其相应的效应对记分卡问题进行不同的解释。

请考虑以下三个例子，这些例子均来自前几年的全球诚信报告。

“实际上，公务员财产申报是经过审计的。” 一位研究员可能会将“公务员”理解为所有公务员，而其他研究员可能会将其理解为仅指高级公务员。不同的解释可能会扭曲对不同国家同一指标的评分。

另一个例子是指如何解释该问题中的“审计”一词。有些人会根据是否存在审计机制来给出高分，即使该机制是随机应用于所有申报中的一小部分或仅应用于参与腐败调查的人员。但是，其他人会根据审计是否每年甚至每月进行来评分。

将因素置于背景中有时也会是一个挑战。例如，首席研究员可能会认为新媒体法的通过是选择相应指标高分的理由。但是，这种解释可能与专家评估不一致，专家评估表明新立法实际上是一个压制言论的法律。

由于任何给定问题的解释范围广泛，评分将相应变化，但并不总是如预期的那样。

分析过程旨在通过对记分卡数据的较高层级审查来解决此问题，以查明以任何方式看起来异常或不一致的结果。之后将对识别出的区域进行深入评估，以确定它们是否得到充分且准确的证据的支持。

区域分析的最终目标是评估应用的一致性，以完善内部方法。根据我们的经验，结果的不一致主要通过以下方式产生：

1) 对评分的主观解释，可以通过完善记分卡问题和明确说明研究人员的预期来最小化（但不能消除）；

2) 缺乏对历史信息和/或结果的参考；以及

3) 缺乏对一般或普遍的感知和理解的参考。

区域分析

报告的第二部分包括对该地区治理透明度和反腐败状况的定性理解，以时间和地理为基础的分析为基础。

叙述是分析研究结果的结果，包括指出分配给该地区的治理和腐败的主要趋势，可能会回答诸如：该地区整体上最强的和最弱的领域有哪些，一个或另一个国家在任何特定领域中脱颖而出（无论是好是坏）的可能原因，对善治/腐败的影响，以及记分卡是否证实或质疑关于某个问题/主题的广泛接受的看法。

高度期望理解影响该地区国家更广泛的跨国进程。将多边和区域机构（例如，欧盟、欧安组织等）关于治理/问责/反腐败的政策和发展知识应用于该地区也可能是有用的。

我们鼓励分析师根据不同国家之间的记分卡进行比较（相似之处和差异），以对该地区的趋势、模式和挑战进行概括。尽管以地方知识为基础，但良好的区域分析和评估应该超越单个国家的界限。

例如，基于他们对当前问题的区域了解，分析师可能会理解，在该地区的国家中，行政权力特别强大，并且无法通过无效的制衡/问责机制得到有效控制。或者，新庇护主义可能是该地区特有的突出问题，或者权力下放的特征是缺乏问责机制等等。

最终得分

全球诚信对每个国家诚信记分卡中包含的得分负全部和最终责任。这些分数是在经过精心策划的协作审查流程后生成的，该流程包括平衡来自多个（有时是冲突的）来源的信息，同时以主评分标准为指导。

在同行评审流程之后，全球诚信工作人员确定了同行评审人员已标记有问题分数的特定数据点。然后，工作人员让整个国家团队参与关于相关问题的讨论，并最终根据国家团队的反馈，在必要时对原始数据做出适当的更改。

尽管全球诚信尽一切努力生成可信的信息，但我们欢迎对我们数据的真实性和准确性提供所有反馈。如果您不同意指标分数，特别是关于事实准确性方面，请通过电子邮件与全球诚信联系，提供具体的评论。

置信区间

2007年，全球诚信开始发布为国家生成的顶级分数的误差幅度。然而，从2010年开始，我们停止发布总体国家级分数的误差幅度，因为将我们的研究转移到Indaba实地工作平台时遇到了技术挑战。更重要的是，我们决定不发布总体全球诚信指数，这减少了我们提醒报告读者X国总分的73可能与Y国的72没有实质性差异的必要性。请参阅以前全球诚信报告方法白皮书，以了解为生成过去几年误差幅度而实施的技术。

执行差距

从2007年开始，全球诚信开始发布我们称之为“执行差距”的每个国家的信息。执行差距是指一个国家的善治和反腐败法律框架与其相同法律框架的实际执行和实施之间的差异。我们只在国家得分级别生成执行差距，而不是在类别和/或子类别级别。

执行差距是通过首先为每个国家生成一个法律框架得分和一个实际执行得分来创建的。这两个值是通过两个独立的计算得出的。在每种情况下，我们对国家诚信指标执行与上述相同的聚合技术，但首先从数据集中删除所有“法律中”或“实践中”的指标（例如，为了生成“法律框架”得分，我们首先从国家数据集中删除所有“实践中”的指标，然后执行上述典型的指标聚合技术）。一旦生成了法律框架得分和实际执行得分，我们只需从法律得分中减去实际得分，即可生成该国的执行差距。

示例：56（法律框架）– 26（实际执行）= 30（执行差距）

完整报告请访问：http://www.globalintegrity.org/report

参考文献

■ Arndt, Christiane and Charles Oman. 2006. Uses and Abuses of Governance Indicators (Paris: OECD Development Centre).

■ Kaufmann, Daniel, Kraay, Aart and Mastruzzi, Massimo, Governance Matters VIII: Aggregate and Individual Governance Indicators, 1996-2008 (June 29, 2009). World Bank Policy Research Working Paper No. 4978. Available at SSRN: http://ssrn.com/abstract=1424591

■ Medard, J.F. 2001. “L’evaluation de la corruption: approches et problemes,” in L’evaluation des politiques de developpement. Approches pluridisciplinaires (Paris: L’Harmattan): 53-90.

■ Sik, Endre. 2002. “The Bad, the Worse and the Worst: Guesstimating the Level of Corruption,” in Political Corruption in Transition: A Skeptic’s Handbook (Budapest: Central European University Press): 91-113.