政府绩效评估中的公众满意度调查-知识-上海策点市场调研公司

一、地方政府绩效评估与公众满意度调查

20世纪60年代，美国会计总署率先建立以经济性(Economy)、效率性（Efficiency）和效果性（Effectiveness）为主体的“3E”评估方法，之后又加入公平性（Equity）指标层，形成所谓“4E”绩效评估方法，拉开了地方政府绩效评价的序幕。到90年代后，在新公共管理思潮的浪潮之下，迫于选民的压力，为抑制政府扩张和政策失灵，激活政府行为，提升效能，降低成本，政府绩效评估在西方已普遍成为考评政府的有效手段，甚至决定选票的流向。如美国著名绩效研究机构Compel研究所建立了包括财政管理、人事管理、信息管理、领导目标管理和基础设施管理5个方面内容的评价体系，并运用于全美50个州的绩效评价中。英国地方自治绩效委员会构建了包括居民应对、住宅供给、环境等17个领域280多个指标的地方自治绩效评价体系，日本于2002年实施《政府政策评估法》，东京市政府建立了包括福址、安全等11个领域99个指标的市政府政策评价体系，其他发达国家的情况大同小异。作为一种管理工具，经过近半个世纪的探索，政府绩效评价理论日臻完善，技术方法也相当成熟。

我国地方政府绩效评估工作起步较晚。2003年，北京市政府从经济运行、社会发展、可持续发展和综合评价4个方面13项指标对北京8个城区和10个郊县进行绩效评价，其中涉及到公众对政府工作的满意度；同时，人事部《中国政府绩效评估研究》课题组发布了地方政府绩效评价体系等研究成果，提出了“由职能指标、影响指标和潜力指标3个一级指标，11个二级指标和33个三级指标”构成的评价指标体系，其他一些地方，如广东江门、山东青岛、福建厦门亦有局部性尝试，但总体来看，基于理念、体制与技术等各种主客观原因，我国地方政府绩效评价仍处于导入期，理论研究先天不足，而实际操作处于半手工状态，与美、日等西方国家比较滞后20年。

2006年，我们尝试在广东针对122个县级政府进行绩效评价。在国内外已有的研究成果的基础上，提出了5个领域层指标和40个具体指标的评价方案，包括公众满意度领域层以及10个满意度方面的具体指标。按照政治学逻辑，现代民主宪政下，公共权力源于公民授权，公共管理行使及公共政策形成必须以多数人为依归。这样，西方国家地方政府绩效评价系统中隐含着一个预设的前提：公众满意是政府施政的归宿点，不论是评价绩效的指标层，或者具体指标，均必须以民意作为导向，满足民意需求。我国的政治制度迥然不同，地方政府首长并非直选产生，民调监督公共政策的条件远不完善，但党和政府执政为民的信念和要求始终未变，在这么一个框架体系和约束条件下，以西方国家地方政府绩效评价指标体系缺失，或弱化公众满意度指标为由来排除我国地方政府绩效评价指标体系中公众满意度导向，建立“纯技术及符合国际惯例的客观评价”显然理由和根据不足。事实上，在经济发展、社会进步的背后，公平距离拉大，环境污染趋重，社会诚信缺失等既存的困惑，人们对政府及政策的需求从期望物质生活的改善转变为幸福生活指数提高，由此，政府绩效评价亦不能再局限于具体的统计指标合成，尤其是GDP及衍生的经济指标的合成。

正是基于上述思路，并考虑到方便操作，我们将“促进经济发展、维护社会公正、保护生态环境、节约运作成本”4个客观类指标领域层和“达致公众满意”（主观类）指标领域层一起形成“5个领域层40个具体指标”的地方政府绩效评价指标体系。根据先期预研究，在这一体系中，公众满意度调查构成其重要组成部分，在具体操作方案中占有20%的权重并对应10个具体指标，显而易见，满意度调查的代表性、科学性和准确性对评价结果的影响甚大。为使调查有效进行，评价方案对满意度调查提出了具体要求，即贯穿“服务目标、针对问题、主观评判、方便操作”的调查思路；针对过去一年被访者对政府行为、政策效果以及个人工作生活的社会环境设计调查问卷；实施执行方便操作，易于控制；符合抽样规范；设计95%置信度下3%以内的绝对误差的有效样本量。

调查设计进一步考虑到以下问题：一是着眼于公众所关心的问题，体察公众的基本需求，从而选择公众认为最重要、最能够评估政府绩效的指标形成问卷及量表，包括工作与收入评价、社会治安、医疗保障、政府作为和廉政等与地方政府职能关联密切的内容，既要评测公众的满意程度，又要了解与公众期望之间的差距；二是平衡各地方差异。由于各地区之间在人口、经济、文化等方面存在差异，政府职能、决策或制度会有自身的特点，问卷及问题应有广泛的适用性，使不同地区的评价结果具有可比性；三是操作的可行性。如公众对政府总有一些美好意愿，但如果这些意愿与总体环境和社会状况有所偏离，或者超出政府目前的行政能力，对于政府的绩效评价可能意义不大。

二、满意调查度的内容与问卷结构

一般产品和服务的满意度调查已经形成了包括顾客期望、顾客感知质量、顾客感知价值、顾客满意度、顾客抱怨、顾客忠诚度在内的较为完善的指标体系，这类指标体系经过大量的调研实践和反复的数据验证，具有通用性及借鉴价值。
但与此同时，公共服务与商业服务存在明显的差异，表现如服务主体的差异性（公共服务的主体是政府，商业服务的主体是企业）、服务类别的差异性（公共服务的类别是独立无形服务，商业服务的类别多是与有形或无形产品相配套的服务）、服务价格的差异性（公共服务不以赢利为目的往往不收费或收费甚低，商业服务多以赢利为目的，价格以市场为指导）、服务竞争的差异性（公共服务由政府垄断，不存在竞争，商业服务提供服务的各企业之间存在竞争），或者说，作为消费者的公众和作为公民的公众行为和选择存在差异，背后的原因在于：政府的管治具有强制性，和自主自由的消费选择不同；政府服务具有普遍性，政策并非针对个体，目标追求社会福利最大化并非个体福利最大化；现阶段我国农村不少地区基础条件较差，政府服务覆盖广度和深度十分有限等等。

从技术层面角度来看，体现满意度导向的地方政府绩效评价的两种方案，一是将公众满意调查置于经济发展、社会公正、保护环境、政府成本4个领域层30个具体指标之中，每一个指标的评价结果均由客观得分和主观得分所构成；二是将公众满意指标领域层与经济发展、社会公正、保护环境、政府成本平行作为第5个领域层，相对而言，后者简单方便，较为符合目前的操作条件，并部分实现了公众主观评价与客观事实评价的主客观统一。如果采用前者方案，进一步将公正满意度评价置于前述4个领域层的具体指标之中，每一个具体指标均由公众再做主观评价，评价模型将变得相对复杂，特别是满意度调查的问卷量将加大，实施操作变得困难。加上基于各种原因，普通公众对每一个具体指标很难有独立的判断，调查结果失真度增加。

在后一种方案中，最大的问题在于如何实现满意度指标与其他4个领域层30个指标的评价的吻合度与一致性。理论上，公众对政府的评价，一般涉及到政府形象、公众期望、公众感知质量、公众满意、公众抱怨5个方面，每一个方面又可衍生更具体的评价内容，如表1，二、三层级主要是对应第一层级依次展开，而上一层次则是通过下一层测评结果反映出来的，从而形成层层递进的关系。第四级指标由前面的三个层级衍生出来，形成公众满意度测评中直接面对公众的指标，和公众满意度测评问卷中的问题相对应。

同时为尽量避免和减少测评偏差，按照惯例，一般采取３个或３个以上的问题来测评一个大类指标，即第二层级指标对应3个或3个以上的四级指标。根据四级指标初步选定问卷条目之后，再进行定性和定量的预研究，形成初步问卷。初步问卷设计19个正式问题，通过相关性、相对应性和重要性分析，并考虑到必要性和可操作性，最后确定10个具体指标，有关指标导向及问卷内容如表2。从表2来看，满意度调查内容基本上可与其他源自统计年报的客观类指标相呼应，并具有较好的互补功能，具体而言，涉及到政府成本和生态环境领域层，公众的主观评价受制多种因素，满意评价具有局限性，而经济发展及社会公正领域层，公众评价更具说服力，同时，某些客观指标系统取得存在困难，由公众从满意度角度作出评价更具可操作性。

指标体系确立以后，体现在问卷上，是对各指标进行量化，以达到用数字去反映公众对测量对象的属性态度的目的。为此，可借鉴商品服务的满意度调查的方式，通过量表的形式来表现。量表的设计包括两步。第一步是“赋值”，根据设定的规则，对不同的态度特性赋予不同的数值。第二步是“定位”，将这些数字排列或组成一个序列，根据受访者的不同态度，将其在这一序列上进行定位。量表中用数字表现公众态度特性，一是数字便于统计分析；二是数字使态度测量活动本身变得容易、清楚和明确。而通行的做法是使用10级评分制，将满意程度分为10个层级，得分越高代表满意程度越高。

问卷包括甄别问卷及正式问卷，前者涉及被访者住地、性别、年龄、收入、文化程度和职业等6个变量，作为样本偏差检验和控制的依据。正式问卷10个问题紧扣主题，问题忠实于模型；表达方式符合被调查对象的文化水平、社会背景等特点，例如，问题不宜于过于学术化，也不应要求被访者需要一定的专业知识背景来答题。

在数据分析方面，由于采用经反复验证成熟的模型，主要任务是评测模型中的因果关系和结构变量的值。由于结构变量的可观测特征，需要预先为其设定值的分布范围，还要预先设定信度概率。公众满意度模型与其他满意度模型相同，每个结构变量采用百分制计分，采用95％信度区间。另外，在满意度模型中，通常采用PLS算法，借助PLS软件进行循环运算以求得最优估计值。

三、调查方案与实施执行

1.广东县（市区）基本情况

研究以广东为例。根据2005年人口变动情况抽样调查结果测算，广东年末常住人口9194万人，其中本省籍人口约7900万人。按照总体方案，调查针对21个市（广州及深圳两个副省级市，19个地级市）、122个县级（县、市辖区、县级市、自治县）政府，包括23个县级市、54个市辖区、41个县、3个自治县；基层设置1145个镇、4个乡、7个民族乡、429个街道办事处，19555个村委会，5853个居委会。如表3。

从表3可以发现，广东122个县级行政区划中，经济发展、人口规模、行政级别都存在差别。由于历史及地理原因，依据社会经济发展程度的差异性，全省又形成珠三角地区、粤东粤西两翼地区和50个山区县3种类型的经济区域。这些数据构成满意度调查及抽样方案设计的基础资料。

2. 调查对象和方式

调查对象为18岁以上具有合法权益的公民，再根据实际调查的要求增加相应的辅助条件。考虑到本项调查的一些具体要求，我们设定的有效对象是：居住地为被抽中的居委会或村委会，年龄为18~65周岁，具有合法权益的常住人口。从可操作性以及达成目标性来权衡，调查采用电话访问的方式（全省城乡居民家庭电话普及率达80%以上），借助CATI系统随机生成测评样本，避免非概率抽样造成的样本偏差，并实现测评过程的监控和测评结果的可追溯，以保证数据的客观性。通过CATI系统能够自动从样本空间抽取电话号码，并自动拨号接通电话，然后从问卷中提取应该向被访者提出的问题，呈现在电脑屏幕上供访问员参考，一道问题结束后，系统在数据库中记录结果并根据预先设定的逻辑自动转到下一题。

3. 有效样本量确定

样本量确定得合理可以保证调查的精确度，避免浪费更多的人力和物力，使调查的目的得以实现。确定样本量是决定抽样误差的关键，这要求研究对象的变化程度（变异程度）、允许的误差大小、推断的置信度、抽样的方法以及决定设计效应的值。在公众满意度调查中，对总体的抽样应该采取简单随机不重复抽样的方式，其公式为：n= t2 P(1-P)N/〔N△P2+ t2 P (1-P)〕（其中：n是样本量， N是总体数，△P2是抽样极限误差，P是样本变异程度，t为置信度对应的概率值）。这样，各县（区）的调查样本量依照各县（区）家庭户来计算。例如以广州市荔湾区为例，广州市荔湾区的常住家庭户为235931户，满意度调查误差在正负5%之间，调查结果在95%的置信度范围内，其概率值t为1.96，样本变异程度P取最大值0.5，总体数N为235931，则样本量为：n=1.962×0.5×0.5×235931/〔235931×0.052 +1.962×0.5×0.5〕=383户。其他各县（区、市）的调查样本依此类推、控制总样本量为5万。

4. 抽样方式

按照分层多级等概率抽样原则，由县抽若干镇（街道），镇（街道）抽若干村（居委），村（居委）抽若干个家庭，家庭按随机表抽被访人。为避免样本分布不均匀或抽样地区过于集中，保证最低层级样本量的统计意义，每个村委（居委）有效样本量为10~20个家庭（个人），每县（区、市）抽4~6个镇（街道），每镇抽4~6个村委（居委）。在样本接触方面，由于城镇居民家庭电话拥有率达98%，大部分农村超过80%，加上问卷简洁，可控性强，因此，采用电话访问。利用电信部门提供的家庭电话数据库，根据调查样本量通过CATI系统按地域（如不同镇、不同自然村等）对电话号码进行简单随机抽样，每一个成功电话号码对应一个接触样本量，最后访问成功样本为有效样本（调查样本量为有效样本量）。