国内视野

廉政大数据的典型特征与实现路径

　来源:中国社会科学报　作者:孙宗锋发布时间:2018-11-28

如今，海量数据对社会科学研究产生了深刻影响，甚至可能将是方法论的变革和研究范式的转型。与其他人文社会科学领域类似，廉政研究也正在经受着大数据带来的全面考验。虽然这一研究从来都是多维属性的，如权力规范与制度设计的政治维度、决策执行和廉洁考评的管理维度、个体行为和微观干预的心理维度、文化习俗和价值情怀的社会维度等，但对大数据时代政府廉政制度建设进行跨学科研究，将大大推进反腐廉政制度建设，提升反腐效果。

　　大数据为廉政研究提供机遇

　　大数据为廉政研究提供的机遇有很多，文章仅就目前大数据所呈现的典型特征进行讨论，概括出六个方面，具体如下。

　　借力大数据，精准测量廉洁程度。廉政研究的基本问题或该领域的大问题是一个国家或地区的廉洁程度问题。换言之，能否通过科学合理的方法识别地区或国家的腐败现象，是摆在廉政研究者面前的重大问题。以往的研究大多采用主观和客观两种方法衡量腐败现象，前者采用问卷调查收集各类群体的腐败感知状况，而后者则是采用官方的地区（国家）层面腐败犯罪统计数据。考察后发现，两者皆存在一定缺陷，问卷调查一方面存在抽样误差，另一方面很多腐败行为具有极高的隐蔽性，难以被感知；而官方的腐败犯罪统计数据在衡量腐败还是反腐败上争论不休。以“3V”（Volume, Velocity,Variety）为典型特征，大数据以获取全部数据为目标，不需要抽样更不需要经过人为的主观汇报，而是在行动过程中自动产生海量数据用于发现和识别腐败行为的蛛丝马迹。因此，理论上大数据方法可以同时解决已有测量廉洁程度不足的问题，实现廉政研究的跨越式发展。

　　海量数据、多种算法，重点领域和关键环节的廉洁风险防控。十八大以来，廉政建设日益重要，受到多方面广泛关注。对纪检监察机构而言，如何深入复杂且充满不确定性的行政环境、廉政建设应当从何入手，仍需进一步认识和解决。同时，考虑到基层纪检监察机构工作繁重、人员注意力等均有限的前提，如何借力大数据技术实现廉政建设在重点领域和关键环节的突破显得尤为紧迫。当前，政府投资工程项目均在公共资源交易中心系统留有痕迹，纪检监察机构可通过收集海量的工程项目数据，实现项目—机构—权力—责任人等的关联。设计多重算法，动态调试关键参数，实现对廉政建设的重点领域和关键环节的监督。大数据还可以在海量数据分析的基础上，结合时间趋势的分析算法，实现对腐败风险点的识别和有效预测。

　仿真模拟，识别腐败（集体腐败）产生的关键变量。廉政研究的核心内容在于通过科学的方法识别腐败产生的因素。众所周知，腐败行为相对隐蔽，因此很多社会科学的研究方法在该议题上表现欠佳。然而，通过仿真模拟的办法，从个体行为出发，根据某一机构或组织形态的基本属性，进行高度还原、模拟具体场景，然后通过各种算法的设定，实现不同变量取值下的腐败原因识别。此外，不同于其他议题，集体腐败以其规模大、影响广泛而备受关注。如何实现集体腐败行为的研究对于不同学科均是较大的挑战，在仿真模拟技术的支持下，给予海量的个体以不同的属性，例如，组织结构、沟通方式、关系脉络、利益共享、风险规避等，让计算机进行巨量计算，给出各种可能的结果，识别影响腐败产生的关键变量，在此基础上对廉政建设提供科学的决策方案，更好地服务于我国廉政建设。

　　爬取社交媒体实时数据，实现廉情动态监督。据统计，2018年5月微博月活用户突破4亿；而微信的月活用户更是超过了10亿。如此庞大的社交媒体用户数，为廉政研究提供了潜在的大数据库。通过设计网络爬虫程序，获取网民对廉政建设效果的认知状况、对腐败程度的感知程度和对今后廉政建设的信心指数等数据，为廉政研究提供扎实的经验材料意义重大。此外，当结合大数据分析中的情感分析算法后，可以定期实时获取网民对中国廉政发展状况的情感态度变化，对廉政政策的顶层设计具有重要参考价值。

　　机器学习，海量文本材料的自动归类。当前可为廉政研究提供海量数据的平台越来越多，比如中纪委和地方纪委官网、中国裁判文书网及其他专门网站。这些平台均可提供廉政研究某一方面的大数据，对于如此庞大的海量文本，如何实现自动归类是人力所不能及的研究任务。大数据分析方法为我们提供了很多有价值的途径，比如，有监督学习的分类算法和无监督学习的聚类算法。在实现自动分类的前提下，在同类材料中再结合抽样方法和案例方法进行深入研究，可实现对廉政研究大数据的降维处理，有效简化海量信息，实现廉政研究科学性的快速提升。

　　借力社会网络和空间分析，实现廉政研究大数据分析结果的可视化呈现。大数据方法可以实现海量数据的分析，全景式呈现廉政研究结果，让读者一目了然。其中，社会网络分析可以实现廉政研究中多方主体间关系的系统呈现，更能识别处于复杂社会网络中行动者的地位差异，从而实现廉政资源和注意力的有效配置。而空间分析更是在整合网络分析的基础上，结合空间位置信息，实时动态地反映廉政大数据的空间差异性、不同地区间的互动性。比如，可研究腐败是如何在地区间进行传播的、反腐败资源在时空配置上的多样性、不同地区间反腐败绩效的差异性等。

完善廉政研究路径

　　虽然大数据改变了以往的研究范式，给政治学和廉政研究带来了深刻的变革，但是，在实际研究中，在大数据的获取和应用上依然存在较多阻力。因此，实现大数据时代廉政研究，首先需要完善其研究路径。

　　消减阻力，推动数据共享。大数据研究的前提是存在可供分析的海量数据，然而，对于廉政研究而言，与政府相关的很多网站数据和公开数据获取时存在较高难度。例如，众多政府网站设置了反爬虫程序，使得网络爬虫壁垒重重。一些本应该公开的政府文本却因种种原因，从正式渠道难以获取。为切实推进廉政建设，推动有关政府部门廉洁数据的公开显得尤为重要。此外，一些社交媒体的数据也越发难以获取，微信数据仅能获取公众号发布的帖子和评论信息。虽然可以实现政务微信数据的获取，但对于属性数据的分析变得不可能。而且，微博数据对于有些问题存在着大量的删帖现象。因此，数据的共享不仅仅指向政府，还指向掌握数据的大型网络公司。本文倡导的数据共享不是无限度的，而是在一定匿名化处理的前提下推动实施的。

　　正确处理廉政研究与保护研究对象的关系。廉政大数据是包含相关主体的所有变量的全体数据，而非抽样数据更不是有偏的数据。科学合理的大数据廉政研究应该是基于全体数据的多变量分析，然而，在实际研究中几乎不可能发生，所有的数据几乎都是抽样数据，更非全部数据。这一方面是由技术原因导致的，另一方面则是由研究伦理道德问题所致。大数据的伦理问题遭到诟病，如何充分利用大数据发掘廉政规律同时又能保护用户的隐私是摆在廉政研究者面前的一大难题。一方面，政府各部门掌握着业务运行过程中的核心数据，例如政府采购、招投标、行政审批、行政执法等；另一方面，各部门又将这些数据视为部门核心资源，自认为不在公开范围内，不愿全部公开，更不可能及时公开。相比之下，最高法院推动各级司法机关公开裁判文书是一种值得鼓励的探索和尝试。当然，在廉政研究过程中，在尽可能突破多种限制的前提下，保护政府部门隐私也是需要引起重视的。

　　营造量化氛围、达成大数据共识。我国的廉政研究长期跟随实践，量化研究的思维还未形成共识是导致该结果的重要原因。依然秉承就事论事，不从廉政现实出发的问题需要得到根本性的解决。本文主张在廉政研究领域要努力营造量化的氛围，借力大数据方法，在一些议题如政府廉洁水平的评估、反腐败政策效果的评价，甚至特殊领域的廉情监督等采用量化的方法率先实现突破。在此基础上，努力达成廉政研究采用大数据方法的共识，科学合理地揭示腐败和反腐败规律。

　（作者单位：山东大学政治学与公共管理学院）