新闻资讯

周德铭:聚焦政府数据治理和数据标准化

2019/12/31 17:29:19 人评论
11月28-29日,由中国社会科学院信息化研究中心、北京国脉互联信息顾问有限公司、清华大学国家治理研究院联合主办的“2019智慧中国年会”在北京隆重召开,以“数字化转型——共识与策略”为主题,来自全国部委、省、市、区县电子政务、智慧城市、大数据主管领导、行业专家、企业代表、主流媒体等齐聚一堂。其中,28日主论坛有近800名嘉宾到场,更有近6000人同步收看直播;两天会议到场参与人次达千余名。


本文系国家大数据发展专家咨询委员会委员、国家政务信息系统整合共享专家组专家周德铭先生于11月29日上午在“2019智慧中国年会”分论坛——“数据治理与标准化研讨会”上的演讲,内容通过现场速记整理,未经本人审核。


习近平总书记多次强调数字中国建设,他指出:推进“数字中国”建设,对国家信息化发展做出了新的战略部署,成为了新时代推进国家治理体系和治理能力现代化的重要指引,要构建以数据为关键要素的数字经济,建设现代化经济体系离不开大数据发展和应用。


一、政府数据治理特征


政府数据是履行宏观调节、市场监管、社会管理、公共服务基本职能所采集、加工、生成、存储的数据。政府数据治理是指政府按照一定的数据分类、标准规范等数据特征进行数据资源和业务模型的建设和积累,实现“用数据对话、用数据决策、用数据服务、用数据创新”的治理职责。根据以上定义,我们来研究数据的基本特征,主要包括自然特征、业务特征、使用特征。


(一)数据的自然特征


数据的自然特征反映了从“数据”到“智慧”的发展过程。我们从“数据”入手,研究数据、信息、知识、智慧之间的关系。


1、数据:指对客观事物的数量、属性、位置及其相互关系的抽象表示,是对现实生活的理性描述,通过汇总、排序、比例等反映现实世界,是没有经过组织的文字、符号、图像等,来源于事实,是原始的信息。举个实例,我告诉你一个信息“今天北京气温是10度”,这里其实含了三个数据,即时间(今天)、地点(北京)、温度(10度),如果我只告诉你一个数据,大家听了以后没有任何意义。所以,我们要把数据提升到信息层面。


2、信息:源于数据并高于数据。信息具有时效性、含义和逻辑,经过加工处理对决策有价值。从数据变为信息,要对采集的数据进行某种方式的处理、汇聚,让数据之间产生关系、说明问题、以便解决问题。例如,今天、地点、气温等单一数据经过处理,形成今天或明天北京气温9摄氏度的信息。所以,信息=数据+时间+处理。


3、知识:在数据与信息之上,需要通过信息使用归纳、演绎等方法得到;成为个人信念和判断取向后才能成为知识。知识是知道什么(Know-what)、指导为什么(Know-why)、指导怎么做(Know-how)、指导谁(Know-who),为“4个W”。例如人们通过不同时期气候的变化,总结出春夏秋冬“四季”知识,以便采用不同手段处理各类问题。


4、智慧:知识层次中的最高级,同时也是人类区别于其他生物的重要特征。智慧的产生需要基于知识的应用,根据共识并沿承知识的三个层次——数据、信息、知识,对物质世界运动过程中产生的问题进行移动互联、物联网、大数据、人工智能等分析,找出解决问题的方案。智慧是将信息、知识中有价值部分挖掘出来,使之成为人类独有的能力。例如利用智慧对“四季”的分析,不仅可以处理吃、住、穿、行,还可处理其他各类问题的难点。


所以,从数据、信息、知识、智慧四个层次上看:就数据而言,我们可以通过数据采集和集中来得到;信息是对数据加工后得到的比较完整的一个信息;知识是对信息和数据进行归纳和演绎;智慧要通过新一代技术处理,来得到更广泛的知识层面。


数据和信息是客观存在的,知识和智慧是主观意识。总体来说,数据是基础、信息是价值、知识是关键、智慧是能力。


(二)数据的业务特征


数据的业务特征反映了数据治理社会的分类特征。再从“数据”入手,研究业务数据、分析数据、大数据。


1、业务数据:指不同政务部门依据政务职能确定的相关业务进行采集、处理、加工、汇聚,形成数据、信息、知识。比如:财政业务数据是对财政的收入、支出等预算指标的分配,国库集中收入、支出管理的数据,当然财政可能有数十项业务,但这两项是最基本的;公安业务数据是对犯罪侦查、反恐怖、禁毒、出入境管理、治安管理、网络安全管理等数据;企业业务数据是对销售生产经营、人力物力财力进行管控,保障国有资本保值增值的数据。


2、分析数据:指政务部门为提升政务职能的履行能力,将不同业务的数据进行关联分析、归纳、演绎所形成的知识。比如:财政分析数据是对工资、利润等的初次分配,通过税收、福利收入等的再次分配,解决百姓企业满意度,以及解决财政收支平衡等的数据分析;公安分析数据是对治安管理各类犯罪行为的侦破率、发生率进行有效控制的数据分析;企业分析数据是对盈利能力、资产质量、债务风险和经营增长的财务绩效定量指标,确立与执行、经营决策、发展创新、风险控制等的管理绩效定性指标的数据分析。


3、大数据:指政务部门为提升履职过程中解决重大社会问题,对业务数据、分析数据、共享开放数据、宏观调控数据、网络舆情数据等进行关联分析、归纳、演绎所形成的价值能力。我发现很多地方在研究大数据时,比较注重“大”,建了很多基础设施、买了很多服务器,但大数据最本质的特征是价值高,要求我们(在研究大数据时)更关注大数据的主题应用。比如:财政大数据是对财政收支平衡、国库集中收付等的重大问题,通过财、税、库、银和网络舆情数据联网等技术,发挥“看得见的手”作用的数据分析;公安大数据为提升反恐能力,采用北斗、物联网等技术,分析构建应急指挥的立体化、可视化系统;企业大数据为了让客户长久留存、消费更多的商品和服务,采用老客户、新客户、特殊客户的购买心理分析,提升交叉关联销售模型的数据分析。


这三个环节是为了提升我们对数据的认识。业务数据是部门履职的需要,分析数据是提升履职能力的需要,而大数据是为了解决履职中面临重大社会问题的需要。三个数据有区别,对应的模型也有区别。


(三)数据的使用特征


数据的使用特征反映了数据在业务治理和共享开放的特征。还从“数据入手”,研究业务数据、共享数据、开放数据,这是我国任一政府部门、金融机构、企业在数据处理时都会遇到的问题。


1、业务数据:指政府部门在中央和地方行业内部构建业务和管理的各类业务数据,满足政务职能各类业务的履职需要。比如:财政业务数据指构建政府预算指标、国库集中支付、非税收缴、资产管理等各类业务的数据资源目录,满足财政履职需要;公安业务数据指构建犯罪侦查、反恐怖、禁毒、出入境管理、治安管理、网络安全管理等业务数据资源目录,满足财政履职需要;企业业务数据指构建销售生产经营、人力物力财力等业务数据资源目录,满足企业资产保值增值的需要。


2、共享数据:指在政府部门之间共享基础类、主题类、部门类的各类共享数据,满足政务职能所需的信息共享。举个例子,人社部门涉及人的信息,如姓名、身份证号等,不是人社部门做的,而是公安部牵头做的,人社部门要共享公安部提供的人口信息。国务院印发的《政务信息资源共享管理暂行办法》对政务信息资源的共享提出了三个分类,包括基础类(人口、法人、空间、地理、社会信用等)、主题类(公共服务事项、行政服务事项)、部门类(党委、人大、政府、政协、法院、检察院等部门的数据)。比如:财政共享数据指构建政府预算指标、国库集中支付、非税收缴、资产管理等各类共享数据目录,满足其他政府部门的履职需要;公安共享数据指构建犯罪侦查、反恐怖、禁毒、出入境管理、治安管理、网络安全管理等各类共享数据,满足共享履职需要;企业共享数据指国资委等企业主管部门构建企业销售生产经营、人力物力财力等各类共享数据,满足其他政府部门的履职需要。共享数据在当前我国政务信息化建设过程中显得尤为重要。


3、开放数据:指政府构建基础类、主题类、部门类的各类开放数据,满足社会公众所需的信息开放。我国政府近年来在政府数据开放方面发布了系列文件。比如:财政开放数据指构建政府预算指标、国库集中支付、非税收缴、资产管理等各类开放数据目录,满足社会公众的需要;公安开放数据指构建犯罪侦查、反恐怖、禁毒、出入境管理、治安管理、网络安全管理等各类开放数据,满足社会公众的需要;企业开放数据指国资委等企业主管部门构建企业销售生产经营、人力物力财力等各类开放数据,满足社会公众的需要。


数据在处理过程中,就一个部门、单位而言,首先要解决履职需要的业务数据,同时要为其它政务部门提供共享数据,并且要向社会开放数据,全面提升数据治理的使用需要。


二、政府数据治理标准


十八大以来,党和国家发布了系列重要文件和标准规范,为政府的业务数据、共享数据、开放数据治理提供了重要依据。


(一)业务数据治理标准


1、业务处理模型


业务数据标准是建立业务数据目录、元数据、主数据、数据元素、数据表等系列数据资源和分析模型的标准规范。


如国家审计署的“审计信息资源目录体系”,左边是审计管理类(包括法律法规信息、领导决策信息、审计文书信息、机构人员信息等),右边是审计业务类(包括审计业务信息、财政审计信息、税收审计信息、海关审计信息等);除了目录,还有元数据问题,指数据信息资源的生产方、提供方等,中央部门预算执行审计数据规划设计了36类实体、621个数据元素、107张审计基础数据表。


又如国家审计署的“审计业务处理模型”,左边是实体关系模型,右边是数据模型。实体关系模型的上面是财政部、中间是预算部门、下面是所属单位,我们把这些称为“实体”,实体之间是一上一下、二上二下等预算编制已批复的业务关系;审计署审计的核心是“财政审计”,我们研究实体之间的业务关系还不够,要把业务关系转化成数据关系,把数据抽出来形成数据模型,有了数据模型,我们在计算机条件下就很方便,编制计算机语言,而这个语言正是业务处理模型最本质的东西。


2、数据分析模型


分析数据是为满足特定审计目标的多维分析、聚类关联分析、决策分析等对基础表进行重组形成的数据表。分析数据表的组件利用是利用主数据对相关主题的基础数据表进行关联、抽取和重新定义。形成分析数据,目的是为了开展主题应用。


举个实例,国家审计署对企业多类数据的关联分析。对企业生产经营进行数据分析:(1)关注在企业资金里会不会存在资金的拆借、股权投资担保等,在这里有没有可能存在违规拆借、融资担保骗贷等问题;(2)若这个企业从专项补助角度,得到了财政资金的资助,会不会存在违规或重复骗取等问题;(3)企业所有钱的往来都要走“工农中建交”等银行,这些资金在银行的流动是不是存在违规使用银行资金、违规贷款等问题。三类业务关联分析,最后得出这家企业在自有资金使用、财政资金使用、银行资金使用方面究竟有什么样的问题,这是我们数据分析的关键。


3、大数据模型


国家审计署的大数据分析平台:底层是政务大数据中心;往上是数据分析展示区,其左右分别为数据分析模型和大数据分析模型,当启动分析模型,关联底层数据、展示分析结果,就可以得到我们预期的结果;再往上是管理功能和主题功能,管理功能包括数据采集、数据管理、数据分析、任务调度、报告管理等,主题功能包括政府治理、公共服务、共享开放、市场服务、经济建设等。


社保大数据分析为例,有两个关键问题,征缴与发放:(1)征缴并非一成不变,随着人员变化,涉及征缴群体,征缴比例又涉及经济发展、区域发展、收入水平,征缴多少涉及物价水平、征缴人、征缴程度的变化;(2)发放,随着我国老龄化社会到来,我国人口结构正发生变化,老龄化愈发严重,对老龄人口的养老问题涉及经济发展及平均工资、物价水平、发放程度等变化,总体涉及社保替代率变化。


要解决社保的可持续发展,首先要提出一个大数据分析目标,按以往5至10年数据对社保基金的征缴与发放的分析,提出对未来10至20年社保征缴和发放政策的建议,不断改善社会保障政策制度,确保社会保障可持续健康发展。


为了实现这个目标,就要进行社保资金分析。以我国社保“五险一金”中的养老金为例,对征缴和发放进行分析,涉及的要素数据包括征缴人群、征缴水平,征缴可耐度、征缴承受度等,这些没有大数据是完不成的;发放同样涉及系列综合数据分析,特别是“养老替代率要素”,指一个人在离退休前和离退休后的收入是多少,就是本人对退休时期望的替代率是多少,实际的替代率是多少等都要进行分析。通过社保资金的大数据分析,我们得到未来一段时间社保政策的调整参考值,以及时调整相关政策、保障社保可持续。


(二)共享开放数据治理标准


十八大以来,《政务信息系统整合共享实施方案》(2017年39号)、《政务信息资源共享管理暂行办法》(国发〔2016〕51号)、《政务信息资源目录编制指南(试行)》(发改高技〔2017〕1272号)、《关于全面推进政务公开工作的意见》等政务信息资源共享开放相关文件接踵出台。


1、分类


国家政务信息资源分为三类:国家基础信息资源、主题政务信息资源、部门政务信息资源。2016年,国家发布了《政务信息资源共享管理暂行办法》《政务信息资源目录编制指南(试行)》,提出了政务信息资源的分类、元数据、数据目录细目、数据清单等,分工由《指南》本身完成前三项编目,编制部门完成后两项的编目。


有人会问,这样一个目录里谁是编制部门,编制部门要做什么?实际上在编制指南中,前三类走到“目”这一级(第三类)时,编制部门已明确,如人口由公安部牵头等,大家可以去编各自的细目;在主题类里,包括公共服务事项、行政权力事项的编制部门也是明确的。


这张图展示了细目是怎么编制的,中间这个方块是审计署提出的共享资源目录编制,这个目录后面跟上的是数据清单,目录是为了找到数据清单。到这为止,我们的目录编码治理实际上已形成,到国家共享平台进行数据填报时,只要进行相关目录选择,数据清单代码由系统自然生成。

2、元数据


国务院编制指南规划了政务信息资源共享13类核心元数据,分别是信息资源分类、信息资源名称、信息资源代码、信息资源提供方、信息资源提供方代码、信息资源摘要、信息资源格式、信息项信息、共享属性(无条件共享、有条件共享、不共享)、开放属性(主动公开、依申请公开、不公开)、更新周期、发布日期、关联分类及类目名称。


3、目录


在部门类的目录里包含13个核心元数据。因为要数据清单,所以就得对数据清单做出必要说明,核心元数据就是这个说明。主栏是部门具体的目录,引导我们通过目录去查找数据清单,这样目录就比较完整地编制出来。这是在2017年上半年国务院组织《政务信息资源共享管理办法》政务信息系统整合、资源共享工作中提出来的。


4、共享开放原理


国家共享平台为所有政府部门提供前置系统。当无条件共享信息发布时,由信息提供方将信息从数据中心提取,推送到前置系统,供共享平台调用;有条件共享,需要使用方提出申请,平台把申请提供给提供方,提供方经过审核提交再共享或开放。


这样一个原理,不仅适用于信息共享,也适用于数据开放。这个平台原理和地方怎么配套?比如在一个地方我们建立了省共享平台,又建立了市共享平台,怎么和国家共享平台对接?即前置系统,在座可能也有很多IT企业,你们在服务过程中也能感觉到,基本上每个政府部门都有一台或一套前置系统。对规模较小、地市划分又不多的省份,如宁夏、青海、西藏等,就建立了一个省共享平台,要和国家共享对接也可以,但前提是要有省政府部门和所属地市区县关联。


5、公共服务实例


公共服务平台相对比较复杂,有前端系统、服务大厅、服务网站、手机APP等,但最前端都要汇聚到服务平台,而服务平台主要做身份认证、事项确认、证照验证三件事。如果这三件事通过,说明申请者具有资格,于是剩下的办理推送到共享平台。由于共享平台互联了,各个政务部门就依托服务事项的办法规则,通过网络IP把办理清单推送到政务部门,办理结果返回到申请者手里。


在服务平台上自然还有数据开放平台,同时还有市场化的服务平台。虽然这块目前或没有进入政府统一规划,但市场化服务非常活跃,这样四个平台的核心问题就是数据中心,数据中心要为服务平台、共享平台、开放平台、市场平台提供各类数据支撑。2018年10月李克强总理召开国务院常务会议,对企业服务不周道等系列问题,提出了“互联网+监管”要求。而监管相当一部分本身就在政务服务平台上,通过政务数据中心的数据支撑,为各类平台提供信息共享和数据开放的支撑。


国务院就公共服务的共享和开放还涉及到全国一体化政务服务,如果你的服务事项在城市平台上不能满足,可以通过省级平台调度来满足,如果省级平台也未能满足,可通过国家平台来调度满足,这就是构建国家、省和城市三级一体化的政务服务体系。


党的十九届四中全会提出了将制度优势转换为治理效能的要求,在数字政府建设阶段,要按照数据治理的自然特征、业务特征、使用特征,建设政府部门的业务数据、分析数据、大数据,构建业务处理模型、数据分析模型、大数据分析模型,搞好政府的数据治理和标准化建设,更好地发挥政府数据治理推进国家治理体系和治理能力现代化的作用。谢谢大家!