155亿条数据如何织成一张网(一线调研)(2)

光山新闻网 采集侠 2023-05-11 07:40:07
浏览

  如今,再来到省社会信用中心3楼的会议室,在省信用平台展示屏幕上,一张全省数据归集总量整体情况表跃然眼前。“几年之隔,平台归集的数据总量已突破155亿条。”陈蕾指向图表。

  从20亿条到超155亿条,信息归集的壁垒如何打破?

  法规铺路开启“绿灯”。2020年,《山东省社会信用条例》正式出台,强化了数据安全管理,明确了落实数据共享的责任,为推进数据应用提供了法规支撑。

  推进信用信息平台一体化建设是个融合的过程,要打破壁垒,仅靠法规还不够。2021年,山东又迈出关键一步——经过前期调研,决定选取烟台、临沂两市作为试点城市来推进建设。

  “试点市信用平台向省信用平台全面开放数据,同时,我们破除纵向壁垒,在省信用平台部署了信用信息服务库,向试点城市开放了访问权限,将数据共享给他们使用。”陈蕾补充。

  眼见着试点效果不错,去年3月,山东省决定将试点经验推广至全省,全面推进平台一体化建设。

  如今,在山东省委、省政府领导下,省信用平台再“链”新资源:与省一体化大数据平台、“互联网+监管”系统等互联互通,基本实现了应归集尽归集、应共享尽共享。

  检索效率低,整合成本高,安全保护难——

  如何处理海量数据?

  “你知道吗?信用平台提供的信息虽然更全,但管理弊端也会逐渐显露。”省信用平台工程师高辉一见到记者,就自曝其短。

  “有哪些弊端?”记者追问。

  “由于网站数据量太大,最初不少用户抱怨,检索效率太低。”高辉一一举例,“此外,由于数据量激增,原先归集数据时没有统一标准,后期整合的难度也很大。”

  有一次,高辉接到任务——梳理企业信用信息。结果,仅是企业名称这一项,就让他头疼不已。

  “各个部门提供的格式不一,有的写了全称‘某某有限公司’,有的简写‘某某公司’,有的甚至都不带‘公司’二字,信息五花八门。”高辉说,“用了不短的时间,好不容易才把这些数据梳理规范好。”

  “此外,在处理数据时,数据安全是必须考虑的问题。如果没处理好,网站公示的信息就可能被恶意扒取,被不法分子利用。”高辉补充。

  面对海量的数据,如何解决检索、整合、安全保护等方面的难题?

  先看检索。要提升网站检索效率,必须优化平台数据库。高辉和同事们打破传统数据库结构,将数据库分成业务库、标准库、专题库三大分库,并进行目录化管理。“如此一来,查询一项信息,能立马定位到相关库、相关目录,检索效率提了上来。”

  再看整合。高辉拿出一沓厚厚的文件,这是近年来山东省出台的各类数据规范,记者简单翻阅目录,发现其对基础登记类、公共信用类、评价类等数据归集都作了明确规范指导。“等数据到了我们这儿再整合,要耗费大量时间、精力,所以有必要在数据源头就进行规范归集。这些规范的出台,解决了头疼事。”高辉说。

  山东省社会信用中心信用工作部副部长王军告诉记者,山东把好数据入口关,指定各地市专人负责数据工作,定期召开培训会议,解读数据标准,确定报送规范,明确报送时限,已将数据管理环节前移至数据源头。

  重头戏还有安全保护。“我们使用了国密算法,安全指数更高了,对数据的存储、传输进行了加密,对关键信息进行了脱敏公示,即使不法分子窃取了信息,得到的也是一串乱码;在查询敏感信息时,又使用了数据核验方式,能有效保障企业和个人的隐私。”高辉说。