返回数据集列表
数据集 国脉互联数字发展(浙江自贸区)有限公司

数字政府获奖案例敏感词脱敏数据

价格待定
数据描述

适用条件与范围:在政府内部进行政策前期研究、战略规划制定或数字化转型方案设计时,需要参考包含敏感信息的案例材料,且必须严格保护原始数据主体。 适用对象:政府政策研究人员、战略规划制定者、数字政府建设项目设计团队等。 解决的核心问题:直接使用含敏感信息的原始案例存在泄露风险,而完全屏蔽关键信息又会使数据失去分析价值。敏感词脱敏数据通过对原始案例中的关键敏感实体进行标准化、泛化或替换处理,有效解决了“数据可用性与安全性之间的矛盾”。 效果:1、提供安全分析基础: 脱敏后的数据允许研究人员在保障安全的前提下,深入分析案例中蕴含的行业趋势、成功模式、潜在风险及经验教训。 2、提升决策与规划质量:基于脱敏数据提炼的客观规律和实证经验,能为政策选项评估、中长期发展规划制定以及具体政府数字化转型项目的方案设计,提供更为坚实、科学的依据,有效降低决策的盲目性,提高政策与规划的可预期和落地效果。 3、促进知识安全复用: 保障政府积累的宝贵知识资产共享与再利用,加速政府数字化转型经验的沉淀与推广。

算法/方法论

从智慧中国年会官网的历年获奖案例材料中进行采集录入。按照预设规则建立敏感词库,对敏感词库中的词语根据所属数据字段进行分类,主要分案例名称类、案例概述类、特色亮点类以及案例附件地址类,确定敏感词库中每个词语所属的敏感数据类型。导入原始数据集,在敏感数据识别模型使用KNN算法将原始数据中的数据与敏感词库中的词语进行检索比对,在检索到该词语时,判断该词语是否是敏感数据,若是敏感数据则进行标记,敏感数据识别模型对待脱敏的原始数据中的每个词语进行脱敏。模型训练与优化:将更新的数据及敏感数据识别结果添加至原始数据集中,更新后的原始数据集作为部分敏感数据识别模型。例:原案例附件地址为[{"url":"http://60.163.157.162:31683/gds-data/20241234/滨江区-数智融合下的智慧治理.docx"}],包含了案例的文件地址,一旦泄露会造成公司资源流失,通过敏感数据识别模型对案例附件地址类信息进行标记并脱密,脱敏后附件地址为[{"url":"gds-data/20241234/滨江区-数智融合下的智慧治理.docx"}]

字段定义
字段名 类型 描述
主键ID -- --
时间 -- --
案例类型 -- --
案例来源报告 -- --
省市 -- --
样本数据
fieldName exampleValue
主键ID 1
时间 2024年
案例类型 数字政府
调用API获取完整数据
基本信息
数据格式
xlsx
数据类型
企业数据
记录数量
605
所属行业
信息传输、软件和信息技术服务业
登记企业
国脉互联数字发展(浙江自贸区)有限公司
V6 评分明细
描述质量 0.0 / 20
结构规范 0.0 / 20
规模时效 0.0 / 15
安全合规 0.0 / 20
认证标注 0.0 / 15
商业价值 0.0 / 10
API 调用示例
curl -H "Authorization: Bearer YOUR_API_KEY" \
  http://localhost:3001/api/v1/datasets/185335
认证信息
证书编号
20250733000012960
登记编号
SZ2025220012960.9