适用条件与范围:在政府内部进行政策前期研究、战略规划制定或数字化转型方案设计时,需要参考包含敏感信息的案例材料,且必须严格保护原始数据主体。 适用对象:政府政策研究人员、战略规划制定者、数字政府建设项目设计团队等。 解决的核心问题:直接使用含敏感信息的原始案例存在泄露风险,而完全屏蔽关键信息又会使数据失去分析价值。敏感词脱敏数据通过对原始案例中的关键敏感实体进行标准化、泛化或替换处理,有效解决了“数据可用性与安全性之间的矛盾”。 效果:1、提供安全分析基础: 脱敏后的数据允许研究人员在保障安全的前提下,深入分析案例中蕴含的行业趋势、成功模式、潜在风险及经验教训。 2、提升决策与规划质量:基于脱敏数据提炼的客观规律和实证经验,能为政策选项评估、中长期发展规划制定以及具体政府数字化转型项目的方案设计,提供更为坚实、科学的依据,有效降低决策的盲目性,提高政策与规划的可预期和落地效果。 3、促进知识安全复用: 保障政府积累的宝贵知识资产共享与再利用,加速政府数字化转型经验的沉淀与推广。
从智慧中国年会官网的历年获奖案例材料中进行采集录入。按照预设规则建立敏感词库,对敏感词库中的词语根据所属数据字段进行分类,主要分案例名称类、案例概述类、特色亮点类以及案例附件地址类,确定敏感词库中每个词语所属的敏感数据类型。导入原始数据集,在敏感数据识别模型使用KNN算法将原始数据中的数据与敏感词库中的词语进行检索比对,在检索到该词语时,判断该词语是否是敏感数据,若是敏感数据则进行标记,敏感数据识别模型对待脱敏的原始数据中的每个词语进行脱敏。模型训练与优化:将更新的数据及敏感数据识别结果添加至原始数据集中,更新后的原始数据集作为部分敏感数据识别模型。例:原案例附件地址为[{"url":"http://60.163.157.162:31683/gds-data/20241234/滨江区-数智融合下的智慧治理.docx"}],包含了案例的文件地址,一旦泄露会造成公司资源流失,通过敏感数据识别模型对案例附件地址类信息进行标记并脱密,脱敏后附件地址为[{"url":"gds-data/20241234/滨江区-数智融合下的智慧治理.docx"}]
| 字段名 | 类型 | 描述 |
|---|---|---|
主键ID |
-- | -- |
时间 |
-- | -- |
案例类型 |
-- | -- |
案例来源报告 |
-- | -- |
省市 |
-- | -- |
| fieldName | exampleValue |
|---|---|
| 主键ID | 1 |
| 时间 | 2024年 |
| 案例类型 | 数字政府 |
curl -H "Authorization: Bearer YOUR_API_KEY" \
http://localhost:3001/api/v1/datasets/185335