中信数科 DataTrust 数据市场

数据集国脉互联数字发展（浙江自贸区）有限公司

数字政府获奖案例敏感词脱敏数据

价格待定

数据描述

适用条件与范围：在政府内部进行政策前期研究、战略规划制定或数字化转型方案设计时，需要参考包含敏感信息的案例材料，且必须严格保护原始数据主体。适用对象：政府政策研究人员、战略规划制定者、数字政府建设项目设计团队等。解决的核心问题：直接使用含敏感信息的原始案例存在泄露风险，而完全屏蔽关键信息又会使数据失去分析价值。敏感词脱敏数据通过对原始案例中的关键敏感实体进行标准化、泛化或替换处理，有效解决了“数据可用性与安全性之间的矛盾”。效果：1、提供安全分析基础：脱敏后的数据允许研究人员在保障安全的前提下，深入分析案例中蕴含的行业趋势、成功模式、潜在风险及经验教训。 2、提升决策与规划质量：基于脱敏数据提炼的客观规律和实证经验，能为政策选项评估、中长期发展规划制定以及具体政府数字化转型项目的方案设计，提供更为坚实、科学的依据，有效降低决策的盲目性，提高政策与规划的可预期和落地效果。 3、促进知识安全复用：保障政府积累的宝贵知识资产共享与再利用，加速政府数字化转型经验的沉淀与推广。

算法/方法论

从智慧中国年会官网的历年获奖案例材料中进行采集录入。按照预设规则建立敏感词库，对敏感词库中的词语根据所属数据字段进行分类，主要分案例名称类、案例概述类、特色亮点类以及案例附件地址类，确定敏感词库中每个词语所属的敏感数据类型。导入原始数据集，在敏感数据识别模型使用KNN算法将原始数据中的数据与敏感词库中的词语进行检索比对，在检索到该词语时，判断该词语是否是敏感数据，若是敏感数据则进行标记，敏感数据识别模型对待脱敏的原始数据中的每个词语进行脱敏。模型训练与优化：将更新的数据及敏感数据识别结果添加至原始数据集中，更新后的原始数据集作为部分敏感数据识别模型。例：原案例附件地址为[{"url":"http://60.163.157.162:31683/gds-data/20241234/滨江区-数智融合下的智慧治理.docx"}]，包含了案例的文件地址，一旦泄露会造成公司资源流失，通过敏感数据识别模型对案例附件地址类信息进行标记并脱密，脱敏后附件地址为[{"url":"gds-data/20241234/滨江区-数智融合下的智慧治理.docx"}]

字段定义

字段名	类型	描述
`主键ID`	--	--
`时间`	--	--
`案例类型`	--	--
`案例来源报告`	--	--
`省市`	--	--

样本数据

fieldName	exampleValue
主键ID	1
时间	2024年
案例类型	数字政府

调用API获取完整数据

基本信息

数据格式: xlsx
数据类型: 企业数据
记录数量: 605
所属行业: 信息传输、软件和信息技术服务业
登记企业: 国脉互联数字发展（浙江自贸区）有限公司

V6 评分明细

描述质量 0.0 / 20

结构规范 0.0 / 20

规模时效 0.0 / 15

安全合规 0.0 / 20

认证标注 0.0 / 15

商业价值 0.0 / 10

API 调用示例

curl -H "Authorization: Bearer YOUR_API_KEY" \
  http://localhost:3001/api/v1/datasets/185335

获取API密钥已有账户？登录

认证信息

证书编号: 20250733000012960
登记编号: SZ2025220012960.9