返回数据集列表
数据集 国脉互联数字发展(浙江自贸区)有限公司

数据质量检测规则敏感词脱敏数据

价格待定
数据描述

一、适用条件与范围:在企业、政府机构、数据平台需要对组织本身的数据进行数据质检时,需要查看并参考数据质量检测规则,且必须严格保护原始数据主体。 二、适用对象:企业、政府机构、数据平台等有数据质量提升需求的数据提供方或数据使用方。 三、核心价值 1.规则安全共享 对数据质量检测规则中的敏感内容(评分标准、检测规则系统操作地址)进行脱敏,确保原始数据隐私合规,同时保留规则的逻辑有效性。有效解决了数据可用性与安全性之间的矛盾。 2.六大维度深度评估 完整性:检测空值率、必填字段缺失及关联数据链断裂 唯一性:识别主键/业务键重复、索引冲突 及时性:监控数据延迟、生命周期时效异常 准确性:验证数值偏差、逻辑矛盾(如出生日期>当前日期) 一致性:校验跨表关联一致性、指标口径冲突 有效性:校验值域合规、格式规范 四、解决核心痛点 1.安全协同障碍:打破因敏感规则无法共享导致的数据质量检测壁垒 2.治理效率提升:通过数据质量检测规则数据,可高效完成百万级数据六大维度的质量诊断。 五、外部复用价值 脱敏规则可集成至数据中台、交换平台或第三方审计系统,为生态伙伴提供标准化、可验证的质量评估服务体系。

算法/方法论

一、数据采集: 通过公司内部数据质控合规系统,采集包含指标编号、一级指标、二级指标、指标描述、示例、评分方式、评分标准、适用规则名称、检测方式、规则说明、检测规则系统操作地址、公式取值、计算公式、二级指标得分、敏感数据类型、脱敏后数据集等字段的原始数据质量检测规则数据集。 二、数据处理: 构建敏感词库:依据预设规则,建立敏感词库。 敏感词分类:根据原始数据字段特性,将敏感词库词语分类为评分标准类、规则说明类、检测规则系统操作地址类、公式取值类、计算公式类等敏感数据类型,明确每个词语所属类别。 三、核心算法规则: (1)敏感数据识别:将原始数据集导入敏感数据识别模型。模型基于KNN算法,将数据内容与敏感词库进行检索比对。当识别到内容属于预设的敏感数据类型(评分标准、规则说明、检测规则系统操作地址、公式取值或计算公式)时,即标记为敏感数据。 (2)敏感数据脱敏:对标记的敏感数据实施脱敏处理: 检测规则系统操作地址类 (IP:Port):替换具体数字段为掩码 (如http://172.**.***.***:****/...)。 评分标准类、规则说明类、公式取值类、计算公式类:根据安全策略进行内容遮蔽或泛化处理(如遮蔽具体数值、阈值或逻辑细节),确保核心规则逻辑结构保留但敏感细节不可见。 脱敏结果记录在脱敏后数据集字段,同时标记对应的敏感数据类型。 (3)模型迭代:将新识别的敏感数据及其脱敏结果持续加入训练集,优化敏感数据识别模型的精度。 四、真实数据示例 例:原检测规则系统操作地址为http://172.16.102.117:5600/#/main/common/rule,包含了检测规则的具体系统操作地址,一旦泄露会造成公司资源流失,通过敏感数据识别模型对检测规则系统操作地址类信息进行标记并脱敏,脱敏后附件地址为http://172.**.***.***:****/#/main/common/rule

字段定义
字段名 类型 描述
指标编号 -- --
一级指标 -- --
一级指标公式 -- --
二级指标 -- --
指标描述 -- --
样本数据
fieldName exampleValue
指标编号 0302
一级指标 数据完整性
一级指标公式 X₃=(∑ⁿ=₁(X₃×W₃))/(∑ⁿ=₁W₃)
调用API获取完整数据
基本信息
数据格式
xlsx
数据类型
企业数据
记录数量
626
所属行业
信息传输、软件和信息技术服务业
登记企业
国脉互联数字发展(浙江自贸区)有限公司
V6 评分明细
描述质量 0.0 / 20
结构规范 0.0 / 20
规模时效 0.0 / 15
安全合规 0.0 / 20
认证标注 0.0 / 15
商业价值 0.0 / 10
API 调用示例
curl -H "Authorization: Bearer YOUR_API_KEY" \
  http://localhost:3001/api/v1/datasets/183276
认证信息
证书编号
20250733000012551
登记编号
SZ2025120012551.4