中信数科 DataTrust 数据市场

数据集每日互动股份有限公司

大模型训练场景APP用户洞察数据

价格待定

数据描述

1、大模型训练场景APP用户洞察数据，通过去标识化、聚合化的数据处理流程，将十亿级用户行为转化为该APP的宏观群体画像。这些高质量的统计数据，使得大语言模型能够直接、高效地学习真实世界的用户分布、社会常识与市场趋势，从而优化其推理能力、校准输出并减少幻觉。本数据作为大模型训练的优质“事实基准”与“认知图谱”，具有很强的复用性，适用于市面上大语言模型的预训练、监督微调与效果评估 2、本报告中详尽的群体统计维度，可以作为重要的特征和基准，直接应用于大模型的训练与优化流程，具体可应用于：体可应用于： 2.1预训练与知识增强：年龄、性别、兴趣等分布字段，为大模型注入社会人口统计学与消费行为学常识，提升其对社会结构的认知准确度 2.2优化对话与推荐能力：TGI等群体偏好指标可构建指令样本，教导模型掌握“量化分析”思维，使其在垂直领域输出更专业的回答 2.3校准输出与评估幻觉：报告数据可作为真实性检验基准，用于量化模型“幻觉”程度，也可接入RAG系统，确保回答基于真实统计 2.4合成高质量模拟对话：依据用户群体特征标签，生成对应群体的模拟对话数据，用于扩展训练集，提升模型与不同用户群体的交互能力。

算法/方法论

一、数据收集：通过个推软件开发工具包（SDK）对海量、离散的用户行为数据进行收集。二、数据处理：对数据进行清洗、脱敏和聚合，所有涉及用户标识的数据均会经过哈希函数进行单向、不可逆的计算，实现了数据的匿名化与去标识化，确保其无法回溯至特定个人。三、算法加工：引入机器学习模型进行标签预测： 1.对于无法直接获取的人口属性（如年龄、性别）及深层兴趣偏好，本方案采用预设的机器学习模型进行推断。该模型首先以用户授权的、经脱敏后的跨平台全域APP使用行为数据（即用户对所有可观测应用程序的使用记录）作为输入特征，通过逻辑回归模型，为每个去标识化的用户ID预测其归属于“18-25岁”、“男性”或“美妆兴趣”等特定标签的概率，进行统计聚合，输出出全域（大盘）用户的“年龄分布”、“性别分布”等宏观画像数据 2.基于上述同一模型，对目标APP用户进行标签预测与统计，得出该APP的用户画像数据（即各标签群体在APP中的渗透率）。 3.同时通过计算TGI分步（具体规则在其他说明中），来量化群体特征相对于总体的偏好强度，并将TGI指标作为洞察报告的关键维度之一。 4.以报告形式产出标准化数据资产：基于具体业务场景向大语言模型下达精准指令，该大语言模型通过预训练，能精准生成包含固定框架、动态模块与数据占位符的标准报告模板；随后，通过算法程序，将处理后的数据，转化为格式统一的高质量报告，无缝适配报告模板填充需求，将数据填入到报告模板中。

字段定义

字段名	类型	描述
`名称`	--	--
`年份`	--	--
`月份`	--	--
`报告`	--	--

样本数据

fieldName	exampleValue
名称	中国人寿寿险,一叶日记,中邮云图,三国杀,亚汇环球
年份	2024,2024,2024,2024,2024
月份	10,3,10,5,7

调用API获取完整数据

基本信息

数据格式: xlsx
数据类型: 企业数据
记录数量: 500
所属行业: 信息传输、软件和信息技术服务业
登记企业: 每日互动股份有限公司
数据单位: 条

V6 评分明细

描述质量 0.0 / 20

结构规范 0.0 / 20

规模时效 0.0 / 15

安全合规 0.0 / 20

认证标注 0.0 / 15

商业价值 0.0 / 10

API 调用示例

curl -H "Authorization: Bearer YOUR_API_KEY" \
  http://localhost:3001/api/v1/datasets/8419558

获取API密钥已有账户？登录

认证信息

证书编号: 20251233000024215
登记编号: SZ2025120024215.4