返回数据集列表
数据集 每日互动股份有限公司

大模型训练场景餐馆到访用户洞察数据

价格待定
数据描述

餐馆到访用户洞察数据对大模型训练的价值,十亿级餐馆到访设备使用行为(比如用户使用手机在某个餐饮业app的使用行为数据),经去标识化、聚合化处理后,可转化为宏观群体画像。这类高质量统计数据,能让大语言模型高效学习真实用户分布、社会常识与市场趋势,进而优化推理能力、校准输出并减少幻觉,且复用性强,适用于大模型预训练、监督微调与效果评估,是优质 “事实基准” 与 “认知图谱”。 其详尽统计维度可直接用于大模型训练优化:一是预训练与知识增强,年龄等字段,为模型提供社会人口统计学与消费行为学知识,融入预训练语料能强化模型对现实用户的理解,使其回答相关问题时更贴合商业逻辑;二是优化对话与推荐能力,年龄占比、TGI 等指标将群体偏好量化,可构建指令样本让模型学习 “量化分析” 思维,提升垂直领域对话质量;三是校准输出与评估 “幻觉”,可作为基准检验模型描述准确性,还能集成到 RAG 系统保障回答真实;四是合成模拟对话数据,依托用户年龄标签,可批量生成模拟数据扩充训练集,提升模型泛化能力与用户体验。

算法/方法论

1、数据收集: 通过个推软件开发工具对海量、离散的设备使用行为数据(比如用户使用手机在某个餐饮业app的使用行为数据)进行收集,进而加工产出以群体画像为核心的数据资产。 2、数据处理: 首先,进行隐私保护处理。 为确保数据无法关联到特定自然人。通过数据管道与处理引擎,对数据进行清洗、脱敏和聚合; 所有涉及用户标识的数据均会经过密码学哈希函数进行单向、不可逆的混淆计算。此过程实现了数据的匿名化与去标识化,从源头切断了信息回溯至特定个人的可能性。 其次,执行群体统计聚合。 在匿名化数据的基础上,系统按照预先设定的分析维度,对设备使用行为进行群体层面的统计汇总。此过程不关注个体行为,而是将个体行为汇聚成宏观的统计量,从而生成如“年龄分布”等反映整体用户构成的数据集合。 3、算法加工: 引入机器学习模型进行标签预测: 1. 对于无法直接获取的人口属性及深层兴趣偏好,本方案采用预设的机器学习模型进行推断。该模型首先以用户授权的、经脱敏后的跨平台餐馆到访人员设备使用行为数据作为输入特征,通过算法计算,输出具有“18-25岁”等特定标签的潜在用户群体在全量用户中(全量用户指所有安装个推软件开发工具包的用户大盘)的预估分布比例,从而完成宏观层面的群体定义与基准量化。 2. 在此基础上,我们将同一分析框架应用于具体场景,聚焦于单个特定目标餐馆到访,通过相同的算法计算得出上述已定义的各类目标群体在该餐馆到访用户中的分布比例,即群体渗透率。所有预测结果均以概率分布形式呈现,服务于群体洞察,而非对个体进行精准刻画。 3. 同时通过计算TGI分步,来量化群体特征相对于总体的偏好强度,并将TGI指标作为洞察报告的关键维度之一。 4. 以报告形式产出标准化数据资产。 首先,基于具体业务场景向大模型下达精准指令,生成包含固定框架、动态模块与数据占位符的标准报告模板,适配多场景使用需求;随后,通过定制化算法程序,将经清洗、脱敏、聚合与预测流程处理后的多源异构数据,转化为格式统一、类型匹配、精度合规的高质量标准化格式数据,无缝适配报告模板填充需求,将数据填入到报告模板中。

字段定义
字段名 类型 描述
名称 -- --
年份 -- --
月份 -- --
报告 -- --
样本数据
fieldName exampleValue
名称 兰州正宗牛肉拉面,饿了么,福建沙县营养小吃,鸡蛋灌饼,成都小吃
年份 2025,2025,2025,2025,2025
月份 3,1,3,3,1
调用API获取完整数据
基本信息
数据格式
xlsx
数据类型
企业数据
记录数量
500
所属行业
信息传输、软件和信息技术服务业
登记企业
每日互动股份有限公司
数据单位
V6 评分明细
描述质量 0.0 / 20
结构规范 0.0 / 20
规模时效 0.0 / 15
安全合规 0.0 / 20
认证标注 0.0 / 15
商业价值 0.0 / 10
API 调用示例
curl -H "Authorization: Bearer YOUR_API_KEY" \
  http://localhost:3001/api/v1/datasets/8419609
认证信息
证书编号
20251233000024247
登记编号
SZ2025120024247.9