返回数据集列表
数据集 杭州高新区(滨江)区块链与数据安全研究院

链上资产分析及追踪大模型训练用数据

价格待定
数据描述

本数据基于对以太坊公开交易数据的深度分析与挖掘,用于对链上资产分析及追踪大模型进行训练,帮助公安部门等机构持续监控非法交易资金链和黑产团伙钱包地址,为案件研判的有力线索和可验证的证据链。首先,通过对交易行为进行分析,识别异常资金流向,及时发现链上诈骗行为和链下诈骗资金上链行为;其次,结合时序图路径搜索与地址聚类技术,快速定位洗钱的资金流转轨迹,发现潜在的资金扩散链路,进行洗钱资金追溯;最后,通过动态图风险模型,识别与博彩、毒品等非法交易相关的高风险地址和集群,进行非法交易识别。

算法/方法论

步骤一:项目通过官方API(公共 RPC / JSON-RPC 接口)获取区块数据; 步骤二:实时解析区块中的原始交易信息,建立以账户地址为节点、以交易信息为有向边的有向属性图数据; 步骤三:基于步骤二解析出的原始数据,通过流式计算引擎计算多维统计指标,包括交易统计指标,合约统计指标,交易关系指标,时序类指标共108个字段。下面以总交易数和接收地址数量为例说明统计方法。 总交易数(Total_transactions):统计指定时间区间内(所有原始交易记录的总条数,仅对每一条独立的交易(即每个唯一hash)计数一次,最终得到该范围内的交易总数。 接收地址数量(Number_of_received_addresses):针对目标账户(可通过from_address或to_address关联),筛选出所有该账户作为接收方(即to_address为目标账户)的交易记录,去重后统计这些交易中from_address(即付款方地址)的唯一数量,得到该账户的接收地址总数。 步骤四:以步骤三的统计指标为特征,通过自动机状态识别算法和机器学习模型分类算法计算地址的标签信息,包含身份标签,角色标签,风险标签。计算方法如下: 身份标签(ID_LABEL):采用自动机状态规则识别,定义标签状态(如 “初始状态”“个人用户特征状态”“机构用户特征状态”“交易所特征状态” 等)及状态转换条件(如单月交易次数≤50 且单笔金额≤10ETH 时从初始状态转入个人用户特征状态),追踪账户交易行为进行,当交易行为满足转换条件时更新身份标签。 角色标签(ROLE_LABEL):采用自动机状态规则识别,设置 “初始角色状态”“合约创建者状态”“流动性提供者状态”“代币分发者状态” 等状态集,通过交易行为触发状态转换(如检测到账户创建合约的交易时从基础角色状态转入合约创建者状态),追踪账户交易行为,当交易行为满足转换条件时更新角色标签。 风险标签(RISK_LABEL):基于随机森林模型进行识别,输入为以上述107个特征,输出为账户的风险标签概率(区间为[0,1])。使用 10000 个小批量地址数据进行训练,设定超参数为:决策树数量 200 棵,每棵树最大深度 15,节点分裂最小样本数为 5,叶节点最小样本数为 1,随机特征子集数量设为总特征数的平方根;通过训练好的模型对地址进行风险判定并输出风险标签。

字段定义
字段名 类型 描述
编号 -- --
总交易数 -- --
接收地址数量 -- --
发送地址数量 -- --
创建的合约 -- --
样本数据
fieldName exampleValue
编号 0x00000000000000000000000000000000000015
总交易数 4
接收地址数量 2
调用API获取完整数据
基本信息
数据格式
xlsx
数据类型
公共数据
记录数量
252.34
所属行业
金融业
登记企业
杭州高新区(滨江)区块链与数据安全研究院
数据单位
MB
V6 评分明细
描述质量 0.0 / 20
结构规范 0.0 / 20
规模时效 0.0 / 15
安全合规 0.0 / 20
认证标注 0.0 / 15
商业价值 0.0 / 10
API 调用示例
curl -H "Authorization: Bearer YOUR_API_KEY" \
  http://localhost:3001/api/v1/datasets/8395936
认证信息
证书编号
20251033000017874
登记编号
SZ2025520017874.X