采集海量互联网数据,分析挖掘数据异常值,精准识别数据异常值,为后期海量脏数据处理清洗转换作基础,是最终实现覆盖大面积有效网络相关数据的支撑。
1.数据来源 采集了包括全网精品综合门户网站、全品类优质行业网站、权威地方官媒网络、移动端APP媒体,涵盖全部115个细分行业互联网数据,覆盖95%的中国网民、40万家优质合作网站。 2.数据处理 对采集到的数据进行异常值分析,采用Z-score的方法计算异常值, 公式为: Z = (x - μ) / σ其中,x是usetype单个数据值,μ是数据集中枢,σ是数据标准差。其中, μ = sum(data) / len(data); σ = sqrt((sum((x - μ)^2) / len(data)) data数据集为每行domain中的数据累计计分,计分维度包括id、state、usetype、ip、pv、area_id、siteid、sitename、domain、login、respond等; 根据互联网不同应用场景给定异常值范围,例如-3<Z<3,实现数据异常值的精准识别。 3.数据应用 通过对互联网数据进行分析挖掘,有效识别数据异常值,是后期海量脏数据处理清洗转换的基础,是最终实现覆盖大面积有效网络相关数据的支撑。
| 字段名 | 类型 | 描述 |
|---|---|---|
id |
-- | -- |
state |
-- | -- |
usetype/x |
-- | -- |
ip |
-- | -- |
pv |
-- | -- |
| fieldName | exampleValue |
|---|---|
| id | 1 |
| state | 4 |
| usetype/x | 16 |
curl -H "Authorization: Bearer YOUR_API_KEY" \
http://localhost:3001/api/v1/datasets/9366