日志上报项目说明v1.2

1. 项目介绍

本项目旨在以js脚本的形式，为全站web页面提供统一的日志上报接入服务，供数据平台相关同学提供标准化的数据服务。目前的上报内容包括页面pv，点击事件，页面加载性能，模块曝光与自定义事件。

日志上报脚本的兼容性为ie9或以上任意浏览器。

如果你关心上报的去向，请移步产品和数据同学应该知道的spm_id二三事。

2. 脚本接入方式

2.1 申请spm_id

spm_id的作用，是作为脚本使用者接入的唯一标记，以便在查询数据时根据spm_id得到该使用者期望的结果。每个接入日志上报脚本的项目，都有唯一的spm_id。

在准备接入脚本时，使用者应与脚本开发人员（fuqiang）进行沟通，以确定自己的spm_id。

在确定了spm_id之后，在项目html文件（或其他形式的模板）head内，埋入

此例中的spm_id为333.999。

如果需要更新页面的spm_id，可以调用reportObserver.setSPM_id方法。例如：

reportObserver.setSPM_id('123.456')

2.2 声明自定义上报的数据对象

在head标签内，声明自定义上报的数据对象：~~reportMsgObj~~ 已修改为 spmReportData，详见：数据上报 by zhoubing01

2.3 引入脚本文件

在</body> 标签之前注入：

2.4 验证是否接入成功

如完成上述步骤的姿势正确，打开浏览器控制台查看network---All, 你会看到一个或多个以web? 开头的请求。在这个请求中，你会看到2.1中设置的spm_id。

3. 上报内容

3.1 pv上报

在脚本加载后，会立即发送一条固定的pv请求到数据平台，且只发送一次。

对于前端路由，当url切换完成后，可以手动调用window.reportObserver.sendPV(), 以再次获取当前url并发送pv日志——在不希望影响现有逻辑的情况下，建议写成：

自动的上报内容包括url，refer_url, spm_id, timestamp , fts, 浏览器分辨率, 是否手机浏览。

3.2 点击上报

为了识别页面中的哪些区域需要被记录点击事件，需要脚本使用者在页面中注入特定的className。

例如，某个需要记录点击的区域显示如下

就需要在class中加入report-wrap-module，并为该div添加id，即

这样，该report-wrap-module下的a标签点击，都会被上报。

如果有心查看点击上报发送的请求，你会发现spm_id所在的数据项，一共有四位，如333.999.xxx.7 。其中xxx为report-wrap-module的id，7即为该report-wrap-module下的第7个a标签。

自动上报的内容包括url, spm_id, 跳转url，timestamp，点击屏幕的坐标，浏览器分辨率，是否手机浏览。

3.3 性能上报

性能上报的内容为window.performance.timing中的全部字段，用于计算页面加载的各项所需时间。在脚本加载后会随pv一同上报。

3.4 模块曝光上报

模块曝光可以理解为随着滚动条的滑行，页面内指定内容出现在了视觉范围之内。这些内容的出现即称之为曝光。

为了识别哪些模块被标记为需要曝光上报，脚本使用者也需要为模块添加className。同时为该模块添加id。

仍以3.2中的模块为例，添加的className为report-scroll-module，即

现在这个模块即可以点击上报也可以滚动上报了。

自动上报的内容包括url, spm_id, timestamp, 浏览器分辨率，是否手机浏览。

3.5 自定义上报

在2.2节中有一个~~reportMsgObj~~ 已修改为 spmReportData，详见：数据上报 by zhoubing01，它即为自定义上报的数据对象。

使用者在自己的脚本中执行

那么你会在浏览器network看到一条上报信息。对应的spm_id数据项形如 333.999.selfDef.xxx 。xxx与111 在上报中表示为json串：{%22event%22:%22xxx%22,%22value%22:111}。这里的value不仅限于数字，也可以是字符串，对象或其他。

上报脚本每隔1s会检查一次这个对象中的内容。如果检测到内容，会上报并将内容清除。

当有自定义内容需要立即上报时，可以使用如下的方式：

脚本会强制检查数据对象并进行上报。

3.6 错误上报（实验）

错误上报用于捕获页面加载、展现、与用户交互过程中，可以被window的error事件捕获的异常。脚本本身对错误的捕获逻辑，遵照MDN-GlobalEventHandlers.onerror，可以概述为：

用window.onerror监听运行时错误——如句法错误，各种handler抛出的异常；

用window.addEventListener('error', func) 监听资源类加载错误——script，img等。

整个错误上报流程与其他上报方式均有所不同，可以理解为：

当脚本捕获到错误之后，首先将在浏览器network一栏看到dataflow.biliapi.com/log/system开头的post请求。之后数据到达kibana，可以在这里进行实时查看。关于如何在kibana上查询，可以参见这里。

3.6.0 如何开启上报脚本的错误捕获功能

在2.3节提到的reportConfig中，加入下面的逻辑：

3.6.1 如何让上报脚本捕获到runtime error

由于浏览器的同源策略限制，当页面引用的非同域的外部脚本中抛出了异常，此时本页面无权限获得这个异常详情，将输出 Script error 的错误信息。

这就是说，如果你在x.bilibili.com下使用window.onerror对s1.xxxcdn.com/a.js的错误进行捕获，获得的错误信息将只有‘Script error’。

为此，我们需要对a.js开启“跨域资源共享机制”。

首先，在a.js引入时添加crossorigin属性：

如果你使用webpack动态引入a.js, 则可以在webpack配置里，对output.crossOriginLoading进行设置，参见这里；

其次，请求运维在a.js的相应头中添加Access-Control-Allow-Origin： * （如果已添加，可忽略）。

你可以在kibana上看到的runtime错误信息包括url，行号，列号以及错误调用堆栈信息。

3.6.2 上报脚本捕获到的错误类型

脚本将自动对资源类错误进行捕获。在kibana查询时，可以根据errorType字段获得不同种类资源对应的错误信息。errorType对应关系如下

errorType	错误类型
1	runtime
2	script
3	style
4	image（当src为空时不报）
5	audio
6	video
7	console
8	try-catch

3.6.3 try-catch上报

如果你catch到了自己的错误，那么可以交给上报脚本，脚本会帮你上传到kibana平台供实时查询。上报的方式如下：

其中，reportMsgObj为2.2节中的reportMsgObj.

如果tryCatchError传入一个对象，脚本会将该对象中的所有key-value在kibana中逐项显示；如果传入数字或字符串，那么内容默认显示在errorMsg项。

3.6.4 上报字段一览

对于runtime error，上报以下字段：

字段名	取值\含义
col	错误所在列号
line	错误所在行号
errorType	固定为1
instance_id	固定为runtime
level	ERROR
url	错误所在页面url
errorMsg	具体的错误信息
time	ISO时间戳，`YYYY-MM-DDTHH:mm:ss.sssZ`
referrer	页面来源

对于资源类错误，上报以下字段：

字段名	取值\含义
errorType	2,3,4,5,6,7, 见errorType表
instance_id	固定为resource
level	ERROR
url	错误所在页面url
errorMsg	具体的错误信息
time	ISO时间戳，`YYYY-MM-DDTHH:mm:ss.sssZ`
referrer	页面来源

对于try-catch到的错误，上报以下字段：

字段名	取值\含义
app_id	固定为：main.frontend.bilibili-log-report-seed
errorType	8
instance_id	固定为trycatch
level	ERROR
url	错误所在页面url
errorMsg	3.6.3节传入的数字或字符串
time	ISO时间戳，`YYYY-MM-DDTHH:mm:ss.sssZ`
referrer	页面来源
...	3.6.3节传入对象时的自定义错误信息

目前，可以上报错误的日志上报脚本已部署在uat环境下。

4. 报表

所有的上报都依类型存储于不同的表中，即pv一张表，性能一张表，曝光一张表，点击与自定义共用一张表。

使用者（如有操作权限）在查表时，需要根据自己的spm_id在表中进行查询。

5. 目前的接入方与spm_id

spmid	pc页面	url
333.334	主站pc首页	www.bilibili.com
333.788	主站pc播放页	www.bilibili.com/video/avXXXXXX/
333.337	主站pc搜索页	search.bilibili.com
333.4	主站pc一级分区页	www.bilibili.com/video/XXXXXX.html
333.5	主站pc一级分区页--动画	www.bilibili.com/{name}

spmid	h5页面	url
333.400	主站h5首页	m.bilibili.com/index.html
333.401	主站h5播放页	m.bilibili.com/video/avXXX.html
333.405	主站h5tag页	m.bilibili.com/tag/XXX(id)
333.406	主站h5缺省页	m.bilibili.com/404.html
333.2	主站h5个人空间页	m.bilibili.com/space/xxxxxx
666.1	pgc作品详情落地	bangumi.bilibili.com/review/media/{mediaId}

应用埋点方案

前言

需求分析

数据处理

什么是埋点？

埋点方案一：代码埋点

埋点方案二：可视化埋点

埋点方案三：无埋点

淘宝SPM解读

SPM 超级位置模型

SPM 超级位置模型

1.SPM 的定义

2.SPM需要解决的问题

3.优势和作用

统计投放效果

分析用户行为

分析链路转化

4.阿里云SPM的格式

淘宝SPM流量跟踪体系的研究

DataWorks数据埋点的设计及未来发展的思考

什么是前端埋点？

为什么要进行前端埋点

DataWorks的产品和埋点需求

需求背景

需要上报的数据

碰到的问题

其他业务需求

埋点设计

设计原则

技术选型

架构设计

底座设计

插件设计

jQuery的埋点方式：

React的埋点方式：

请求采集方案：

其他框架Angular、vue、backbone....

解决的问题和优化

后期计划

日志上报项目说明v1.2

1. 项目介绍

2. 脚本接入方式

2.1 申请spm_id

2.2 声明自定义上报的数据对象

2.3 引入脚本文件

2.4 验证是否接入成功

3. 上报内容

3.1 pv上报

3.2 点击上报

3.3 性能上报

3.4 模块曝光上报

3.5 自定义上报

3.6 错误上报（实验）

3.6.0 如何开启上报脚本的错误捕获功能

3.6.1 如何让上报脚本捕获到runtime error

3.6.2 上报脚本捕获到的错误类型

3.6.3 try-catch上报

3.6.4 上报字段一览

4. 报表

5. 目前的接入方与spm_id

产品和数据同学应该知道的spm_id二三事

流量产品整体介绍

采集规范

1. 采集规则统一

2. SPM 和 SCM

SPM(Super Position Model)全称超级位置模型。

SCM(Super Content Model)全称超级内容模型。

3. 黄金令箭

数据采集

整体设计

Aplus - WEB 采集

UserTrack - APP 采集

UTDID

Next

UserTrack 高级功能

曝光日志预聚合

回退识别

H5 和 native日志统一

数据保障

日志处理链路