当前位置：首页>学习笔记>读书笔记 | 《大数据实践之路》

读书笔记 | 《大数据实践之路》

2026-05-30 19:53:52

读书笔记 | 《大数据实践之路》

大数据实践之路

数据中台+数据分析+产品应用

随着5G普及，逐步进入物联网时代，

数据价值会被无限放大，未来是数据人最好的时代

元数据中心

数据血缘：主要描述表与表之间的关系。其作用主要有以下方面：

1、问题定位排查。可以通过数据血缘进行排查，快速定位相关故障节点。

2、指标波动分析。某个指标不正常波动时，通过数据血缘溯源分析。判断是哪条数据开发链路出现了问题。

3、数据预警与产出保障。监控数据加工链条所有节点，对下游任务的产出时间进行预测，若无法按时产出就及时报警

数据评估

1、从调用频率、数据热度等不同的维度对数据进行评估，判断数据价值，进行资产定级。

数据优化

1、从数据的集中度、冗余度、计算成本、存储成本等各个方面对数据衡量，以便持续对数据进行优化。

2、关于血缘关系的实现方式，更好地解析功能方法：通过Spark/Hive/Flink本身提供的Listener/Hook机制，解析调度依赖中的FROM、CREATE、INSERT等语句，获取输入节点与输出节点，生成血缘关系。

主要的3个执行时机：

①在运行前通过解析静态的SQL，获取依赖的输入节点与输出节点。（因没有执行代码，无法保证可以正常运行）

②在运行中实时截取动态的SQL，获取依赖的输入节点与输出节点。（最合适，缺点数据表开发完成但没有被执行时无法获取血缘关系，需要解析静态SQL，建立跟其他表的依赖关系）

③在运行后通过解析任务日志，获取依赖的输入节点与输出节点。（比较后置，没有时效性）

最终展示效果图如下

数据地图：基于所有元数据搭建起来的数据资产列表。不仅能解决有什么数据的问题，还能进行检索，解决数据在哪里的问题。

元数据中心是数据中台最基础的系统，是所有数据中台系统的基石。后续的数仓开发、指标开发、数据治理、成本治理等都需要元数据中心的支持。

数据指标中心

一、数据指标中心：规范化开发指标并对其进行管理的系统。将指标的组成部分解耦拆开，在逻辑表中进行规范的定义，然后按照一定的规则对指标的组成部分进行自由拼装，实现自定义指标的功能。

二、数据指标中心的设计思路。

1、定义指标并将其归集到对应的主题域

比较常用的指标：存量型指标、事务性指标、转化型指标、比例型指标、统计型指标、排名型指标等

以上指标分散在产品不同功能的模块中。为更好的规范管理，将指标按照主题域的方式归集。在数仓模型中心对主题域进行创建与定义

2、拆分原子指标与派生指标

（1）原子指标：事实逻辑表中某个字段的统计值。如下单用户数、下单金额等。（无业务意义，只是预定义的代码片段）

（2）派生指标：基于原子指标。进行维度组合后产生的指标，如近1天商城下单用户数、本周商场黄金会员下单金额等。（业务中用的基本是这个）

3、定义原子指标与派生指标的生产逻辑

解耦和定义过程就是把派生指标拆解成统计周期、聚合粒度、限定维度、原子指标、再重新拼装生成新的派生指标的过程。如图

4、通过指标管理平台对指标进行规范生产

（1）规范命名。重点：①简洁明了、易懂②格式统一③生成统一（原子指标与继承自它的派生指标的规范一致）

（2）规范统计口径。（一个下单动作的指标会有多个不同的统计口径，如下单次数、下单笔数、下单人数等）需要清楚的定义指标名称，避免出现“下单数”模糊的指标。

（3）规范指标等级。对指标进行等级划分。①一级指标，原子指标与小部分全平台的核心指标，在从各个业务部门收集需求后，统一数据由数据中台来产出。完整、规范的开发流程：

需求——>排期——>开发——>测试——>验收——>上线。所有维护管理工作都由数据中台负责。②二级指标，派生指标。由各个业务部门自行通过指标中心生成，没有严格的开发流程，需要各个业务部门根据需求自行创建。

数仓模型中心

一、数仓模型中心的设计思路

1）控制数据源：ODS层（操作数据存储层）开始往下游进行数据分发，也是数据中台中所有数据加工的起点。

2）划分主题域：既能涵盖当前主题所有业务需求，又能让新业务在进入时可以被已有的主题域拓展的新主题包含。主题域：可以按照企业部门划分，也可以按照业务过程或者业务板块中的功能模块划分。

3）构建一致性维度：不一致会导致数据无法关联分析。所以构建时需要考虑全局一致性维度，确保同一个定义维度，只保留一份维度属性。

4）构建总线矩阵：明确业务过程与哪些维度有关

5）数仓分层建设：数据中台是数仓基础上发展来的，对数据加工与处理遵循数仓的标准。一般将数仓分为3层：

1、ODS层：存放未经处理的原始数据，是数仓的准备区，主要完成基础数据映入数据中台的任务，同时记录基础数据的历史变化

2、CDM层（操作数据存储层）：包括DIM层（公共维度层）、DWD层（公共明细事实层）、DWS层（公共汇总事实层）。在CDM层对数据进行清洗与处理，并按照数据模型进行聚集，抽取并构建一致性维度，构建可复用的面向分析和统计的明细事实逻辑表以及汇总公共粒度的指标

3、ADS层（应用数据层）：以维度建模理念为指导，建立整个企业通用的一致性维度，降低数据计算口径和算法不统一风险，便于后续进行探查分析

数仓模型中心是基于数仓理论的工具，主要提供体系化和系统化的数据建模功能，以达成规范化建模目的。

数据资产中心

一、数据资产定级

1、建立全链路数据资产通路。

1）数据资产管理第一步是基于元数据中心的数据血缘，建立一个全局的资产地图。

2）数据的全链路流转过程：业务系统产生数据→导入数仓（数仓中进行清洗，加工，整合，建模等运算）→被接入数据产品中。

流转过程中数据以表格形式传输，如下图：

3）做全局资产地图目的：1、数据资产定级2、出数据问题时，方便快速排查定位

二、制定数据资产等级标准

1、数据的价值从4个维度进行评定：完整性、准确性、一致性和时效性

数据资产通常划分五个等级：

1）核心数据：标记A1。对企业的经营会造成严重影响，甚至影响停摆。

2）平台数据：标记A2。有全局性质，作用于平台级业务或重点活动的相关决策、效果评估等。

3）局部数据：标记A3。主要为与业务相关的运营与决策提供的辅助数据。如果出现问题对业务造成效率低下等问题。

4）一般数据：标记A4。与报表相关的数据，主要用于日常分析。如果出现问题后有一定的缓冲时间，不会有过大的影响。

5）未知数据：标记Ax。主要为无法明确应用场景的数据，在后续确认场景后再调整为其他等级的数据。

以上是定性的角度进行评估，也可以从定量的角度来评估数据价值：

1）产出的数据表是ADS层用于制作报表的：衡量数据的价值主要看报表的使用范围和使用频率。

2）产出的数据表是ADS层用于提供数据服务支撑的：衡量数据的价值主要看目标人群的覆盖率和直接业务价值产出。

3）产出的数据是DWS层或ADS层用于数据探索的：主要通过使用范围和使用频率来衡量数据的价值，同时必须对用户的身份级别进行加权操作。

2、数据资产等级打标

需要整理相关的数据产品，并沿着数据链路往回追溯，一直追溯到源数据，找出与这个数据产品关联的所有表，并以这个数据产品本身的定位与价值评定出来的资产等级，给所有这些相关联的表打上该资产等级的标签。如下图：

三、数据资产质量治理

在整个流程中，先有数据加工才有数仓模型和数仓代码的建设。保障数据加工过程中的质量是保障离线数仓整体数据质量的重要环节。

1）数据关键节点监控规则：

1、需要在数据的关键加工节点上，对每个产出表，按照业务的规则，设计一个监控规则，确保数据的完整性、准确性、一致性、规范性和时效性。监控规则有强规则和弱规则，如下图：

2）设定数据监控的校验逻辑：

数据监控的校验逻辑主要分为固定值比较与波动值比较，从表级与字段级两个维度对数据进行校验。

3）数据质量衡量

1、A1、A2级数据资产的准时产出率

2、规则通过率。（关注那些分数低的数据，及时优化改进）

3、强规则报警次数。（以资产等级高的数据产出故障作为参考）

4、正常运行时间SLA（服务协议）。（数据正常运行时间的达标率是99.5%），具体计算公式为：每月允许不可用时间=（1-99.5%）*43200（每月总时间）=216（分钟）

四、数据资产成本治理

1）数据成本计算

从下图中可以看到，营销系统的上游链路涉及1个任务、3个数据表，那么营销系统的成本=1个任务消耗的计算资源成本+ 3个数据表消耗的存储资源成本。另外，由于table2_1被两个下游应用复用，因此营销系统的存储资源成本及任务消耗的成本需要在两个应用中进行分摊。

2）无效成本的构成分析

在数仓中，造成产出与成本完全不构成正比的数据有3种。

1、仍在持续生产，但已经废弃不用或者或者使用非常少的数据。

2、仍在正常使用，但生产成本很高、应用价值很低的数据。

3、在资源消耗高峰期占据太多计算性能的非必要数据。

3）制定优化策略：

1、任务高消耗。针对以上问题对应的设计策略：

①与相关业务人员确认后，将部分可用的数据迁移到其他表，对该表进行下架，并设置相关的自动下架任务。

②评审是否需要存在，若不需要则下架；若需要，考虑是否有剔除与合并的可能，尽量降低表的成本。

③主要考虑数据是否发生了倾斜。数量量小的任务会消耗更多的资源导致资源被浪费。考虑将部分任务迁移到非高峰期执行。

2、存储高消耗

需要对数据进行压缩，常用的压缩格式如下图：

①如果数据不经常使用，而且不考虑Split，就可以使用GZIP。如果是经常使用的热数据，Snappy和LZO性能接近，且Snappy的表现稍微好一些；如果需要进行Split，可以考虑使用LZO。

②存储消耗较高的是数仓数据存储。用户、地址等维度表的数据属于浅加工的数据，变化缓慢，可以考虑只保留几年。DWS层及以上的数据属于深加工汇总数据，根据价值制定保留几个月或者几天。

4）数据成本治理效果评估

1、优化了多少计算资源

2、释放了多少存储空间

数据服务中心

一、数据服务中心概述

目的：减少数据孤岛及高效地将数据开放出去。

方式：通过置换，将不同数据源的表，通过映射模型生产API，与API调用者形成隔离，既保证数据安全，又可以以标准化的方式高效地进行数据的交付。

二、数据服务中心的设计思路

1）将数据写入查询库

①针对实时数据，将实时数仓公共层中的经计算作业得到的计算结果直接写入HBase查询库。

②针对离线数据，将离线数仓中公共层的数据加工结果通过同步任务同步到MySQL、Redis等查询库中。

查询库即数据服务中心的源数据，所有数仓加工后的数据都会被传输到查询库中，被应用于后续的数据服务。不同场景下的查询库选配可参考下图：

2）搭建元数据模型

数据服务中心的数据模型只要由3个部分组成：数据源、物理表、逻辑表。

①数据源即查询库。将数据生产出来后，数据导入到不同的查询库中，以物理表的形式存在。

②物理表。存储着真实的数据信息。

③逻辑表。是一个虚拟表，只定义表和字段的映射关系。

开发完成物理表后，在元数据中心将物理表与逻辑表关联起来。

3）按主题归类

按照相同的统计粒度进行聚合，相同维度的数据形成一个逻辑表。

4）缓存优化

将逻辑表的接口发布给对应的使用者使用。从查询到返回结果，流程如下图：

1、元数据缓存。

①元数据的总量不大，但访问非常频繁。调用时，数据服务中心会一次性把它们都加载到本地，后续直接从本地读取，减少性能消耗。数据服务中心实时监听元数据的发布信息，有发布时才对本地的元数据进行增量更新。

2、模型缓存

①将解析后的模型缓存在本地，有相似的API请求时，数据服务中心可以直接从缓存中心得到解析后的物理执行模型。需要定期更新模型缓存，淘汰少用甚至不用的模型缓存。

3、查询结果缓存

①要区分适用的场景，并不是所有的查询结果都适合缓存。

5）数据接口化

1、将数据的来源表屏蔽，提供统一的API，以供调用。通过配置请求参数与返回参数，可以在不访问物理表的情况下，通过API拿到对应的数据。

三、构建API集市

解决数据重复开发问题，必须构建一个API集市。用户创建的API都可以发布到API集市，后续有类似场景，则只需申请该接口的API权限，就可以在API集市中直接复用类似API，不需重复开发。API管理，如下图：

6）统一数据服务

单纯以API的形式对外提供服务无法满足索欧数据需求，也会给服务器造成很大压力。一般遇到的场景有如下几种：

1、数据拉取。以API的形式提供，前端发出请求，后端返回数据

2、数据推送。后端监控相关的消息源，在消息源被更新后，主动将数据推送到前端。

3、定制查询。中高端定制化的数据处理。比如：用户画像，用户分群等。

只有将上述几种场景都以服务化的形式对外提供支撑，才能使数据服务真正走向中台化。

数据分析理论

一、业务和数据的闭环

业务和数据间存在映射关系，数据是业务在数字世界中的映射。业务越全面、越深入地被线上化，反过来数据对业务的赋能就越大。如下图：

1）业务数据化。业务线上化，存储业务所产生的数据，记录业务。

2）数据业务化。分析收集的业务数据，评估业务状态，指导业务发展，提升效率。

二、不同岗位的职责边界与合作

①：业务产品经理：负责协调研发、测试、设计等部门，从实际业务需求出发，上线产品。

②：数据开发工程师：根据数据产品经理的需求，按模型、按主题等加工业务数据。

③：数据分析师：建立系统的分析框架，评估业务状态，定位业务问题，指导业务的发展。

④：数据产品经理：负责协调数据开发工程师将业务数据模块化和体系化，同时将业务分析框架产品化，提升数据赋能的效率。

⑤：运营：根据业务方向，通过短期的激励活动，引导用户认识到产品的长期价值。

三、数据、信息和知识

1、数据赋能业务一般经历4个环节：数据表现、业务原因、业务策略和作用方式。如下图

四、业务策略的闭环

1、整个过程中，业务策略存在两个闭环：逻辑闭环和业务闭环。

1）逻辑闭环：数据分析的过程，论据要能够支撑结论。

2）业务闭环：业务策略在业务上的落地执行要实现闭环，不断地被调整和迭代。

2、在数据分析过程中常会出现两类问题：

1）逻辑闭环相关：业务策略的逻辑论证没问题，但业务上无法落地

2）业务闭环相关：业务策略没有被落地执行或者落地执行反馈周期太长，导致业务理解只停留在当时分析数据的节点，没有得到验证反馈。

3、从以下两步来判断业务策略是否接地气：

1）深入思考业务策略成立的业务假设是什么

2）通过调研判断业务假设是否成立

五、数据分析的定义与流程

1、数据分析的流程如下：

1）明确分析目的

2）明确分析思路：搭建分析框架，拆解分析对象。拆解业务遵循MECE。原则：完全穷尽和相互独立。对分析框架的认知：

①分析框架是前人的经验总结。我们要分析业务与其适用的场景切合

②分析框架不是数据分析领域特有的。通常沿用管理学、营销学中成熟的分析理论。

3）获取数据。获取方式通常利用SQL从数据库中查询、从数据产品下载或者调研业务数据等。

4）处理与分析数据。处理数据经常用到的工具：EXCEL、Python、R、Tableau等

5)撰写报告。如果没有按照预期发展，需要进行复盘。复盘分为以下几步：

①落地的策略是否可以解决业务出现的问题

②落地的质量如何

③分析的框架有没有问题

④分析得出的结论有没有问题

六、数据分析的3种场景

预测性分析、描述性分析、诊断性分析。不同场景的数据分析的目的不同。

1）预测性分析：基于现有的数据，结合实际情况，预测业务未来的发展。

2）描述性分析：有逻辑、成体系地拆解业务。用合理指标整体评估业务的状态

3）诊断性分析：针对业务的异常波动，分析背后的原因，并提出解决策略。

预测性分析和诊断性分析通常以报告的形式来呈现分析结果，可以是PPT或者Excel表格等；而描述性分析通常会把框架沉淀在数据产品上

七、数据分析师的核心能力：

主要是两个方面：专业能力和影响能力

专业能力：

1）专业基本功：

①数据获取：数仓基础知识+SQL

②数据处理：EXCEL+Python

③数据分析：数据思维+分析思维+统计学+定量分析方法

④结论呈现：PPT|、Tableau

2）理解业务

①参与业务

②调研、访谈一线业务人员

③多与业务部门打交道。完整的工作场景是业务——数据——信息——知识——合作。数据分析师尽量参与更多的环节

业务——数据：没有灵魂的工具

业务——数据——信息：浅思考的提供者

业务——数据——信息——知识：有主见的布道者

业务——数据——信息——知识——合作：有影响的决策者。

八、数据分析师的职业素养

1）诚实：恪守数据诚实的底线

2）好奇心：要对业务的细节、数据变化有好奇心，主动把事情梳理清楚。

九、数据分析师的工作内容：

1）偏向外的战略分析

2）偏向内的业务分析

3）业务调研

十、数据分析师的考核

一般是两个方面考虑：

1）专业产出：拆解的项目年度/月度目标、搭建的业务评估指标体系和分析的业务策略等

2）业务结果

十一、数据分析团队的组织架构

1）以独立的实线部门存在

2）存在于业务部门中

不同组织架构的工作模式：

1）部门内以小组的形式支持业务部门。好处：可以深度参与业务，策略可以快速地落地与迭代。坏处：需要服务两个团队。如果两个团队需求有冲突，比较麻烦。

2）纵向业务部门的需求被统一按排期处理，数据分析团队更多的是做横向的赋能。好处：价值产出非常明确。坏处：对纵向业务的理解不深，容易导致落地较差。

十二、数据分析师的工作方式

1）1+N的工作内容：1（最好主跟一个项目，产出价值）；N（同时接一些小项目，2个为宜）

2）与业务方法合作模式：常见的合作模式：

①主负责的项目经理规划好了全盘的路线，合理地根据每个人的职责分配好工作。需要项目经理深刻了解业务、懂产品、懂数据、懂运营等

②主负责的项目经理规划好了全盘的模块，每个人负债对应模块。这类难度系数大

3）有关工作方式常见问题的解法思考

Q1：数据分析师如何避免成为取数的工具人：

成为取数的工具人原因有2个。

①业务方不清楚数据分析师的定位，数据分析师要主动地与业务方沟通

②业务方比较强势

数据分析实操

一、预测性分析。

主要场景：自上而下：由老板确定最终目标，再向下拆解预估过程中要完成的阶段性目标和所需资源。自下而上：先预估业务每个模块目标，再向上汇总，达到业务整体目标。

分析思路：

1）明确分析目的

2）明确分析思路

3）获取数据

4）处理与分析数据

5）撰写报告

二、描述性分析

1）提升工作效率：通过数据产品定期自动化刷新描述性分析报告，减少重复工作量。

2）提升杠杆效率：通过描述性分析报告的拆解逻辑，让更多的人了解业务状态，并知道如何去改善业务状态。

三、诊断性分析

一般流程：发现问题—定义问题—拆解问题—寻找原因—提出解决方案—落地执行—反馈迭代，直到业务问题解决。

发现问题：判断指标波动是否异常，可使用箱线图法、六西格玛原则等。箱线图法步骤：①在时间序列上，找出中位数和2个四分位数（四分位数是一组数据在排序后处于25%位置和75%位置的两个分位值，分别用Q25%和Q75%表示）②计算内围栏，下围栏：Q25%-1.5*IQR；上围栏：Q75%+1.5*IQR ③找出离群点（大于上围栏或者小于下围栏的数据点）

四、数据分析报告

数据分析报告是数据分析师观点的载体，是数据分析师对外输出的产品。

1）数据分析报告一般满足以下3个要求：

①面向需求方：针对不同对象，用不同的风格来写。

②结论简明扼要

③分析过程严谨、全面。

2）预测性分析报告的结构

预测性分析报告的注意点：

①要分开展示测算的过程数据和最终的结果数据，尽量不要将二者混在一起。

②一定要保留过程的计算公式，以方便后续对数据进行调整。

③最好用一个单独的工作表来记录数据之间的计算逻辑和指标口径。

3）描述性分析报告的结构

①描述性分析报告面向的对象：根据职责范畴，确定描述性分析报告中要展示哪些业务。

②业务的展示顺序：可以按业务级别的高低来展示，或者按业务之间的流程顺序来展示等。

③具体业务的评估：按总-分的结构来展示，分3层，即评估指标、指标表现、呈现形式。确定业务的核心监控指标、拆解的子模块的监控指标，用对比的方法评估指标的表现，反映业务的变化。

定向对比：完成目标进度与时间进度的对比；横向对比：不同对象间的对比；纵向对比：同一对象不同维度的对比。

合理的呈现形式：趋势图、颜色梯度等。

4）诊断性分析报告的结构

推荐的结构顺序：标题页—目录页—结论—策略—分论点—论证过程—结束页。

注意点：①结论：将结论简明扼要地归纳为3～5个，结论太多会让人脑对其的记忆效果变差。②策略：写清楚策略方案、落地计划和收益评估。③分论点论证过程

五、数据应用篇

主要介绍数据应用层的建设。即数据在业务中的实际应用，包括BI系统的建设、标签体系和用户画像的建设、电商反作弊和个性化推荐的应用，帮助企业实现降本提效的商业目标。

BI系统

一、BI系统（商业智能系统）：视作一种数据解决方案，它伴随着企业信息化的发展逐渐发展起来。

BI系统的发展阶段：

二、BI系统的相关人员：

BI产品经理负责对接用户，进行需求采集和分析、产品设计和项目管理；数据工程师负责数仓和数据开发的相关工作；

服务端工程师负责BI系统的开发、测试和运维。

三、BI系统的特点：

建设BI系统是企业进行信息化、智能化转型的必经之路。

1）集成化、云端化：信息集成的门户，具有数据接入、处理、管理以及可视化展示等功能。出于系统部署成本和时效性考虑，BI服务向云端转移。

2）低使用门槛。经过简单地设置维度、拖动指标即可在BI系统上快速生成报表。

3）机器学习、AI技术赋能

BI系统的主要特性在于自主性。

四、BI系统的关键技术：

从数据的流转入手、从数据源到数仓，经过数据抽取、转换和加载及数据建模，形成多维的应用层数据报表，在此基础上的报表配置和可视化呈现。

1）数仓：因数据可能来自不同数据系统，用户可能没有技术能力和系统权限去获取这些数据。而数仓存储着面向主题的，集成的、稳定的数据集合。数仓是对海量数据进行分析的基石，是BI系统的依托。

2）数据处理：

①数据抽取、转换和加载

②联机分析处理。改变了这样的数据浏览方式，将数据分离为维度（观察数据的角度）和指标（具体的考察的数量值）。

为应对处理数据量的挑战，目前比较普遍的解决方案是加并发和预计算。

MPP（大规模并行处理）架构的优点是响应效率高，缺失容量有限，容易占用资源，适合对清洗过的数据做交互式查询。

批处理架构的优点是稳定且扩展性好，但反应速度慢，适合离线数据清洗。

3）可视化展示。做数据展示，将数据以合适的图表拼配做展示。帮助用户更快速地触达隐藏在数据背后的信息。

初学者需要注重积累和总结，逐渐形成适合自己的图表配对模板和配色风格。

五、BI系统实践

BI系统的关注点主要集中在数据处理性能、数据接口适配、产品适配、可视化效果。

BI系统应具有的核心功能

1）选择数据源并建立数据模型

2）创建可视化数据报表，即载入指标数据制作可视化图表。

3）数据分析与可视化结果展示

从数据接入到数据可视化的过程如下图：

1、数据接入：企业内部数据（来自销售系统、库存系统等）和企业外部数据（行业信息和竞争对手信息等）

2、数据集加工：如果企业还没数仓，或者数仓还不完善。需要在设计BI系统时先考虑系统兼顾数仓的部分职能，增加数据集的操作。对接入的数据进行再加工。

数据集的加工经历4步：

①选择之前已经连接且与主题分析相关的数据源。

②如果与主题分析相关的数据来自多个数据表，就选择相关的数据进行关联操作，得到一个数据宽表。

③对得到的数据宽表进行数据清洗和字段定义（目的改正或排除错误数据、根据分析需求调整数据和数据属性）

④确定数据表的指标和维度字段，完成数据建模

六、数据集权限控制

对BI系统的用户来说，比较理想的方式是在完成数据源接入和数据集生成后进入数据集权限控制流程，如下图。

报表的数据查阅权限应该由数据集创建人控制，他具有对其名下数据集对外权限设置的权利。

七、可视化报表配置

1）设计支持的图表类型。在做功能设计时不必求大而全，而应该根据每一种图表的数据使用场景来选择支持哪种图表。

1、饼图，可以展现每个组成部分占整体的比例。既可以强调个体与整体的比较，又可以很好的帮助用户了解整体数据的比例分布。缺点：如果各个部分比例差别不大，很难通过饼图看到细微的差别。

2、条形图是对饼图的补充，通过图形长度很好的体现希望的差别。

3、南丁格尔图，通过面积大小增强各组成部分的比例对比。

2）可视化元素的配置：

一般分为两类：1、与图表相关2、与整体报表相关

八、可视化结果展示

1）主流BI系统的展示结构，如下图。

Power BI仪表板和Tableau仪表板的区别，层级之间的组合方式、联动修改策略不同。

共同点：

1、多个图表组成图表组合。多个图表组合组成演示看板。图表组合、演示看板均可发布。

2、在最小的层级上，它们均支持数据分析探索。

2）划分BI系统展示的层级考虑以下方面：

1、积木式组合，多页签：便于区分展示主体

2、适配多种终端

3、嵌入式分析

九、数据分析OLAP

1）、OLAP的常见操作：钻取（下钻、上卷）、切片、切块、旋转。

1、下钻是维度的拆分；比如江浙沪地区，下钻就是拆分到省市级。上卷是维度的合并。比如月份是时间维度，上卷就是聚合为季度。

2、切片、切块。在多维数据结构中，按二维进行切片，三维进行切块，可得所需数据。

3、旋转。即在表格中重新安排维度的位置。

2）BI报表功能与OLAP功能的区别

1、展示vs分析。OLAP是面向分析的，BI报表是面向数据展示的。一般是现有BI报表功能，再有OLAP功能。

2、可视化元素VS分析操作。BI报表以可视化展示为主，在功能设计上要考虑较多的配色、字体、图表可视化元素。在性能上侧重于进行展示数据的可得性、更新频率（实时性）。OLAP功能以分析为主，侧重于OLAP的操作方便性、OLAP的各类钻取、切片后查出数据的速度。

3、指标计算VS函数计算。BI报表在计算上侧重于对多个指标度量的计算。OLAP在计算功能上侧重于使用算法类或者统计类的预置函数。

十、如何衡量BI系统是否成功

从以下三方面衡量：

1、报表覆盖情况。报表覆盖率=BI系统创建的报表数量/企业全部的数据报表*100%。①覆盖的报表多说明功能很好满足了需求，产品完成度高。

②大大缩短了开发工时，提高了效率。

2、报表嵌入情况。报表嵌入其他系统越多，说明通过BI系统平台化越能减少数据报表烟囱，提高企业存储资源和计算资源的利用率。

3、用户访问量。只有用的人越多，BI系统才会发展的越好，系统功能越完善。

用户画像

一、初始用户画像

用户画像：从用户的基础信息、用户行为、业务信息等海量数据中，抽象出一个个标签，通过给用户贴上若干标签来还原用户全貌的过程。

用户标签：通过对用户的基础信息、用户行为、业务信息等数据进行数据建模产生的用户特征。

用户分群：由批量用户组成的用户群体，可通过筛选标签组合来获取

1）用户画像发展历程：用户画像概念提出——>用户画像技术的发展——>用户画像研究的机遇。

2）用户画像体现建设：主要是把握一个中心和一个主线。可以分为4个阶段：需求阶段、产品规划阶段、产品设计阶段、开发测试阶段和运营阶段。

一个中心：以经济建设为中心。建设用户画像体系本质上是未来服务商业活动。

一条主线：产品研发的基本流程主线。

人员配合流程

二、用户画像调研流程：

1、确定调研内容——>盘点业务和数据现状（使用AARRR模型梳理在拉新、促活、留存、裂变阶段可能的策略和所需标签）——>选择关键业务方——>深入调研，提供需求模板——>回收调研结果

2、对外竞品调研：标签体系建设的一个最重要环节在于用户ID体系的打通。

三、用户画像规划

1、采用六层次方法梳理用户画像业务架构。

用户画像的业务结构围绕2个方面展开：①用户需求②用户画像实现（需要什么资源？）

2、用户场景价值层。明确用户画像体系是给谁用的（营销人员、产品经理、用户运营经理等）

3、产品运营资源层：

①产品/服务层，核心在于数据采集、用户ID识别、标签管理、用户画像系统

②运营管理层

③资源层：需要哪些人员做，预算多少等

4、用户画像的产品架构：

1）业务架构较宏观注重自上而下搭建；产品架构更注重落地，自下而上搭建。

①数据采集层：大而全面的描绘用户画像。采集相关用户数据：1、业务数据2、埋点行为数据（浏览数据、点击数据、停留时长等）3、日志数据4、第三方数据

②ETL：对一些不符合标准的数据进行抽取、清洗、转换、装载、得到标准数据。

③数据分析与挖掘层：对标准数据进行标签建模。1、统一用户ID标识2、用户档案建设3、标签建模4、标签宽表存储

④服务层：包括业务服务和系统服务。

⑤应用层

5、用户画像的版本计划

分步进行，设定每个版本的目标及进度计划。按照“二八定律”，建设MVP版本，先推出一版快速满足业务需要。

6、用户画像的项目执行计划

在项目执行过程中有4个关键节点。①立项评审②需求评审③提测演示④产品发布

7、用户ID体系：是用户画像的核心，把几份不同来源的数据，通过各种技术手段识别为同一对象或主体，从而实现One ID。必须打通ID与ID间的映射关系。3种常见的ID映射方法：

1）基于账号体系：最常见的。

2）基于设备

3)基于账号和设备

常遇到的问题：

1、同一个用户有多个设备：解决方案：定义相关的阈值，将这些设备信息进行关联。

2、设备过期：解决方案：设定衰减系数，对单用户多设备加大衰减力度。

实施过程：

1）梳理业务及数据现状

2）明确建设目标

3）制订项目计划。第一阶段：基于用户账号体系，用手机号关联注册用户的ID，维护ID映射库，统计用户的线上和线下行为。第二阶段：基于设备，用device ID关联未注册的ID，统计未注册用户的行为数据。第三阶段：基于账号和设备：采用数据挖掘算法做ID映射。

4)按计划开展项目：从企业的数据现状出发，一步步实施；梳理清楚各个ID之间的关系图，以便做ID映射。

四、标签体系：

标签分类，目前市面上有3种常见的标签分类方式：

1、按用途。

1）基础信息标签：①年龄②职业和收入水平

2）用户行为标签：人类需求重要程度排序：生理需求、安全需求、社交需求、尊重需求和自我实现需求。

3）业务偏好标签：描述用户的偏好业务内容，根据业务划分不同的分类。

4）场景标签

2、按统计方式分类：

事实类标签：用户画像最基础和最常见的标签

规则类标签：拥有更多的业务属性。①用户活跃度标签。划分用户的流失周期，运用拐点理论②RFM标签：3个要素：最近一次消费时间、消费频率、消费金额。

1）用户类型划分：

①重要价值用户：消费金额大，频率高且最近有消费；为其提供更多资源

②重要保持用户：消费金额大，频率高但最近没消费；需要将其挽回，提供有用的资源

③重要发展用户：消费金额大且最近有交易，但消费频率不高。重点识别，可进行交叉销售，提供忠诚计划，向其推荐其他产品

④重要挽留用户：消费金额大，但消费频率不高且最近无消费。为最具潜在价值的用户，需要挽留，可push消息触达、回访等措施提高留存率。

⑤一般价值用户：消费频率高且最近有消费，但消费金额较小。需要进一步挖掘，向其销售价值更高的产品

⑥一般保持用户：消费频率高，但最近无消费且消费金额较小。可向其销售价值更高的产品

⑦一般发展用户：最近有消费，但消费频率低、消费金额较小。按消费类型向其推荐感兴趣的产品。

⑧一般挽留用户：无消费的新用户；可开展活动令其免费适用产品，提高他们的兴趣，建立他们对品牌的认知度。

预测类标签：

①按时效分类：静态标签和动态标签

五、用户画像系统：基于企业全域流量打造的数据应用平台，提供用户标签、用户分群、人群洞察的统一数据应用服务。

工具型用户画像系统的设计，功能模块主要包含：首页（主要查看用户资产及基础画像，展示潜在客户、新客户、老客户等不同类型的用户基础信息）洞察、标签广场、人群、系统管理。

1、标签广场：帮助营销人员直观地了解标签分类、标签的含义、收藏常用的标签实现大海捞针。

2、人群：模块主要包括：我的人群、全部人群、创建分群、展示群ID、人群名称、创建人、创建时间、有效日期、创建类型、覆盖人数，并且可对人群进行下载、查看API、洞察、push消息推送、删除操作。

3、系统管理：标签管理和权限管理模块。主要面向产品经理等系统管理员。

六、用户画像的应用

精准营销的4R法则：通过合适的渠道（Right Channel），在合适的时间(Riight Time)，将合适的产品(Right Product) ，推送给合适的用户(Right Customer)。

用户画像的4种主要应用：

1）精准广告投入：

2）智能运营：1、个性化推荐2、push消息/短信推送

3）智能客服

4）智能风控。比如营销反“薅羊毛”

电商反作弊体系

一、“电商黑产”的现状：

1）电商黑产的类型：

1、跟风用户

2、羊毛党：利用仿冒账号等作弊手段在各大电商平台的促销活动期间，模仿真实用户参与其中。

3、电商黑产：比羊毛党有更明确的人员分工，手段、技术更加高明

2）电商薅羊毛场景：

1、电商用户的生命周期：新人期、成长期、成熟期、衰退期、流失期。

2、电商黑产造成的损失：

①对电商平台：花费大笔营销费用，却没有获得真实客户

②对商家：商品没有得到有效传播

③对用户：被电商黑产侵占六真实用户的权益，没有享受到电商平台给予的优惠福利。

3）电商黑产的发展趋势：团队化—>专业化—>全球化

4）电商黑产的作弊工具：

①账号（拥有大量账号，购买国外账号或者盗取他人账号）；

②设备（大量设备，低价二手机或使用模拟器）；

③IP（用动态VPS，虚拟专用服务器混拨对IP进行伪装）；

④卡池和猫池（卡池：提供大量的SIM卡，并且可以自动换卡；猫池是插卡设备可以连接计算机，收发短信验证码等）；

⑤一键新机软件（在有限设备上虚拟出多个设备，让设备边玩一台“新机”）；

⑥操作模拟器（记录真实用户在使用手机过程中的操作习惯并模拟真实用户的操作，结合软件或者外接按键设备来模拟真实的用户）

二、电商黑产的防控方案

1）反电商黑产的作弊案例：

1、事前阶段：①活动设计规则：主要目标是提高电商黑产的作弊成本②此营销活动的规则：新用户只可购买指定商品、电商平台在新用户完成首单7个自然日后给新用户返还与其购买商品价格等额的红包、新用户绑定有效的手机号，通过短信验证码进行验证、仅限账号为国内号段的新用户参与。③技术方案：接入第三方风控系统、有监督机器学习、白名单数据维护

2、事中阶段：①无监督机器学习：找到对象具有的一些特征如地域、IP地址、网络状态、手机系统等；②真人操作识别，手指操作时手机传感器记录操作数据，形成连续的波形，而外置设备或者模拟器的用户操作与真实用户操作有一些区别，通过波形对比识别。③孤立森林模型。电商黑产账号产生的数据有2个特点：只占全量数据的一部分、和正常用户数据有较大差别。所以用此模型，在一组连续数据中通过无监督机器学习，从不同维度叠加去圈选那些全量数据中分布比较离散、远离高密度数据群体的样本。

3、事后阶段：

反例特点①收件人姓名重复②手机号各不相同；该用户使用了作弊设备；收件地址为了不被反作弊策略识别，地址编写各不相同；收件地址中隐藏着收件人的真正手机号；收件地址在隐藏手机号时会使用“联系”这个动词；收件地址部分为“馆”，“店”；支付时间有间隔，已采用防反作弊手段。

规则构建思路：①填写信息，设定相关策略②重名检测③同数字音④多维度综合判断，用叠加打分的形式

资讯个性化推荐

一、资讯内容处理：

1）个性化推荐涉及3个部分：用户、算法和策略。

2）资讯内容来源：1、第三方网站提供2、企业编辑撰写3、作者撰写

二、资讯的分类体系：三种形式：

①结构化的分类系统：层级分明，存在父子关系。如：科技-互联网-AI；分类与分类之间相互独立。

②半结构化分类体系：具有结构化的形式，同时具有一些不成体系的分类

③非结构化分类体系：比较灵活，不存在明确的父子关系

三、常见的分类问题（分类做不好会影响用户体验）：

1、一级分类=二级分类：如一些新闻的分类，一级分类名称是美食，二级分类名称也是美食。

2、二级分类不够全或者分的较粗：如历史被分为古代史、近代史、现代史

3、一些分类较杂：如科学探索分类下包括各种内容

4、一些二级分类的归属不合适

5、一些资讯没有归属

6、AI分类下的资讯有一些是玩偶

四、内容分类原则：结构化分类体系的搭建原则1、相互独立2、完全穷尽：各个分类应当完全穷尽列举3、命名应当短小易懂4、命名应当准确无歧义5、命名应具有内容代表性6、分类粒度应当适合7、每个分类下的三级分类不能过于庞大8、释义应当简单明了，不应长篇大论，太过专业

五、分类体系的搭建

1、程序抓取：抓取浏览量较多的关键词。实际操作看，用户的兴趣分层（一、二、三级）分类—主题—兴趣点—关键词。

2、人为定义：操作步骤：①了解每个一级分类的内涵②根据网站分类，逐一列举，列举三级分类的分类词③从三级分类合并为二级分类，以及二级分类拆分为三级分类双向进行整理。④对分类给出释义和边界，以便标注人员区分。

新的问题：如何保证三级分类下的资讯充足？如何保证人工分类的准确性？

两项措施：①针对第一个问题，把三级分类词放进资讯召回系统中进行搜索，查看内容及数量是否充足②针对第二个问题，部分资讯要先经过标注人员的人工标注，标注时反馈具体某三级分类存在的问题及不合理性，产品人员、运营人员、编辑都会介入此环节对不适合的三级分类进行修改。

六、内容的标注与机器学习

1）内容标注：目的是为内容选择对应的分类。内容运营人员会设置质检小组，对编辑和标注人员的结果进行抽样检查。

2）机器学习：标注人员不会对所有内容进行标注。

1、标注人员标注一定数量的内容，算法工程师运用算法对人工标注的样本进行有监督的机器学习，把剩余内容用程序给它标注分类。

2、算法工程师会使用多种方法对内容进行机器学习。

3、标注人员对使用3种方法进行分类的内容校验。计算公式：机器标注准确率=标注人员分类和机器分类相同的内容数量/总的内容数量。

4、算法工程师对标注不准确的内容继续进行机器学习，不停的迭代和优化算法。

七、资讯用户的画像和特征

1）资讯用户的画像：对用户这个客观实体的描摹。

2）资讯用户的特征：

1、特征介绍：从时效性上划分：长期特征（用户基本信息如性别、年龄等）、短期特征（用户的兴趣爱好和行为特征）和实时特征（用户的实时地理未知、网络状态）。

2、特征获取：通过用户主动填写或埋点来获取。根据业务指标对事实特征进行复合计算得到。

问题：如果用户没有填写某些信息或者获取不到怎么办？一般有2种解决方案：

①引入第三方数据补全用户画像

②算法工程师把填写性别的用户作为样本，按照男、女分别进行有监督的机器学习，对性别特征不完整的用户进行模型训练。

模型特征：制定一些规则为业务场景服务。

八、资讯的推荐算法

根据用户的一些条件，把符合这些条件的资讯从广阔的内容池中召唤出来，放到一个小的池子中。

1）资讯的信息抽取：①深度优先遍历，就是纵向最深，按照从左到右深度优先的规则把每个节点都走一遍。②主体的识别。识别哪些是正文，哪些是广告。

2）资讯的分词方法。有3种方法：①字典最大前缀数。需要有一个字典集，其中包含所有词语，当机器“读”一句话的时候，按照字典集中存在的词语从左至右进行匹配。直到找到最大的词组。

②N-Gram。N表示对一句话用几个字去拆分，如N=3，“个性化推荐真好玩”就会被拆分为“个性化”“性化推”“化推荐”等

③基于统计学的分词。例如贝叶斯公式，根据语料库的历史信息，分析当一个汉字出现时，另一个汉字出现在它后面的概率，从而进行分词。

3）资讯的过滤排重。

1、在分词后会进行一些过滤：

敏感词过滤

低质过滤（根据机器学习的历史低质资讯算法，以及标注人员标注的低质资讯，对资讯进行过滤）

排重（对相似度较高的资讯进行去重，有2种方法：

①I-Match找相似算法（假设有A、B两篇文章，我们首先统计出这两篇文章的高频词、中频词、低频词，去掉高频词和低频词，比较A、B两篇文章的中频词的相似度，卡一个相似度的阈值。）

②Shingle（瓦片）算法

假设有A、B两篇文章，A文章的内容是“我困了晚安我睡了”，B文章的内容是“我累了晚安我睡了”。Shingle算法会把A文章拆分为“我困了，困了晚，了晚安，晚安我，安我睡，我睡了”，把B文章拆为“我累了，累了晚，了晚安，晚安我，安我睡，我睡了”。两篇文章的相似度=重复词汇量/（A文章的词汇量+B文章的词汇量-重复词汇量）=4/（6+6-4）=50%，卡一个相似度的阈值。

对相似度达到阈值的文章进行过滤，仅留一篇，如按照发表的先后顺序或者按照文章的质量等保留一篇文章。

4）资讯的召回模型：一般有多路召回，每一路召回都有其合理性。

1、基于用户属性的召回

2、基于用户兴趣的召回

3、基于用户行为特征的召回

4、基于协同的召回：①空间向量模型。用一个向量来描述一个用户，代表不同用户的两个向量的夹角越小，就表示两个用户越相似。②协同（基于用户的协同（如果A、B用户在向量化后很相似，那么认为B用户喜欢的东西A用户也会喜欢）、基于内容的协同（如果A喜欢甲文章，甲乙两篇文章在向量化后很相似，那么A很可能也喜欢乙文章）、基于整体的协同。

5）资讯的算法排序

常见的排序模型：逻辑回归、梯度提升决策树、因子分解机等以及它们的复合变种。

经过排序后，对每个用户，我们输出一个资讯偏好评分由高到低排列的信息流。

九、资讯的重排策略及案例

1）常见的重排策略及策略目标：

1、常见的重排策略：①新用户兴趣试探策略②兴趣打散策略③本地化推荐策略④分网络状态推荐策略⑤分时段推荐策略⑥搜索行为策略⑦负反馈策略⑧分场景策略⑨热点事件策略⑩通勤场景策略①①季节性策略①②流失召回策略

2、策略的目标：对新用户：发现他们的兴趣；对老用户：发掘他们更多的兴趣，提升点击率

电商个性化推送

一、push的衡量

1）push的目标与本质。目标：获取新用户、激活老用户、召回流失用户。

本质：将合适的内容，在合适的时间和合适的场景下，推荐给合适的用户，并带来转化。

2）push的衡量指标：

1、短期看：拉新数量和拉新贡献度

2、长远看：从推送、点击、到达、浏览、加购、下单、支付、复购整个链条来提高

3）push的优化方向：

4个要素：

效率高：1、能快速进行下发2、下发过程中减少各环节的折损，保证push能触达用户（①原始请求数②计划推送数③可找到设备数④可找到APP数⑤有效设备数⑥实际下发数⑦送达数⑧展示数⑨点击数）

算法准：1、商品画像2、推荐的冷启动（对没有做出行为且历史行为比较稀疏的用户需要制定方案）

推荐好：1、用户隐私的保护2、文案的设计（①增加push的丰富度②打造具有吸引力的文案③push文案的规范）3、落地页的设计（内容与push内容保持一致、内容突出商品主体抓住用户眼球、最好有一定的指引引导用户理解产品）4、push的频控设计

展示靓：1、展示层面（①带图的push消息②带俺妞的push消息）2、表达层面（push信息中的图片是商品价格变化的折线图）

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

读书笔记 | 《大数据实践之路》

最新文章

热门文章

随机文章

读书笔记 | 《大数据实践之路》

# Day 878 学习笔记

02.17 学习资料合集已更新~

最新文章

热门文章

随机文章