一、章节核心内容摘要
根据最新考纲及占分分析,本章节 “第6章:数据工程” 在2024下半年至2025上半年(新大纲稳定期)的考查占分为 3~5 分。考查形式包含综合知识+案例分析。趋势分析指出,本章是重点章节,数据治理、数据模型等是热门考点。
【核心内容摘要】本章详细阐述了数据工程的全生命周期管理与技术要求。主要内容涵盖:数据采集和预处理(传感器/日志/网络采集,缺失/异常/不一致/重复数据处理);数据存储及管理(文件/块/对象存储,DAS/LAN/LAN-FREE/SERVER-FREE备份结构,完全/差分/增量备份策略,容灾指标RPO/RTO);数据治理和建模(元数据体系,数据标准化,数据质量评估,概念/逻辑/物理模型);数据仓库和数据资产(数据仓库架构,OLAP,数据资源化与资产化,数据资源编目);数据分析及应用(数据集成机制,Web Services,数据挖掘任务,数据可视化);以及数据脱敏和分类分级(脱敏原则与分级标准)。
二、核心学习笔记
一、数据采集与预处理
1. 数据采集类型与方法
采集方法:传感器采集、系统日志采集(Logstash、Flume等工具)、网络采集(API、网络爬虫)。
2. 数据预处理常用方法
数据预处理一般采用数据清洗的方法,包括数据分析、数据检测和数据修正。
| | |
|---|
| 缺失数据 | | 丢弃适用于样本多且缺失比例小;热卡填补法找最相似对象填充 |
| 异常数据 | | 分箱法考察“近邻”平滑数据;回归法用函数拟合消除噪声 |
| 不一致数据 | | |
| 重复数据 | | |
二、数据存储及容灾备份(高频考点)
1. 数据存储形式
2. 数据备份策略比较
| | | | |
|---|
| 完全备份 | | 最快 | 最高 | |
| 差分备份 | | | | |
| 增量备份 | | 最慢 | 最低 | 可靠性最低 |
3. 数据容灾关键指标
| | |
|---|
| RPO | Recovery Point Objective(恢复点目标) | |
| RTO | Recovery Time Objective(恢复时间目标) | |
三、数据治理与建模(热门考点)
1. 元数据 (Metadata)
元数据是 “关于数据的数据”。元数据体系包括:内容元数据、专门元数据、资源集合元数据、管理元数据、服务元数据、元元数据。作用包括描述、资源发现、组织管理数据资源、互操作性、归档和保存。
2. 数据质量评价
评价过程分为五步:确定范围 ➔ 确定度量方法 ➔ 选择评价方法 ➔ 确定质量结果 ➔ 决定一致性
3. 数据模型三阶段
| | |
|---|
| 概念模型 | | |
| 逻辑模型 | 在概念模型基础上确定数据结构,目前最重要的是关系模型 | 概念模型中的实体转化为关系,属性转化为关系的属性,关联转化为外键 |
| 物理模型 | | |
四、数据仓库与资产管理
- 数据仓库定义:面向主题的、集成的、随时间变化的、稳定的历史数据集合。
- OLAP(联机分析处理):分为ROLAP(关系型)、MOLAP(多维型)、HOLAP(混合型)。
- 数字资源化:原始数据 ➔ 数据资源(核心是数据治理,保质保安全)
- 数据资产化:数据资源 ➔ 数据资产(核心是释放价值、显性化成本效益)
五、数据分析及应用
1. 数据集成与 Web Services
- 数据访问接口:ODBC(基于SQL)、JDBC(Java接口)、OLE DB(基于COM)、ADO。
| | |
|---|
| WSDL | Web Services Description Language | |
| SOAP | Simple Object Access Protocol | 简单对象访问协议 |
| UDDI | Universal Description, Discovery and Integration | 统一描述、发现和集成协议 |
2. 数据挖掘主要任务
| |
|---|
| 数据总结 | |
| 关联分析 | |
| 分类和预测 | |
| 聚类分析 | 缺乏描述信息时 |
| 孤立点分析 | |
六、数据脱敏与分类分级
1. 敏感数据分级
通常将数据密级划分为5个等级:
2. 数据脱敏原则
算法不可逆原则(防止重构)、保持数据特征原则(供开发测试使用)、保留引用完整性原则、规避融合风险原则、脱敏过程自动化原则、脱敏结果可重复原则。
三、本章精选习题及详细解析
题目1:________不属于需要进行数据预处理的促成因素。
A. 数据缺失B. 数据不一致C. 数据安全D. 数据重复
答案:C详细解析:一般而言,需要进行预处理的数据主要包括数据缺失、数据异常、数据不一致、数据重复、数据格式不符等情况。数据安全属于安全架构或治理范畴,不是引发日常预处理的直接数据特征因素。教材页码:第236页、第257页(课后习题)
题目2:衡量容灾系统或能力的主要指标是________。
A. 远程镜像技术B. RTO/RPOC. 异地容灾D. 数据备份策略
答案:B详细解析:从技术上看,衡量容灾系统有两个主要指标,即 RPO(恢复点目标,代表允许丢失的数据量) 和 RTO(恢复时间目标,代表系统恢复的时间)。教材页码:第240页、第257页
题目3:________不属于常见的数据质量评价过程。
A. 确定使用的数据质量定量元素及数据质量范围B. 确定数据质量度量方法C. 确定数据质量评价的第三方组织D. 选择并使用数据治理评价方法
答案:C详细解析:数据质量评价过程的五步包括:范围限定的数据集(确定定量元素及范围)、确定度量方法、选择并使用评价方法、确定质量结果、决定一致性。不包含“确定第三方组织”。教材页码:第243页(图6-4)、第257页
题目4:关于数据集成定义的描述较为准确的是________。
A. 通过应用软件接口,将不同系统的数据进行共享B. 将不同表单中的结构化数据融合为一个表单C. 通过网络或数据标准,实现数据的共享与交换D. 将驻留在不同数据源中的数据进行整合
答案:D详细解析:教材对数据集成的明确定义是:“数据集成就是将驻留在不同数据源中的数据进行整合,向用户提供统一的数据视图,使得用户能以透明的方式访问数据”。教材页码:第249页、第258页
题目5:为了更加有效地管理敏感数据,通常会对敏感数据的敏感程度进行划分,以下属于常见程度划分的是________。
A. L1(公开)、L2(保密)、L3(机密)、L4(绝密)、L5(私密)B. L1(个人)、L2(组织)、L3(商业)、L4(技术)、L5(国家)C. L1(公共)、L2(保密)、L3(机密)、L3(加密)、L5(绝密)D. L1(互联网)、L2(局域网)、L3(保密网)、L4(专网)、L5(绝密网)
答案:A详细解析:为了有效地管理敏感数据,通常把数据密级划分为5个等级,分别是 L1(公开)、L2(保密)、L3(机密)、L4(绝密)和 L5(私密)。教材页码:第255页、第258页
题目6:在数据存储形式中,针对需要处理大量非结构化数据(如电子邮件、视频、照片、网页等),开发人员一般倾向于使用哪种存储架构?
A. 文件存储B. 块存储C. 对象存储D. 关系型存储
答案:C详细解析:对象存储通常称为基于对象的存储,是一种用于处理大量非结构化数据的数据存储架构。这些数据无法轻易组织到关系数据库中,如电邮、视频、传感器数据等。教材页码:第237页
题目7:在数据备份策略中,每次所备份的数据只是相对于“上一次完全备份”之后发生变化的数据,这种备份属于________。
A. 完全备份B. 差分备份C. 增量备份D. 容灾备份
答案:B详细解析:差分备份的定义是每次所备份的数据只是相对“上一次完全备份”之后发生变化的数据。增量备份则是相对于“上一次备份”(不区分全量或增量)后改变的数据。教材页码:第240页
题目8:在Web Services的三大要素中,________是一种基于XML格式的关于Web服务的描述语言,主要目的在于将服务的所有相关内容(如传输方式、方法接口等)生成文档发布给使用者。
A. SOAPB. UDDIC. HTTPD. WSDL
答案:D详细解析:WSDL(Web Services Description Language) 是基于XML的描述语言,用于生成描述服务细节的文档;SOAP是消息传递的协议;UDDI是集中存放和查找WSDL描述文件的注册服务规范。教材页码:第250页
题目9:在数据建模中,不依赖于具体的计算机系统,把现实世界中的客观对象抽象为某一种信息结构,包含实体、属性、域、键、关联等基本元素的模型是________。
A. 概念模型B. 逻辑模型C. 物理模型D. 关系模型
答案:A详细解析:概念模型也称为信息模型,按用户观点建模,不依赖于具体DBMS。它的基本元素包括实体、属性、域、键、关联。关系模型属于逻辑模型。教材页码:第244页
题目10:当要分析的数据缺乏描述信息,或者无法组织成任何分类模型时,可以采用________。它按照相近程度,将数据分成一系列有意义的子集。
A. 数据总结B. 关联分析C. 聚类分析D. 孤立点分析
答案:C详细解析:聚类分析是在要分析的数据缺乏描述信息时使用的方法,按照相近程度度量,将数据分成性质相近的子集。分类分析则通常预先有一个分类函数或模型。教材页码:第252页
💡 备考小贴士
第6章是数据工程的核心章节,建议重点关注:
- 数据存储形式:文件存储、块存储、对象存储的适用场景(特别是对象存储用于非结构化数据)
- 备份策略:完全备份、差分备份、增量备份的区别(恢复速度、资源占用、可靠性)
- 容灾指标:RPO(数据丢失量)和RTO(恢复时间)
- 数据模型三阶段:概念模型(实体、属性、关联)、逻辑模型(关系模型)、物理模型(表、索引)
- Web Services三要素:WSDL(描述)、SOAP(消息)、UDDI(注册)
- 数据挖掘任务:聚类分析(无分类模型时使用)vs 分类分析(有分类模型时使用)
- 数据密级:L1公开、L2保密、L3机密、L4绝密、L5私密
把这些核心考点记牢,3-5分轻松到手,案例分析也能从容应对!