面向数据工程师的 MS SQL 到 Databricks Spark ETL 实战课程

面向数据工程师的 MS SQL 到 Databricks Spark ETL 实战课程

OpenShift 4.19 Bare Metal Deployment Guide: Build Your Clust
2025 年 12 月
视频格式:MP4 
英语 
大小:5 GB 
时长:18 小时
学习整合 MS SQL 与 Databricks、Spark,设计可靠的 ETL 工作流,为现代数据分析准备高质量数据。
你将学到的技能
理解 Databricks 的工作原理及其成为现代数据工程领先平台的核心优势
搭建、导航和管理 Databricks 工作区与用户界面
熟练操作 Databricks 笔记本、文件及计算集群
运用高效快捷键和核心笔记本命令提升开发效率
掌握 Databricks 中的文件与笔记本管理方法
学习数据湖仓(Lakehouse)架构及 “青铜 - 白银 - 黄金”(Bronze–Silver–Gold)数据设计模式
精通 Delta Lake 基础,包括 ACID 事务与 Delta 日志操作
使用 Unity Catalog 实现数据集中治理、权限管控与组织管理
创建并管理目录、模式(Schema)、表及存储卷(Volumes)
基于 Apache Spark 构建 ETL 管道,并应用于真实数据集
探索并转换 Olist 数据集(从原始青铜层到洁净白银层)
检测重复数据、缺失值、 schema 问题,并执行数据质量校验
清洗和增强客户、卖家、产品、订单、订单项、支付及评论数据
对白银层中的地理定位表和参考表进行去重与验证
执行黄金层报表所需的分析型转换
开展客户分布、卖家指标及产品类别分析
构建统一的黄金层订单分析模型及高质量分析型关联查询
从零开始系统学习 MS SQL Server 核心知识点(含实例演示)
借助 SSMS(SQL Server Management Studio)掌握 SQL 基础
使用 SQL 命令过滤、排序并处理来自不同数据源的字符串、日期及数值数据
理解用户权限、权限管理命令及角色配置
学习创建、修改和删除数据库表
课程要求
仅需你本人、一台电脑,以及成为数据工程师的热情!
无需 Databricks、Spark 或数据湖仓(Lakehouse)相关经验
愿意使用 Databricks 与 Apache Spark 构建端到端完整管道
对现代云平台及大规模 ETL 工作流抱有好奇心
关注数据工程领域及真实业务场景下的数据管道构建
具备 Python 基础(掌握函数、循环、变量等核心概念即可)
稳定的网络连接(用于访问 Databricks 平台)
可正常运行的电脑(支持 Windows、Mac 或 Linux 系统)
课程介绍
欢迎加入《面向数据工程师的 MS SQL 到 Databricks Spark ETL 实战课程》!
学习整合 MS SQL 与 Databricks、Spark,设计可靠的 ETL 工作流,为现代数据分析准备高质量数据。
MS SQL Server 是全球应用最广泛的关系型数据库系统之一,提供强大的数据存储、查询优化及企业级分析能力。通过 T-SQL,你可以编写复杂查询、管理关系型数据结构,并为下游 ETL 工作负载准备数据。
Databricks 是基于 Apache Spark 构建的统一分析与数据工程平台,专为大规模数据处理、ETL 工作流及协作式开发设计,支持高效的数据转换、Delta Lake 存储,并通过 Unity Catalog 提供企业级数据治理能力。
本课程将通过图表解析、实操案例及真实 ETL 管道开发,带你全面掌握使用 MS SQL、Databricks 和 Apache Spark 进行数据工程的核心技能。
课程适用于所有技能水平的学习者,将从基础概念逐步过渡到高级数据工程技术,通过实操演示、清晰讲解和趣味项目,帮助你精通现代 ETL 工作流的核心组件。
通过本课程,你将能够充分利用 MS SQL 和 Databricks 构建可靠、可用于生产环境的数据管道,掌握数据清洗、提取、转换、验证与优化的关键技能,同时学会解决真实 ETL 场景中的核心问题 —— 为你在数据工程领域打造强大的竞争优势。
准备好使用 MS SQL 和 Databricks 构建高性能 ETL 管道了吗?本课程将是你的理想起点!
核心学习内容
1. ETL 管道架构(MS SQL & Databricks)
理解现代 ETL 工作流的运行机制
学习基于 SQL 的数据预处理、Databricks 笔记本逻辑及 Spark 作业执行流程
2. 数据工程必备 MS SQL 基础
精通 SQL 查询、关联查询、子查询、视图、存储过程、触发器、约束、索引及性能调优
3. Databricks 工作区与笔记本
掌握 Databricks 界面导航、数据库管理、协作式笔记本使用及集群配置方法
4. Apache Spark 基础
理解 Spark DataFrame、惰性求值、转换操作、动作操作、分布式处理及优化执行方式
5. Delta Lake 与现代存储概念
学习 Delta Lake 核心特性:ACID 事务、Delta 日志、Schema 演进、更新插入(Upserts)及时间旅行(Time Travel)
6. Unity Catalog 与数据治理
实操体验安全数据管理、目录、模式、表、权限控制及数据血缘追踪
7. 数据清洗与转换(青铜层 → 白银层 → 黄金层)
基于真实数据集掌握 “勋章架构”(Medallion Architecture)
执行去重、缺失值处理、标准化、验证及数据增强操作
8. SQL + Spark 数据处理
结合 MS SQL 预处理与 Spark 转换,实现大规模数据集的可扩展 ETL
9. 性能优化(SQL & Spark)
学习 SQL 索引、查询调优、执行计划分析
掌握 Spark 分区、缓存、广播关联及优化最佳实践
10. ETL 工作流部署
理解作业调度、Databricks Jobs、集群策略及自动化技术
课程结束后,你将能够:
自信地使用 MS SQL 和 Databricks 构建稳健、可扩展的 ETL 管道
完全具备应对真实数据工程项目的能力
核心概念解析
Databricks:基于 Apache Spark 的云原生统一环境,专为大规模数据处理、ETL 及分析设计,提供协作式笔记本、可扩展计算、Delta Lake 存储及强大的治理工具。
MS SQL Server:关系型数据库管理系统(RDBMS),用于存储结构化数据、编写复杂查询、优化性能,并支持企业级分析与 ETL 工作流。
Apache Spark:分布式数据处理引擎,专为快速、可扩展的 ETL、分析、流处理及机器学习工作负载设计,Databricks 为其提供了优化执行能力与企业级特性增强。
为什么选择本课程?
答案很简单:顶尖的教学质量OAK Academy 总部位于伦敦,是一家专注于 IT、软件、设计与开发领域的在线教育机构。我们在 Udemy 平台提供土耳其语、英语、葡萄牙语等多语言教学内容,累计视频课程时长超 2000 小时。报名后,你将直接体验 OAK Academy 资深开发者的专业教学。
视频与音频制作质量
所有内容均以高质量音视频呈现,为你提供最佳学习体验:
画面清晰,细节可见
音质纯净,无杂音干扰
课程节奏流畅,专注学习无分心
额外福利
课程终身访问权限
Q&A 专区快速友好的支持服务
可下载的 Udemy 结业证书
全程答疑支持,解决你的所有疑问
现在就加入《面向数据工程师的 MS SQL 到 Databricks Spark ETL 实战课程》,学习整合 MS SQL 与 Databricks、Spark,设计可靠的 ETL 工作流,为现代数据分析准备高质量数据!
适用人群
希望通过真实端到端 Databricks 工作流学习数据工程的学习者
渴望获得 Spark、Unity Catalog 及 Databricks 生态系统行业实战经验的准数据工程师
希望通过实际数据工程项目强化 Python 和 SQL 技能的学习者
对真实企业中大规模数据系统运作原理感兴趣的人群
寻求基于数据湖仓(Lakehouse)和 “青铜 - 白银 - 黄金” 架构构建 ETL 管道的实操指南的学习者
关注 Databricks、Apache Spark 或现代数据平台的学生、分析师或职场人士
希望通过真实端到端 Databricks 工作流学习数据工程的学习者
登录后免费查看全文
立即登录
App下载
技术邻APP
工程师必备
  • 项目客服
  • 培训客服
  • 平台客服

TOP