关于
个人简介
概况 8年工作经验 男 2017年09月01日—至今已婚教育 聊城大学 本科 物理学专业 邮箱 782112163@qq.com地址 山东-青岛
简述
先后就职两家公司: 广州汇量信息科技有限公司(2017-2020), 海尔智家(2020-至今)
数据平台研发岗,主要从事数据平台侧能力建设与引擎侧功能建设优化,为平台开发用户提供简易的数据开发能力与高效的数据计算速度。
能力方面
- 底层工具语言(java/scala/python/c/c++),算法,网络,系统等相对扎实。
- 有过数据平台建设,运维,升级,迁移等经验,对于数据平台把握相对成熟。
- 熟悉阿里云,华为云,Azure, AWS 等相关云厂商,并做过混合云的数据平台建设。
- 对数据湖方面较为熟悉,熟悉并深入优化过Paimon/Hudi等湖产品,并应用到平台能力中。
- 对计算引擎方面较为熟悉,深入优化过Spark源码,对内存管理,计划树优化, RSS, Gluten, Velox等较为熟悉 。
- 参与 Apache 社区代码贡献,
Apache Hudi/Paimon/Doriscontributer - 了解常见的机器学习/深度学习相关算法
项目经验
数据平台建设(汇量信息科技)
负责大数据平台从0到1的基础组件服务与稳定性建设; 支撑公司数仓业务,DMP, 特征工程,算法任务,总计线上线下9套集群计算任务
建设数据平台PASS服务, 完成基于云资源的数据平台能力建设, 取代 AWS EMR 实现降本增效;
功能包括 : 集群一键化部署,服务组件配置管理 , 服务监控, 弹性伸缩;
主要工作内容为 :
- 深入优化数据平台相关组件性能,包括
HDFS,YARN,Hive,Spark; - 开发基于SpringBoot的集群管理部署平台,方便用户基于平台一键部署管理集群;
- 深入研究与优化Ambari服务,将Ambari与集群管理平台相结合,在AWS ECS上实现自动化部署,运维,与弹性伸缩功能;
- 优化集群监控相关接口, 完善监控告警能力;
成果方面 : 极大节省了公司成本简化集群运维能力,每月节省费用在20万$;
数据中台能力建设(Haier)
存储侧能力建设
为数据中台引入 Apache Paimon 能力, 用来解决用户upsert,实时入湖等相关场景。
主要工作内容 :
- 封装数据湖底层接口,解决数据湖与计算引擎的适配,让用户无需感知底层差异。
- 解决暴露的一些 Bug, 并优化相关功能,诸如部分列更新能力增强, paimon-parquet读取性能提升等相关功能优化
- 提升用户使用体验: 诸如屏蔽多catalog(统一表管理),自动compaction, 小文件自优化等。
成果方面: 当前数据中台内部已经有20%表由原先的orc/parquet切换为 paimon表, 涉及到的业务计算性能提升 30% 左右。
目前正在陆续推广到其他业务域
计算侧能力建设
主要负责基于 Spark的离线计算能力建设优化,给到用户稳定高效的数据离线ETL能力。
优势方面主要有 : 高效执行速度,自动适配计算资源, 故障自动修复, 风险预感知。
主要工作内容有 :
- 离线计算引擎能力建设,拉通用户SQL解析,计算,状态监控,结果分析全流程。
- RBO功能优化 : 主要涉及对Spark内核优化,增加危险SQL拦截,小文件优化,运行时动态广播,复用计算逻辑, shuffle-sort增强等相关功能。
- HBO优化引擎 : 通过脚本历史运行指标,自动优化该脚本的并行实例数,内存大小,shuffle并行度,写出文件数等。目的是提高计算能力,减少资源消耗
- 补偿优化引擎 : 当用户脚本执行发生错误时,通过补偿优化引擎自动分析错误发生原因,对于非用户逻辑导致的错误,自动修复并重试,用户无感知
成果方面 : 每天计算任务包含5套集群, 8w+ 计算任务, 成功率为 99.98%(失败任务主要是用户开发SQL语法错误), 相比于社区版本性能提升30%以上。
海外数据中心建设(Haier)
背景 : 目前国内主要在海尔内部统一数据中台上进行开发维护自己的数据, 但是海外的数据管理比较零散:
- 东南亚区域主要是使用以
azure-databricks为代表的数据处理服务 - 欧洲区域主要是使用以
aws-glue为代表的数据处理服务。
目标 :
- 国内数据平台新增海外数据开发底座支持,利用国内沉淀的数据中台能力赋能海外业务
- 海外数据开发用户上平台, 平台统一纳管海外数据,任务,治理等相关能力
主要工作内容有:
- 设计基于 azure-databricks/ aws 对接平台的整套技术方案,包括
元信息管理(表管理,创建,删除,数据预览, 数据血缘等),作业管理(数据入湖,离线计算,实时计算,及时查询,数据出湖,数据下载),计算资源管理(队列资源管理)等相关能力接入。 - azure-databricks涉及到的算力底座能力方面主要有:
数据底座(abfs),元信息(databricks-catalog),数据入湖(adf/datax),湖内计算(databricks+flink-yarn),数据分析(databricks),数据展示(PowerBI),计算资源(databricks),权限管理(平台已有),数据治理(平台已有) - emr涉及到的算力底座能力方便主要有:
数据底座(s3),元信息(glue-catalog),数据入湖(datax/appflow),湖内计算(spark国内自研版+flink),数据分析(redshift),数据展示(PowerBI),计算资源(emr),权限管理(平台已有),数据治理(平台已有)
成果方面 :东南亚方面已完全接入平台统一管理, 欧洲方面正在建设推进