关于

先后就职两家公司: 广州汇量信息科技有限公司(2017-2020), 海尔智家(2020-至今)

数据平台研发岗，主要从事数据平台侧能力建设与引擎侧功能建设优化，为平台开发用户提供简易的数据开发能力与高效的数据计算速度。

负责大数据平台从0到1的基础组件服务与稳定性建设；支撑公司数仓业务，DMP, 特征工程，算法任务，总计线上线下9套集群计算任务

建设数据平台PASS服务, 完成基于云资源的数据平台能力建设, 取代 AWS EMR 实现降本增效;

功能包括： 集群一键化部署，服务组件配置管理 , 服务监控, 弹性伸缩;

主要工作内容为 :

成果方面 : 极大节省了公司成本简化集群运维能力,每月节省费用在20万$;

存储侧能力建设

为数据中台引入 Apache Paimon 能力，用来解决用户upsert,实时入湖等相关场景。

主要工作内容 :

成果方面: 当前数据中台内部已经有20%表由原先的orc/parquet切换为 paimon表，涉及到的业务计算性能提升 30% 左右。

目前正在陆续推广到其他业务域

计算侧能力建设

主要负责基于 Spark的离线计算能力建设优化，给到用户稳定高效的数据离线ETL能力。

优势方面主要有 : 高效执行速度，自动适配计算资源， 故障自动修复， 风险预感知。

主要工作内容有：

成果方面：每天计算任务包含5套集群， 8w+ 计算任务, 成功率为 99.98%(失败任务主要是用户开发SQL语法错误), 相比于社区版本性能提升30%以上。

背景 : 目前国内主要在海尔内部统一数据中台上进行开发维护自己的数据，但是海外的数据管理比较零散:

目标 :

主要工作内容有：

设计基于 azure-databricks/ aws 对接平台的整套技术方案，包括元信息管理(表管理，创建，删除，数据预览，数据血缘等)，作业管理(数据入湖，离线计算，实时计算，及时查询，数据出湖，数据下载)，计算资源管理(队列资源管理)等相关能力接入。
azure-databricks涉及到的算力底座能力方面主要有: 数据底座(abfs), 元信息(databricks-catalog), 数据入湖(adf/datax), 湖内计算(databricks+flink-yarn),数据分析(databricks), 数据展示(PowerBI), 计算资源(databricks),权限管理(平台已有),数据治理(平台已有)
emr涉及到的算力底座能力方便主要有: 数据底座(s3), 元信息(glue-catalog), 数据入湖(datax/appflow), 湖内计算(spark国内自研版+flink), 数据分析(redshift),数据展示(PowerBI),计算资源(emr),权限管理(平台已有),数据治理(平台已有)

成果方面：东南亚方面已完全接入平台统一管理，欧洲方面正在建设推进

热门标签