10年研发经验(3年后端 + 7年大数据),具备从0到1数据架构建设及存量链路重构升级的实战经验,支撑内容推荐、用户画像、搜索、版权保护、金融等复杂业务场景,保障PB级数据规模的稳定高效运行。
1.数据架构:具备实时与离线数据链路建设及数据仓库建模经验,擅长成本与资源治理。
2.湖仓一体:具备数据湖与流批一体架构的生产落地经验,熟悉湖仓链路优化与稳定性保障。
3.云平台经验:深度参与多家云厂商大数据平台基准测试与生产级压测,有平台选型与迁移经验。
4.开源贡献:Apache Hudi 源码贡献者,优化 Flink 聚类策略 PR #14087(已合并)。
1.大数据计算与存储引擎
计算框架:Flink、Spark;资源与存储:HDFS、Yarn;查询分析引擎:Hive、Trino/Presto、Doris、ClickHouse;湖仓一体:Paimon、Hudi、Iceberg;元数据/加速:Kyuubi、Kylin。
2.数据集成与同步工具
CDC与实时同步:Flink CDC、Canal、Maxwell;批量/离线同步:DataX、Sqoop。
3.大数据平台与AI平台
工作流调度:DolphinScheduler、Azkaban;Flink管理平台:Dinky、StreamPark;可视化:Superset;云大数据平台:WeData(腾讯云)、DataWorks(阿里云)、华为云;AI应用平台:Dify。
4.后端开发框架与中间件
开发语言:Java、Python;微服务框架:Spring Boot、Spring Cloud;服务治理与配置:Nacos、ZooKeeper、Eureka;可观测性:SkyWalking;容器化:Docker、K8S;消息中间件:Kafka、RocketMQ;缓存:Redis、Pika。
- 简介:湖仓一体数据平台建设,统一实时与离线数据链路。
- 规模:日增量TB级/百亿级记录/作业1000+。
- 成果:提升写入效率与资源利用率,降低存储与计算成本,查询稳定性提升,作业失败率下降,完成开源社区贡献,增强团队技术影响力。
- 职责:
{/timeline-item}
{timeline-item color="#ed4014"}
数据仓库体系建设与治理
- 简介:建设实时与离线链路数据模型体系,完成从“分散建表”到“模型治理”的架构升级。
- 规模:日增量TB级/百亿级记录/作业1000+。
- 职责:
{/timeline-item}
{timeline-item color="#19bebe"}
用户画像
- 简介:构建 PB 级用户行为数据处理与画像体系,基于点击与曝光行为挖掘兴趣偏好,输出多维兴趣向量,支撑实时推荐特征生成与精细化运营。
- 成果:推荐点击率提升,用户阅读时长增长,用户对推荐内容关注度增强,整体粘性提升,构建稳定可扩展的画像计算框架。
- 职责:
{/timeline-item}
{timeline-item color="#7a29cc"}
新闻媒体版权保护
{/timeline-item}
{timeline-item color="#297acc"}
作业调度平台
{/timeline-item}
{timeline-item color="#29cc7a"}
分布式音视频转码系统
{/timeline-item}
{timeline-item color="#19bebe"}
花漾搜索
{/timeline-item}
{timeline-item color="#14c1ed"}
中国好故事
{/timeline-item}
{timeline-item color="#edac14"}
融媒体系统
{/timeline-item}
{timeline-item color="#ed1455"}
企业金融资产管理
{/timeline-item}
评论