谢海林老师深耕互联网大厂开发和运维22年,拥有10万+服务器大型互联网系统运维以及运维平台体系化建设的落地实战经验,聚焦AI与DevOps、智能运维(AIOps)、云原生架构的深度融合,擅长从技术研发到团队管理的全链条落地,为企业构建智能化、自动化、高可靠的技术运营体系,助力传统运维向“人机协同”模式转型,实现效率跃升与成本优化。
——任职【腾讯】期间——
【01】打造腾讯首个具备一键跨城容灾切换能力的金融级平台
——牵头建设“磐石高可用运维平台”,整合监控、日志、故障定位等12大核心平台,管理30000+服务器,日均处理百亿级数据,实现10分钟故障处理、无损灰度发布、常态化跨城容灾演习,系统可用性达99.99%。
【02】搭建腾讯金融新一代提升开发效率的开发者平台
——担任总架构师,统筹建设devops云原生一体化开发者平台,打通30+技术系统,推动1000+开发者团队向云原生转型,实现研发自助发布率>90%,版本交付周期从30天压缩至9天,组织效率提升40%。
【03】构建金融级统一配置管理中枢
——主导“腾讯金融统一配置中心”项目,解决业务路由与变量配置的复杂性难题,首次实现金融业务配置的集中化管控,设计“极致容灾+全网agent管控+灰度兼容”三大核心能力,消除本地配置依赖,大幅提升配置变更的安全和效率,成为腾讯金融业务系统最终依赖的平台和标准。
【04】打造腾讯首个TEG数平—秒级智能监控中枢
——主导“TEG数平秒级监控平台”建设,构建每日处理100亿+海量日志与监控数据的实时分析体系,提出“面积算法”“斜率杠杆”等创新型监控算法,保障主要业务系统、推荐系统、数据系统的稳定运行,实现业务系统稳定性的“秒级感知-分钟级响应”。
——任职【虾皮】期间——
【01】构建电商行业领先的智能化SRE运维体系
——主导业务SRE相关工具和系统建设,服务深圳100+SRE团队的资源管理、故障定位、大促保障等核心场景,提出“三颗树”“管理模型”及“握手点・最小资源模型”协作方法论,落地资源管理、需求交付、标准发布、故障定位处理四大核心系统,实现工单需求标准工具自动率>40%,故障定位准确性>90%,运维责任故障下降70%。
【02】建设支撑电商大促的AI数据可视化分析系统平台
——为双11、双12等大促场景定制AI数据可视化分析系统,借助Spark等工具对海量交易数据进行实时处理,搭建5秒粒度的实时数据统计,成为公司实时观测大屏。实现对交易流量、订单转化率等关键指标的实时监测,提前预警服务器负载风险,减少并降低了大促系统稳定性90%的风险,同时为大促期间的业务决策提供精准依据。
【03】搭建公司内部统一工单系统
——通过“工作台”和“工单SLA环节交互可视化”的方法,成功上线需求提交、工单分发、交付进度实时追踪以及反馈评价四大关键模块,同时对接后端工具自动化交付系统,实现工单需求提交的合规率超80%,工单平均处理时长缩短60%,部门间因沟通不畅导致的工单退回率降低50%,工单自动化率>40%,大幅提升工作协作效率和内部客户满意度。