腾讯十年运维的包袱与创新(2)
时间:2018-04-17 20:20 来源:网络整理 作者:墨客科技 点击:次
而咱们聚焦在监控上,在这么长的运维建设中我个人感触比较深的一点是:作为运维负责人,各种规模大一点的故障的复盘回顾中都会涉及监控的问题,很多案例中会同时出现2种现象: 反馈监控不全,需要补齐; 监控告警太多,人关注不到 这种现象出现的比率非常高,相当地矛盾。补齐告警容易,20多套系统总有一款能补齐告警,把告警发给所有相关的人也容易,这很粗暴,但真正能让告警被有效的关注和处理的却很困难。 如果我们目前做不到无人化的运维,那么必须让人能发挥作用,运维人员有一个合理的承受能力阀值,比如每天最多50条告警。那么为了达到这个目标,创新的方法必不可少。 比如在这次ArchSummit深圳站分享的《腾讯监控创新术》会提到的: ROOT:基于业务架构的链路关联算法; DLP:业务核心生死指标; 大数据:通过机器有监督学习的方式来优化告警; 全链路:利用海量数据关系来拓展纬度。 代号ROOT的项目即我们的数据链路计算选路,属于织云产品的一个监控功能,2014年在业界分享过,获得很多同行和厂商的关注。原理不复杂,仍然是通过既定的模型方式来关联各类告警,比较创新的地方包括引入业务架构计算链路再降维展现,告警叠加后引入面积算法来计算优先级。 做创新就像在没有路的山上行走,一定会踩坑。除了信心决心也要为踩坑做好准备,团队需要积累一定的技术深度来解决问题,用开放的心态去学习和接受新事物。 比如ROOT最开始的存储结构很复杂,没有现成的框架,直接制约了我们的想法无法落地,直到偶然的机会学习到腾讯业务产品线有相似存储场景的实现。 再比如在做全链路监控时,设计阶段对数据按号段存储还是by UIN存储有过争议,可惜的是当时没有坚持,最终导致中期性能瓶颈已经影响产品,需要做动筋骨的调整。 培养新时代的“召唤兽” 说到智能运维可以单独有一次长时间的分享,因为十年来腾讯SNG运营部更多的是围绕着织云自动化/智能化运营体系在建设,这儿的创新和各类经验教训一言难尽。特别有一些有趣的创新和建设成果,即时对目前百花齐放的运维思路来讲,依然有很强烈的借鉴参考意义。 运维界的各类理念百花齐放已经比较多,我个人认为是现成流派的一个过程,未来随着流派的形成,各派的“招数”将逐渐形成,华山峨眉不分好坏,而分是否适合各自的企业。未来运维从业人员需要在各自的流派中深入建设,将各自的招数修炼到极致,运维界才能欣欣向荣。 但有一点,从2010年开始我个人比较坚持,那就是“会的越多包袱越大”,2009年网上有张流行的图画出了运维应该具备的各项技能(比如要会写批量脚本,要会做系统内核调优,要懂数据库SQL,要会很多Linux命令等等),而我当时对团队讲的是那张图上的90%的技能都是包袱,因为人很容易陷入通过自己已经熟悉和掌握的技术来解决问题的思考方式。 更好的方式或许是不断地分析分解我们要达到的目标是什么,为了达到这个目标我们应该借鉴哪些新思想,学习掌握什么技能,如果要超越目标,又需要做哪些布局和应用哪些新技术,甚至引入新领域人才。 近年来一些新的东西比如Hadoop、ELK、Docker、AI等被大量引入运维领域并应用起来,带来了最近的运维界春天,而作为运维从业者勇敢的放弃过去的包袱,才能拥抱新技术并创新的去扩展和应用。时代的演进,运维界已经不能“打怪靠一招”了,是时候培养属于自己的“召唤兽”了。 InfoQ:感谢聂鑫老师接受我们的采访,期待聂鑫老师在ArchSummit全球架构师峰会分享的《腾讯监控创新术》,该专题下也邀请了小米云平台工程师陈帅分享《小米监控实践之路》,点击“阅读原文”获取更多分享内容。 ArchSummit将在7月7-8日在深圳华侨城洲际酒店举办,目前限时8折报名优惠,如果在报名的过程中遇到任何问题,都可以联络我们的售票天使豆包,QQ:2332883546,电话:18515221946,微信:497788321,欢迎骚扰~ 感谢丁晓昀对本文的审校。 给InfoQ中文站投稿或者参与内容翻译工作,请邮件至[email protected]。也欢迎大家通过新浪微博(@InfoQ,@丁晓昀),微信(微信号:InfoQChina)关注我们。
评价本文
专业度 风格
相关主题:
相关内容
相关厂商内容 (责任编辑:admin) |