主要观点总结
文章介绍了架构师在2021年底B站基于Prometheus+Thanos方案完成统一监控平台落地后,随着业务增长,面临监控指标数据量级爆炸式增长的问题,导致现有系统稳定性差、查询体验差、云上监控数据质量差。为了解决这些问题,设计并实现了监控2.0架构,采用采集存储分离、存算分离、时序数据库选型、单元化容灾等策略,解决了现有监控系统的痛点,并介绍了监控2.0架构的落地挑战、整体架构、功能架构概览、数据来源、数据采集、数据存储、数据查询、数据可视化、云监控方案以及未来规划等关键点。
关键观点总结
关键观点1: 现有监控系统的痛点
稳定性差、查询体验差、云上监控数据质量差
关键观点2: 监控2.0架构的设计思路
采集存储分离、存算分离、时序数据库选型、单元化容灾
关键观点3: 监控2.0架构的落地挑战
监控系统自身稳定性、数据可用性、查询性能、故障爆炸半径
关键观点4: 整体架构和功能架构概览
数据源、数据采集、数据存储、数据查询、数据可视化
关键观点5: 云监控方案
云上数据回源到idc存储集群、vm-auth组件的使用
关键观点6: 未来规划
支持更长时间Metrics指标数据存储、支持更细粒度的指标埋点、自监控能力增强、指标平台迭代
免责声明
免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。
原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过
【版权申诉通道】联系我们处理。