专栏名称: 架构师

架构师云集，三高架构（高可用、高性能、高稳定）、大数据、机器学习、Java架构、系统架构、大规模分布式架构、人工智能等的架构讨论交流，以及结合互联网技术的架构调整，大规模架构实战分享。欢迎有想法、乐于分享的架构师交流学习。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

高稳定监控架构落地实践

架构师 · 公众号 · 架构 · 2024-09-12 22:28

主要观点总结

文章介绍了架构师在2021年底B站基于Prometheus+Thanos方案完成统一监控平台落地后，随着业务增长，面临监控指标数据量级爆炸式增长的问题，导致现有系统稳定性差、查询体验差、云上监控数据质量差。为了解决这些问题，设计并实现了监控2.0架构，采用采集存储分离、存算分离、时序数据库选型、单元化容灾等策略，解决了现有监控系统的痛点，并介绍了监控2.0架构的落地挑战、整体架构、功能架构概览、数据来源、数据采集、数据存储、数据查询、数据可视化、云监控方案以及未来规划等关键点。

关键观点总结

关键观点1: 现有监控系统的痛点

稳定性差、查询体验差、云上监控数据质量差

关键观点2: 监控2.0架构的设计思路

采集存储分离、存算分离、时序数据库选型、单元化容灾

关键观点3: 监控2.0架构的落地挑战

监控系统自身稳定性、数据可用性、查询性能、故障爆炸半径

关键观点4: 整体架构和功能架构概览

数据源、数据采集、数据存储、数据查询、数据可视化

关键观点5: 云监控方案

云上数据回源到idc存储集群、vm-auth组件的使用

关键观点6: 未来规划

支持更长时间Metrics指标数据存储、支持更细粒度的指标埋点、自监控能力增强、指标平台迭代

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博