代码编织梦想

随着网络的快速发展,各大运营商们由于业务的多样性部署了数以万计的IT设备,其设备类别、厂家、型号繁杂,仅仅靠现场运维团队人工巡检不仅不能满足业务需求,还加重了人工成本,因此需要一套成熟的面向大型数据中心的IT监控系统来支撑日常运维工作。

一、什么是IT运维监控

通常我们将IT设备分类为:主机、数通、存储、系统、数据库,中间件等,此外还包括虚拟化、云化以及物联网的的一些设备,而IT运维监控是指一种通过技术手段收集IT设备的指标来保证系统以及业务正常运行的管理软件。

二、IT运维监控分类

1、基于监控指标的描述对象可分为硬件级监控和系统级监控:

(1)硬件级监控:主要采集设备的一些固件信息(厂商、大小、序列号等)以及工作状态指标(温度、转速、电压、在位状态等)。

(2)系统级监控:主要采集操作系统、中间件、应用的一些运行信息(CPU、内存、磁盘利用率等)。

2、基于监控指标的采集方式可分为带外指标监控和带内指标监控:

(1)带外指标监控:通过专门的硬件管理接口,采集带外监控指标。

(2)带内指标监控:通过在监控对象部署插件或者网络协议来采集带内监控指标。

三、常用监控技术

1、带外采集

(1)IPMI监控

独立在操作系统之外运行的一套管理系统,依赖于特殊的硬件模块,即使业务操作系统未加载或宕机,依然可以工作。由于IPMI协议制定相对简单,各个厂商在标准上扩展了很多实用的功能,但是扩展的功能缺少统一标准,采集命令和解析规则大多不通用,增加了监控方的采集难度。

常用的一些命令包括:ipmitool…fru、ipmitool…sdr、ipmcget、show等。此外还可以通过SSH协议登录到IPMI管理操作系统中执行采集指令。

(2)RedFish

由于IPMI较差的扩展性和本身存在的安全隐患,IPMI也在2015年公布2.0 v1.1标准后,不再更新,被RedFish永久代替,Intel也宣布不再维护。RedFish是一种基于HTTPs服务的管理标准。具有安全、高可扩展管理(Scalable)、人类可读数据界面(Human readable data)、基于现有硬件可实现等特性。

2、带内采集

(1)Agent监控

Agent监控是通过在被监控对象上部署一套插件来监控系统各项指标。Agent可自主完成指标采集和简单分析后再将结果传送给server端,降低了服务端的数据处理工作量和性能要求。主要用于对虚拟机和数据库的采集。由server代理采集中心的任务分发与节点控制,通过分布式架构,实现便捷的横向扩展采集能力。

(2)SNMP协议

SNMP协议主要是针对网络设备的一种采集技术,跟IPMI一样,各个厂商型号的设备对于MIB库的支持和扩展都有较大差别,不同指标的定义也会提升监控的难度。

(3)SSH /Telnet协议

通过SSH /Telnet协议连接到被监控设备,再执行采集命令或运行脚本并传输运行结果到监控端实现监控,这种方式灵活度较大,但存在一定的操作安全隐患。

四、总结

IT运维监控技术有效缓解了IT系统数量多、系统复杂度高等问题,大大提高了运维工作人员的工作效率。未来,IT运维监控技术势必会与AI技术相融合,借助AI技术实现运维智能化、高效化和高质量发展。

云计算的弹性和自动化运维浅析-爱代码爱编程

这些年,云计算从概念逐步发展到大势,又从大势逐步落地。这个“落地”的过程,又被公有云、私有云、混合云等等概念演绎得五花八门。      不过归根结底,云计算的理念还是“让用户像用水用电那样使用计算资源,按需获取,按量计费”——以服务的方式提供计算资源——因为用户的计算需求是弹性的,因此真正弹性的云计算,才会帮助用户最大限度地降低计算资源的总体拥有和使用

全链路监控:浅析方案概述与比较_天府云创的博客-爱代码爱编程_大数据全链路监控

微服务架构现在越来越流行了,并且随着业务系统的不断变大臃肿,系统的拆分变得不可或缺,但随着系统逐渐服务化后,迎来的问题就变得多种多样了,本篇主要讲的就是当服务拆分后,如何对我们的系统进行全链路的监控,及时找到问题和瓶颈。         谷歌的公开论文大规模分布式系统的跟踪系统Dapper,讲了一个分布式跟踪系统的实现流程,这个对我们之后的使用和学习非常有

浅析网络运维管理的质变-爱代码爱编程

未来网络运维趋势   未来的网络发展趋势可以用三个多样化来概括,一是网络设备的多样化,二是网络组网方式的多样化,三是网络应用的多样化;再加上网络发展与信息化建设的紧密结合,这使得未来的网络运维工作面临着新的挑战。在未来的网络运维中,网络运维部门或者机构应该主动地去适应这种发展趋势,除了苦练内功、提高维护效率之外,更重要

浅析虚拟化技术之esxi网络管理-爱代码爱编程

教程目标: 了解虚拟化的概念。 会管理虚拟化平台网络 内容: 重点提示 1、 什么是虚拟化? 2、 虚拟化的优势 3、 什么是esxi? 4、 vsphre基础物理结构 5、esxi网络概述 6、exsi网络组件 7、虚拟交换机是什么? 8、使用标准交换机和分布式交换机建立网络 理论讲解: 1、 什么是虚拟化? 虚拟化就是把硬件资源从物理方

IT运维工作到底是做什么的?-爱代码爱编程

公众号回复:干货,领取价值58元/套IT管理体系文档 公众号回复:ITIL教材,领取最新ITIL4中文教材 正文 文章来源丨数据中心运维管理 互联网运维工作,以服务为中心,以稳定、安全、高效为三个基本点,确保公司的互联网业务能够 7×24 小时为用户提供高质量的服务。 运维人员对公司互联网业务所依赖的基础设施、基础服务、线上业务进行稳定

探讨如何在银行建立运维体系-爱代码爱编程

公众号回复:干货,领取价值58元/套IT管理体系文档 公众号回复:ITIL教材,领取最新ITIL4中文教材 正文 金融行业是现代经济发展的重要组成部分,以银行为主的金融机构在确保货币交易以及商品贸易顺利进行,促进经济的快速发展,维护社会的稳定等方面有着至关重要的作用。尤其是在信息时代的大背景下,传统金融行业已经逐渐转变成了知识密集型产业,在

【粉丝福利】免费赠票 - 专享 Gdevops 全球敏捷运维峰会-爱代码爱编程

2021 Gdevops全球敏捷运维峰会 - 广州站,将在5月28日盛大举办。Gdevops经过创办6年成功举行近20场大会的经验积淀,本次峰会结合行业趋势与技术热点,精选出最能破解当下运维、数据库、金融科技领域核心痛难点的干货议题,不容错过的精彩看点本文带大家先睹为快! 主会场看点 金融数据治理以及DataOps 讲师介绍:PMP,数

IT运维管理、ITSM和传统网络管理的区别-爱代码爱编程

公众号回复:干货,领取价值58元/套IT管理体系文档 公众号回复:ITIL教材,领取最新ITIL4中文教材 正文 IT运维管理和传统的网络管理到底有什么区别呢? 我们通过对实际案例来分析,看IT运维管理和传统的网络管理具体有哪些区别。 某客户网络规模庞大,有200台左右网络设备,50台左右服务器,还有几台安全设备,存储设备,在此这些基础

运维系统常用健康度模型浅析-爱代码爱编程

0. 监控系统目的:为了避免业务系统不可用导致关键业务的运营受到影响,减少业务系统停机时间,提升业务系统可用性,最终提高用户的满意度。 为此,运维人员需要做到: 1. 通过对可能影响业务系统可用性的因素进行持续监控; 2. 在故障发生的第一时间通知相关人员; 3. 通过工具定位故障根因,运维及开发人员在最短时间内解决故障; 1. 为什么要有健康度:

智能运维落地与实践 | 微众银行_酒酿小圆子~的博客-爱代码爱编程

智能运维系列(一)| AIOps 的崛起与实践:https://www.infoq.cn/article/fqUfkjhecOla1zKUKycN智能运维系列(二)| 智能化监控领域探索:https://www.infoq.cn/article/Qta6VCyjvHdoiJg5wKze智能运维系列(三)| 浅析智能异常检测:“慧识图”核心算法:https:

浅析云计算数据中心动力环境监控系统-爱代码爱编程

1、动力环境监控系统概述 数据中心是云计算的主要载体,其中动力环境监控系统是数据中心保障通信设备正常、稳定运行的重要基础设施,动力环境监控系统失效,可能会造成数据灾难事故。 1)系统概述 机房动力环境监控系统是运用计算机、现代通信、智能测控等先进技术,利用先进的通信网络对 分布于本区域或者远程区域的机房和工作区进行实时监控,通过图像监控、故障告警、紧

浅析电力监控在新型数据中心的设计和应用-爱代码爱编程

1、电力监控系统结构设计 新型电力监控系统采用传统的工业自动化与IT技术相结合方式,以标准化、集成化、智能化、国际化、组件化设计理念,支持数据中心各个智能设备的集成监控。其中系统将采用分层、分布、以太网结构,由站控层、 间隔层及网络设备组成,双网均能同时进线数据通信,能实现网络无缝切换,确保监控系统的高可靠性。 站控层采用双以太网冗余结构,根据需要可设

it业务运维可观测技术的发展浅析_可观测性技术的发展-爱代码爱编程

什么是可观测性(Observability) 可观测性指如何从外部输出推断及衡量系统内部状态,描述的就是“观测-判断-优化-再观测”这个闭环的连续性、高效性。当下,应用架构从单体系统逐步转变为微服务,其中的业务逻辑随之变成