Loading... ## Node Exporter ``` ### 系统 ### # 主机信息 node_uname_info # 主机运行时间(天) sum(time() - node_boot_time_seconds) by (instance) / 86400 # 系统平均负载(1分钟) node_load1 # 系统平均负载(5分钟) node_load5 # 系统平均负载(15分钟) node_load15 # 总文件描述符 node_filefd_maximum # 最大打开文件 process_max_fds # 运行态的进程 node_procs_running # 等待IO完成阻塞的进程 node_procs_blocked # 每秒上下文切换频率 irate(node_context_switches_total[$interval]) # 系统分配的文件描述符数量 node_filefd_allocated # 系统可以分配的最大文件描述符数量 node_filefd_maximum # 系统文件描述符的使用百分比 (node_filefd_allocated/node_filefd_maximum) *100 # 进程当前打开的文件描述符数量 process_open_fds # 进程可以打开的最大文件描述符数量 process_max_fds # 进程文件描述符的使用百分比 (process_open_fds/process_max_fds) *100 ### CPU ### # 核心数量 count(node_cpu_seconds_total{mode='system'}) by (instance) # CPU使用率(system) avg(irate(node_cpu_seconds_total{mode="system"}[$interval])) by (instance) * 100 # CPU使用率(user) avg(irate(node_cpu_seconds_total{mode="user"}[$interval])) by (instance) * 100 # CPU iowait avg(irate(node_cpu_seconds_total{mode="iowait"}[$interval])) by (instance) * 100 # 总CPU使用率 100 - (avg(irate(node_cpu_seconds_total{mode="idle"}[$interval])) * 100) ### 内存 ### # 总内存 node_memory_MemTotal_bytes # 可用内存 node_memory_MemAvailable_bytes # 已用内存 node_memory_MemTotal_bytes - node_memory_MemAvailable_bytes # 总交换空间 node_memory_SwapTotal_bytes # 可用交换空间 node_memory_SwapFree_bytes # 已用交换空间 node_memory_SwapFree_bytes - node_memory_SwapFree_bytes # 内存使用率(%) (1 - (node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes)) * 100 # 交换空间使用率(%) (1 - (node_memory_SwapFree_bytes / node_memory_SwapTotal_bytes)) * 100 ### 文件系统 ### # 总空间 node_filesystem_size_bytes{fstype=~"ext.*|xfs|nfs",mountpoint !~".*(pod|docker).*"}-0 # 剩余空间 node_filesystem_avail_bytes {fstype=~"ext.*|xfs|nfs",mountpoint !~".*(pod|docker).*"}-0 # 空间使用率 (node_filesystem_size_bytes{fstype=~"ext.*|xfs|nfs",mountpoint !~".*(pod|docker).*"}-node_filesystem_free_bytes{fstype=~"ext.*|xfs|nfs",mountpoint!~".*(pod|docker).*"}) *100/(node_filesystem_avail_bytes{fstype=~"ext.*|xfs|nfs",mountpoint !~".*(pod|docker).*"}+(node_filesystem_size_bytes{fstype=~"ext.*|xfs|nfs",mountpoint!~".*(pod|docker).*"}-node_filesystem_free_bytes{fstype=~"ext.*|xfs|nfs",mountpoint !~".*(pod|docker).*"})) # inode 使用率 (1 - node_filesystem_files_free{fstype=~"ext.?|xfs|nfs",mountpoint!~".*(pod|docker).*"} / node_filesystem_files{fstype=~"ext.?|xfs|nfs",mountpoint!~".*(pod|docker).*"}) * 100 ### 硬盘 ### # 累计磁盘读操作耗时 node_disk_read_time_seconds_total # 磁盘读取速率(IOPS) node_disk_reads_completed_total # 平均磁盘读操作耗时 irate(node_disk_read_time_seconds_total[$interval]) / irate(node_disk_reads_completed_total[$interval]) # 每秒磁盘读取容量 irate(node_disk_read_bytes_total[$interval]) # 累计磁盘写操作耗时 node_disk_write_time_seconds_total # 磁盘写入速率(IOPS) node_disk_writes_completed_total # 平均磁盘写操作耗时 irate(node_disk_write_time_seconds_total[$interval]) / irate(node_disk_writes_completed_total[$interval]) # 每秒磁盘写入容量 irate(node_disk_written_bytes_total[$interval]) # 每秒I/O操作耗时占比 irate(node_disk_io_time_seconds_total[$interval]) ### 网络 ### # 当前已建立的TCP连接 node_netstat_Tcp_CurrEstab # TCP TIME_WAIT状态的连接数(等待关闭的TCP连接数) node_sockstat_TCP_tw # 已使用的总套接字数(反映系统当前的网络活动量) node_sockstat_sockets_used # 正在使用的UDP套接字数(反映系统的UDP通信量。高值表明系统在处理大量的无连接数据包) node_sockstat_UDP_inuse # 分配的TCP套接字数(反映系统为TCP连接分配的资源数量,用于评估TCP连接的负载情况) node_sockstat_TCP_alloc # 被动打开的TCP连接数(远程主机发起的连接请求) irate(node_netstat_Tcp_PassiveOpens[$interval]) # 主动打开的TCP连接数(本地主机发起的连接请求) irate(node_netstat_Tcp_ActiveOpens[$interval]) # 接收到的TCP报文数(评估网络流量的接收情况) irate(node_netstat_Tcp_InSegs[$interval]) # 发送的TCP报文数(评估网络流量的发送情况) irate(node_netstat_Tcp_OutSegs[$interval]) # 重传的TCP报文数(高值表明网络质量较差,存在较高的丢包率) irate(node_netstat_Tcp_RetransSegs[$interval]) # 间隔内每TCP监听队列中丢弃的连接数(高值表明系统无法处理所有的连接请求) irate(node_netstat_TcpExt_ListenDrops[$interval]) # 下载带宽(byte *8 = bit) irate(node_network_receive_bytes_total{instance=~"$instance",device=~"$device"}[$interval])*8 # 上传带宽(byte *8 = bit) irate(node_network_transmit_bytes_total{instance=~"$instance",device=~"$device"}[$interval])*8 ``` ## Blackbox Exporter ``` # 连通性 probe_success - 0 # HTTP状态码 probe_http_status_code - 0 # 证书过期的时间(时间戳) probe_ssl_earliest_cert_expiry # 距离证书过期的时间(s/3600/24=d) (probe_ssl_earliest_cert_expiry-time())/3600/24 # HTTP版本 probe_http_version - 0 # 连接耗时 probe_duration_seconds - 0 # 1小时可用率 sum_over_time(probe_success[60m])/count_over_time(probe_success[60m]) # TLS版本 probe_tls_version_info # DNS查询时间 probe_dns_lookup_time_seconds-0 # 重定向次数 probe_http_redirects-0 ``` ## Domain Exporter ``` # 域名过期的时间 domain_expiry_days # 域名查询状态 domain_probe_success ``` ## cAdvisor ``` # 10秒Ago容器CPU的平均负载 container_cpu_load_average_10s # 容器在每个CPU内核上的累积占用时间 container_cpu_usage_seconds_total # 容器在系统任务上的CPU累积占用时间 container_cpu_system_seconds_total # 容器在用户任务上的CPU累积占用时间 container_cpu_user_seconds_total # 容器当前的内存使用量 container_memory_usage_bytes # 容器的最大内存使用量 container_memory_max_usage_bytes # 容器的内存使用量限制 container_spec_memory_limit_bytes # 容器的swap使用量限制 container_spec_memory_swap_limit_bytes # 容器中文件系统的使用量 container_fs_usage_bytes # 容器可以使用的文件系统总量 container_fs_limit_bytes # 容器累积读取数据的总量 container_fs_reads_bytes_total # 容器累积写入数据的总量 container_fs_writes_bytes_total # 容器网络累积接收数据总量 container_network_receive_bytes_total # 容器网络累积发送数据总量 container_network_transmit_bytes_total # 容器启动时间 container_start_time_seconds # 容器上次探测到的时间 container_last_seen # 宿主机的CPU核心 machine_cpu_cores # 宿主机的内存总量 machine_memory_bytes # 宿主机的swap总量 machine_swap_bytes ``` 最后修改:2024 年 07 月 11 日 © 允许规范转载 赞 如果觉得我的文章对你有用,请随意赞赏