背景:
昨天写了一篇关于系统监控异常告警2.0版本,他是基于你的SpringBoot项目开启了CG相关的配置。但是,有两种情况还需要考虑。
- 那我没有开启相关配置怎么办?
- 虽开启了配置,服务没有触发GC,但nacos的健康实例数少了,总实例数也少了,怎么办?
- 如果我想通过nacos服务,每次都登录上去看吗,这不扯嘛。。
思路:
- 既然登录nacos能看,那我能调用它的api吧。
2. 能调用api,那返回json结果就有我需要的信息。
3. 那就解析json报文,获取我们想要的信息。
4. 设置告警阈值(服务数少的,总实例数,监控实例数不一致的)。
5. 日志记录必不可少,邮件通知必不可少。
开干:
1、前置工作
为什么不使用java写?可以但不推荐,为了监控nacos,我再安装个JDK,配置下,定制服务修改了,改源码,打包编译上传,浪费时间。
有侵入吗?Linux脚本,无侵入,仅修改nacos配置,任意服务器均可用(网络得通啊)。
安全吗?对,这点很重要,毕竟有敏感信息啊,脚本调试可用后,可通过
shc -v -r -f ss.sh进行加密处理,如果没用过,没事看我的啊,shc源码安装
2、安装jq
服务器需要安装jq工具来解析 JSON,这是常用的工具,如果安装过,可忽略。
安装命令 (CentOS/RHEL): sudo yum install jq 安装命令 (Ubuntu/Debian): sudo apt-get install jq 安装命令 (Mac): brew install jq3、编写脚本
checkout_nacos_health.sh
#!/bin/bash # ================= 配置区域 ================= # Nacos 地址 NACOS_HOST="10.71.180.155" NACOS_PORT="8520" # 登录 Nacos 的账号密码(?本次不用,直接用ACCESS_TOKEN) NACOS_USER="nacos" NACOS_PASSWORD="********" # 要监控的命名空间 ID NAMESPACE_ID="prd" # 日志文件配置 LOG_DIR="/home/mdm/logs" # 日志存放目录 LOG_FILE="${LOG_DIR}/nacos_check.log" # 日志文件路径 # 邮件配置(多人空格分开) RECIPIENTS="*****@qq.com" SENDER_NAME="Nacos监控机器人" # ================= 脚本逻辑 ================= # 0. 初始化日志目录 if [ ! -d "$LOG_DIR" ]; then mkdir -p "$LOG_DIR" fi # 定义一个日志输出函数,同时输出到屏幕和日志文件 # 使用追加模式 >> 写入日志 function log() { local msg="[$(date '+%Y-%m-%d %H:%M:%S')] $1" echo "$msg" echo "$msg" >> "$LOG_FILE" } log "==========================================" log "开始 Nacos 服务健康检查" log "命名空间: ${NAMESPACE_ID}" log "==========================================" # 1. 获取 Access Token log "[1/3] 正在获取 Access Token..." #TOKEN_RESP=$(curl -s -X POST "http://${NACOS_HOST}:${NACOS_PORT}/nacos/v1/auth/login" -d "username=${NACOS_USER}&password=${NACOS_PASSWORD}") #ACCESS_TOKEN=$(echo $TOKEN_RESP | jq -r '.accessToken') ACCESS_TOKEN="eyJhbGciOiJIUzM4NCJ9.eyJzdWIiOiJuYWNvcyIsImV4cCI6MTc2ODU0MTc0N30.RFO80FEn0GoSSf5b_7URzqa2mWGHl5qToslviSSmCZeFMAJFIsZWJjTm1-Rn57Q8" if [ "$ACCESS_TOKEN" == "null" ] || [ -z "$ACCESS_TOKEN" ]; then log "错误: 无法获取 Access Token。响应: $TOKEN_RESP" exit 1 fi log "Token 获取成功: ${ACCESS_TOKEN:0:10}..." # 2. 循环获取所有服务列表 log "[2/3] 正在获取服务列表并分析..." PAGE_NO=1 PAGE_SIZE=100 UNHEALTHY_SERVICES="" HAS_ERROR=0 while true; do API_URL="http://${NACOS_HOST}:${NACOS_PORT}/nacos/v1/ns/catalog/services?accessToken=${ACCESS_TOKEN}&hasIpCount=true&withInstances=false&pageNo=${PAGE_NO}&pageSize=${PAGE_SIZE}&serviceNameParam=&groupNameParam=&namespaceId=${NAMESPACE_ID}" JSON_RESP=$(curl -s -X GET "$API_URL") SERVICE_LIST=$(echo "$JSON_RESP" | jq -c '.serviceList[]') # 如果当前页没有数据,跳出循环 if [ -z "$SERVICE_LIST" ]; then break fi # 遍历当前页服务 while IFS= read -r service; do NAME=$(echo "$service" | jq -r '.name') GROUP=$(echo "$service" | jq -r '.groupName') IP_COUNT=$(echo "$service" | jq -r '.ipCount') HEALTHY_COUNT=$(echo "$service" | jq -r '.healthyInstanceCount') IP_COUNT=${IP_COUNT:-0} HEALTHY_COUNT=${HEALTHY_COUNT:-0} # 判断逻辑 # 提取字段 NAME=$(echo "$service" | jq -r '.name') GROUP=$(echo "$service" | jq -r '.groupName') IP_COUNT=$(echo "$service" | jq -r '.ipCount') HEALTHY_COUNT=$(echo "$service" | jq -r '.healthyInstanceCount') IP_COUNT=${IP_COUNT:-0} HEALTHY_COUNT=${HEALTHY_COUNT:-0} # 初始化异常原因变量 ERROR_REASON="" # 1. 状态一致性检查:只要健康数 < 总数,肯定有问题 if [ "$HEALTHY_COUNT" -lt "$IP_COUNT" ]; then ERROR_REASON="存在宕机/不健康实例 (总数:${IP_COUNT} > 健康:${HEALTHY_COUNT})" fi # 2. 通用数量阈值检查:除了 sw-tenant,健康数不能少于 6 # 注意:这里加了 [ "$NAME" != "sw-tenant" ] 避免重复判定 if [ "$NAME" != "sunway-tenant" ] && [ "$HEALTHY_COUNT" -lt 6 ]; then ERROR_REASON="${ERROR_REASON} 健康实例数过少 (< 6)" fi # 3. 特定服务检查:如果是 sw-tenant,健康数不能少于 2 if [ "$NAME" == "sw-tenant" ] && [ "$HEALTHY_COUNT" -lt 2 ]; then ERROR_REASON="${ERROR_REASON} sw-tenant 健康数过低 (< 2)" fi # --- 判断是否需要告警 --- # 如果 ERROR_REASON 不为空,说明触发了上述任意条件 if [ -n "$ERROR_REASON" ]; then ERR_MSG="[异常] 服务: ${GROUP} :: ${NAME} | 总实例: ${IP_COUNT} | 健康实例: ${HEALTHY_COUNT} | 原因: ${ERROR_REASON}" log "$ERR_MSG" # 构造邮件内容 (修正了原脚本中可能存在的特殊字符 > 问题) UNHEALTHY_SERVICES="${UNHEALTHY_SERVICES}服务组: ${GROUP}\n服务名: ${NAME}\n总实例数: ${IP_COUNT}\n健康实例数: ${HEALTHY_COUNT}\n异常原因: ${ERROR_REASON}\n----------------------------------------\n" HAS_ERROR=1 fi done <<< "$SERVICE_LIST" # 判断翻页 COUNT=$(echo "$JSON_RESP" | jq '.count') if [ $((PAGE_NO * PAGE_SIZE)) -ge $COUNT ]; then break fi PAGE_NO=$((PAGE_NO + 1)) done # 3. 发送邮件与结束 log "[3/3] 检查完成。" if [ $HAS_ERROR -eq 1 ]; then log "发现异常服务,正在发送告警邮件..." SUBJECT="[Nacos 告警] 命名空间 ${NAMESPACE_ID} 中检测到服务实例异常" CONTENT="检测时间: $(date '+%Y-%m-%d %H:%M:%S')\n\n以下服务存在不健康实例,请及时处理:\n\n${UNHEALTHY_SERVICES}\n详情请登录 Nacos 控制台查看。" # 发送邮件 (这里假设系统 mail 命令可用) #echo -e "$CONTENT" | mail -s "$SUBJECT" -a "From: ${SENDER_NAME}" "$RECIPIENTS" echo -e "$CONTENT" | from="${SENDER_NAME}" mail -s "$SUBJECT" "$RECIPIENTS" if [ $? -eq 0 ]; then log "邮件发送成功。" else log "邮件发送失败。" fi else log "所有服务状态正常,无需发送邮件。" fi log "=========================================="注意:这块需要根据服务进行调整
3、设置定时任务,略
4、查看执行结果
5、查看邮件告警
其他:
该脚本的可塑性较高,灵活配置,根据实际需要进行改造即可。
也可结合系统监控异常告警2.0版本,进行改造优化,实现整体监控,这里就不多说了,大家自己整吧。