1. 日常维护总体要求与频率
1) 每日:检查主服务进程、连接数、磁盘使用率与错误日志,至少一次早晚巡检。
2) 每周:执行全量备份验证、证书检查、系统补丁回顾和第三方服务连通性测试。
3) 每月:升级内核与重要中间件,复测回滚方案与灾备切换演练一次。
4) 每季度:评估带宽与硬件资源是否满足并发峰值,按需扩容或更换实例。
5) 每次变更前:必须在测试环境(与生产同配置)做回归,记录变更单并获取审批。
2. 备份策略与数据完整性校验
1) 多点备份:使用本地快照 + 异地冷备(越南机房与香港或新加坡机房)保证恢复灵活。
2) 备份频率:游戏配置与数据库每日增量备份,业务文件每6小时同步,关键数据做小时级快照。
3) 备份保存:最近7天的每日备份、最近4周的周备份、最近6个月的月备份。
4) 校验机制:备份后自动执行还原校验(抽样),并记录校验日志与校验时间。
5) 恢复演练:每月做一次冷备恢复演练,统计RTO与RPO指标并记录优化点。
3. 监控指标与告警策略
1) 关键监控项:CPU、内存、磁盘IO、网络带宽/丢包、连接数、进程状态、游戏逻辑错误日志。
2) 阈值设定:CPU > 80% 连续5分钟报警,带宽使用超过峰值80%报警,连接数接近并发上限时提前通知。
3) 延迟与丢包:对外延迟目标 < 80ms(中国大陆至越南),丢包 > 1% 触发网络排查。
4) 多通道告警:钉钉/Slack + 邮件 + SMS,告警必须包含影响范围、可能原因与初步处置步骤。
5) 自动化恢复:配置基础服务的自动重启策略(systemd)、并结合健康检查做流量切换。
4. CDN 与域名解析优化
1) CDN 分层:静态资源走全球/地区 CDN,登录与游戏逻辑走回源或智能加速线路。
2) DNS 策略:使用支持地理路由与最短延迟解析的 DNS 提供商,TTL 根据业务临界性设置(登录 60s,静态 300s)。
3) 缓存策略:对可缓存接口设置合理 Cache-Control,减少对越南源站的压力。
4) 切换流程:在源站异常时通过 DNS 且结合健康检查实现自动或人工切换到备用机房。
5) 流量统计:实时监控 CDN 命中率,目标命中率 > 90%,低于阈值需排查回源原因。
5. DDoS 防护与网络异常应对
1) 多层防护:接入机房自带的基础清洗 + 云端WAF/CDN/抗DDoS服务做联合防御。
2) 防护阈值:设置清洗门限,例如 SYN/UDP 报文超过 1Mpps 或流量 > 10Gbps 时触发上游清洗。
3) BGP Anycast:重要节点使用 BGP Anycast 分散流量,并与上游提供商签署清洗 SLA。
4) 黑白名单:对已知恶意 IP 快速加入黑名单,对合作渠道与监控器加入白名单减少误杀。
5) 日志留存:保留网络层与清洗日志 30 天,用于攻击溯源与法律取证。
6. 临时宕机应对流程(Runbook)
1) 发现与确认:告警触发后 1 分钟内值班工程师确认故障类型(网络/进程/资源/攻击)。
2) 初步隔离:若为单节点进程异常,立即重启进程并回滚最近变更;若为网络攻击,立即切换到清洗链路或启用 CDN 强制清洗。
3) 通知与分工:30 分钟内通知产品/客服/法务,制定外宣口径;指定一名技术负责人和一名联络人。
4) 恢复步骤:优先恢复游戏匹配与登录服务,依次恢复场景服并观察30分钟稳定性后逐步放量。
5) 事后复盘:记录故障时间线、根因分析、影响范围、缺陷与改进项,并在72小时内完成复盘报告。
7. 真实案例与服务器配置示例
1) 案例摘要:2024-03 某剑网3工作室在越南机房遭遇 UDP 放大攻击,峰值流量约 120 Gbps,导致登录服短时不可用。
2) 处置过程:启用上游清洗(3 分钟内),切换静态资源到 CDN,重启受影响进程并扩大游戏服实例(30 分钟内主服务恢复)。
3) 成果:总体停服时间 42 分钟,经过清洗与扩容后并发连接恢复到攻击前 95%。
4) 改进措施:引入更低 TTL 的 DNS 健康检查,增加 BGP Anycast 节点,并将清洗门限下调。
5) 服务器配置示例(越南节点)如下表所示:
| 用途 | CPU | 内存 | 磁盘 | 带宽/流量 |
| 登录/网关 | 8 vCPU (Xeon) | 16 GB | 200 GB NVMe | 1 Gbps 报表 4 TB/月 |
| 场景/游戏服 | 16 vCPU | 32 GB | 400 GB NVMe | 1 Gbps / 弹性扩容 |
| 数据库(主) | 12 vCPU | 64 GB | 1 TB NVMe RAID | 1 Gbps 专线 |
来源:越南服务器剑网3日常维护注意事项与临时宕机应对流程