1.9 KiB
1.9 KiB
Agent 功能补全清单(建议)
目的:明确当前 agent 与“生产级设备管理”之间的差距,作为后续迭代清单。
1. 可观测性与性能监控
- 资源监控:CPU/内存/磁盘/IO/网络吞吐
- 进程监控:media-server 进程存活、重启次数、退出码、启动耗时
- 业务监控:关键 pipeline 延迟、丢帧率、处理速率(FPS)、队列长度
- 指标导出:/v1/metrics(Prometheus 格式)或 JSON 指标接口
2. 版本与资产管理
- 设备侧版本查询:agent 版本、media-server 版本、插件版本、模型版本
- 二进制/模型清单:已安装版本、sha256、时间戳、来源
- 版本对比与漂移检测
3. 升级与回滚机制(更强一致性)
- 任务化升级:支持上传、校验、切换、验证、回滚的状态机
- 升级进度反馈:/v1/tasks/{id} 轮询或 SSE/WebSocket
- 多组件升级编排:agent、media-server、插件、模型
4. 安全与权限
- Token 轮换与过期策略
- 读/写权限分级(至少读、写、运维三类)
- 操作审计:谁在什么时候做了什么(操作、结果、摘要)
5. 配置管理增强
- 配置版本历史与差异对比
- 配置发布审批/锁定(避免并发写冲突)
- 配置回滚到指定版本(不仅“上一次成功”)
6. 稳定性与自愈
- 崩溃自愈策略:退避重启、异常阈值熔断
- 看门狗与健康检查:/v1/healthz、/v1/readyz
7. 设备运维能力
- 日志归档与拉取(按时间范围/级别)
- 远程诊断:关键配置/环境/依赖状态采集
- 时间同步状态(NTP/RTC)
8. 规模化管理支持
- 设备分组/标签
- 批量操作与幂等指令
- 统一任务队列与重试策略
9. 最小优先级建议(MVP+)
- 性能与进程监控指标接口
- 版本查询与资产清单
- 升级任务状态与回滚
- 操作审计