# Agent 功能补全清单(建议) > 目的:明确当前 agent 与“生产级设备管理”之间的差距,作为后续迭代清单。 ## 1. 可观测性与性能监控 - 资源监控:CPU/内存/磁盘/IO/网络吞吐 - 进程监控:media-server 进程存活、重启次数、退出码、启动耗时 - 业务监控:关键 pipeline 延迟、丢帧率、处理速率(FPS)、队列长度 - 指标导出:/v1/metrics(Prometheus 格式)或 JSON 指标接口 ## 2. 版本与资产管理 - 设备侧版本查询:agent 版本、media-server 版本、插件版本、模型版本 - 二进制/模型清单:已安装版本、sha256、时间戳、来源 - 版本对比与漂移检测 ## 3. 升级与回滚机制(更强一致性) - 任务化升级:支持上传、校验、切换、验证、回滚的状态机 - 升级进度反馈:/v1/tasks/{id} 轮询或 SSE/WebSocket - 多组件升级编排:agent、media-server、插件、模型 ## 4. 安全与权限 - Token 轮换与过期策略 - 读/写权限分级(至少读、写、运维三类) - 操作审计:谁在什么时候做了什么(操作、结果、摘要) ## 5. 配置管理增强 - 配置版本历史与差异对比 - 配置发布审批/锁定(避免并发写冲突) - 配置回滚到指定版本(不仅“上一次成功”) ## 6. 稳定性与自愈 - 崩溃自愈策略:退避重启、异常阈值熔断 - 看门狗与健康检查:/v1/healthz、/v1/readyz ## 7. 设备运维能力 - 日志归档与拉取(按时间范围/级别) - 远程诊断:关键配置/环境/依赖状态采集 - 时间同步状态(NTP/RTC) ## 8. 规模化管理支持 - 设备分组/标签 - 批量操作与幂等指令 - 统一任务队列与重试策略 ## 9. 最小优先级建议(MVP+) 1. 性能与进程监控指标接口 2. 版本查询与资产清单 3. 升级任务状态与回滚 4. 操作审计