50 lines
1.9 KiB
Markdown
50 lines
1.9 KiB
Markdown
# Agent 功能补全清单(建议)
|
||
|
||
> 目的:明确当前 agent 与“生产级设备管理”之间的差距,作为后续迭代清单。
|
||
|
||
## 1. 可观测性与性能监控
|
||
- 资源监控:CPU/内存/磁盘/IO/网络吞吐
|
||
- 进程监控:media-server 进程存活、重启次数、退出码、启动耗时
|
||
- 业务监控:关键 pipeline 延迟、丢帧率、处理速率(FPS)、队列长度
|
||
- 指标导出:/v1/metrics(Prometheus 格式)或 JSON 指标接口
|
||
|
||
## 2. 版本与资产管理
|
||
- 设备侧版本查询:agent 版本、media-server 版本、插件版本、模型版本
|
||
- 二进制/模型清单:已安装版本、sha256、时间戳、来源
|
||
- 版本对比与漂移检测
|
||
|
||
## 3. 升级与回滚机制(更强一致性)
|
||
- 任务化升级:支持上传、校验、切换、验证、回滚的状态机
|
||
- 升级进度反馈:/v1/tasks/{id} 轮询或 SSE/WebSocket
|
||
- 多组件升级编排:agent、media-server、插件、模型
|
||
|
||
## 4. 安全与权限
|
||
- Token 轮换与过期策略
|
||
- 读/写权限分级(至少读、写、运维三类)
|
||
- 操作审计:谁在什么时候做了什么(操作、结果、摘要)
|
||
|
||
## 5. 配置管理增强
|
||
- 配置版本历史与差异对比
|
||
- 配置发布审批/锁定(避免并发写冲突)
|
||
- 配置回滚到指定版本(不仅“上一次成功”)
|
||
|
||
## 6. 稳定性与自愈
|
||
- 崩溃自愈策略:退避重启、异常阈值熔断
|
||
- 看门狗与健康检查:/v1/healthz、/v1/readyz
|
||
|
||
## 7. 设备运维能力
|
||
- 日志归档与拉取(按时间范围/级别)
|
||
- 远程诊断:关键配置/环境/依赖状态采集
|
||
- 时间同步状态(NTP/RTC)
|
||
|
||
## 8. 规模化管理支持
|
||
- 设备分组/标签
|
||
- 批量操作与幂等指令
|
||
- 统一任务队列与重试策略
|
||
|
||
## 9. 最小优先级建议(MVP+)
|
||
1. 性能与进程监控指标接口
|
||
2. 版本查询与资产清单
|
||
3. 升级任务状态与回滚
|
||
4. 操作审计
|