В рамках Huemen Design я проектировал внутреннюю платформу мониторинга коммуникационной инфраструктуры для Polycom — Polycom Aqua. Системой пользовались SRE и инженеры инфраструктуры для диагностики видеоконференц-сервисов в реальном времени.
Главная задача интерфейса: за секунды понять — регион работает штатно или движется к отказу. В большинстве инструментов мониторинга важные сигналы разбросаны по разным экранам, и инженеру приходится вручную сопоставлять загрузку, потерю пакетов и сбои сессий. Это замедляет расследование инцидентов и заставляет пропускать ранние признаки деградации.
Основные пользователи — SRE и инженеры инфраструктуры, поддерживающие медиа-системы реального времени. Их работа критична по времени и завязана на сигналы. Во время инцидента им нужно оценить состояние региона, увидеть ранние признаки деградации и решить, откуда начинать расследование.
Логика отбора: показывать не максимум метрик, а минимальный набор индикаторов, вскрывающих ранние признаки деградации. Сигналы делятся на три категории.