Site Reliability Engineers - специалисты по надежности работы систем. Обычно опытные разработчики и админы, которые способны сами поднять нужные инструменты или написать их с нуля. Дают объективные метрики о качестве наших решений и проектируют инфру вокруг них для обеспечения целевых показателей.
Обязанности
- Поддержка и отстройка системы мониторинга
- Обеспечение бесперебойной работы инфраструктуры компании
- Дежурства и реагирование на инциденты
- Автоматизация настройки и развертывания систем
- Автоматизация восстановления систем (где это возможно)
- Определение SLI и обеспечение SLO
- Принуждение к политикам релизного цикла
- Работа с разработкой по улучшению observability проектируемых систем
Что мы ждем от кандидата?
- Опыт коммерческой разработки или опыт администрирования крупных распределенных систем
- Опыт работы с системами мониторинга на основе метрик (prometheus, telegraf, etc.), рисования полезных дашбордов
- Provisioning/IaaC (ansible, terraform, etc.)
- Опыт траблшутинга/тьюнинга linux-based систем. То же самое на уровне железа - огромный плюс
- Хорошие навыки коммуникации
- Аналитический склад ума
- Ненависть к беспорядку и багам
Бонусы
- Мы аккредитованы
- Можно работать на полной удаленке
- Компенсируем аренду жилья в Иннополисе после года работы
- ДМС
- Покупаем недостающее оборудование по запросу
- Дружелюбная и слаженная команда специалистов
- Отсутствие микроменеджмента и атмосфера доверия
- Минимум бесполезных встреч и совещаний
- Гибкий график
- Свобода принимать решения и ответственность за их последствия
- Гарантированное место за столом в Вальгалле после испытательного срока