Обязанности:
Ключевые задачи: Руководить командой инженеров SRE; Анализировать потенциальные инциденты и не допускать их возникновения, расследовать корневые причины, планировать работы по недопущению; Реактивно реагировать на критические инциденты и аварии, вносить исправления в режиме реального времени; Считать стоимость инцидентов, аварий, ТД; Обеспечивать бесперебойную работу ИТ-сервисов; Внедрять SRE-практики на уровне компании; Проводить мероприятия по повышению доступности и непрерывности ИТ-сервисов; Прорабатывать, предъявлять и контролировать соблюдение требований к надежности ИТ-сервисов на всех этапах производственного цикла ИТ-сервисов; Обеспечивать и повышать observability ИТ-сервисов; Проектировать, конфигурировать, развивать мониторинг, алертинг, агрегацию метрик; Автоматизировать процессы и рутинные задачи. Что мы ждем: Опыт руководства командами SRE; Хорошие знания и практический опыт внедрения SRE – практик; Экспертные знания технологического стека: Kafka, Jenkins, Github, KeyCloak, Minio, Redis, Gradle, Kubernates, helm, Nginx, Docker, Dotnet3, Maven, Mono; Знание Java, Python, bash, Angular, Node.js, PHP; Знание процессов разработки ИТ-сервисов, построения CI/CD; Опыт администрирования Linux; Опыт администрирования PostgreSQL, MongoDB; Понимание и опыт внедрения observability; Опыт администрирования ELK, Grafana, Zabbix, Prometheus; Опыт построения кластеризованных, отказоустойчивых распределённых систем; Опыт разработки и контроля метрик SLA/SLI/SLO; Желателен опыт работы с Сamunda.Договорная
Москва
Негосударственный пенсионный фонд ГАЗФОНД пенсионные накопления