Спокойного SLA. Как превратить договор об уровне обслужив...

Какие метрики фиксировать и откуда их брать? Как отслеживать выполнение условий SLA? И причём здесь бизнес-цели компании-клиента? На эти и другие вопросы о договоре SLA отвечает сооснователь и директор по развитию arcsinus Павел Голуб.

— Что такое SLA? В каких случаях заключают договор этого типа?

SLA (Service Level Agreement) — это договор об уровне обслуживания, который формализует обязательства поставщика перед клиентом. Это «правила игры», где мы, как провайдер услуг, фиксируем, какие услуги предоставляем, качество этих услуг в конкретных метриках и санкции за нарушение условий — чаще всего, компенсации.

Главная цель SLA — обеспечить прозрачность и предсказуемость. Клиент точно знает, на что рассчитывать, а мы, как провайдер, имеем чёткие KPI для оценки своей работы.

SLA заключают когда начинают сотрудничество по модели аутсорсинга IT-услуг, с провайдерами облачных сервисов, технической поддержки, а также на старте любых долгосрочных проектов. Когда сотрудничество рассчитано на годы — SLA снижает риски обеих сторон.

Договор SLA — не просто формальность, а инструмент для построения долгосрочных партнёрских отношений. Когда все условия «на столе», и клиент, и провайдер могут сосредоточиться на результате, а не выяснять, кто виноват в инциденте.

— Есть ли какие-то типы/виды договора SLA?

Да, SLA могут быть разными — их структура и фокус зависят от специфики услуг, масштаба проекта и требований клиента. Основные типы SLA, с которыми мы чаще всего работаем:

1. Service-based SLA (Стандартизированный SLA) — универсальное соглашение для всех клиентов, использующих один и тот же сервис. Как правило, годится для массовых услуг, где не требуется индивидуальная настройка.

2. Customer-based SLA (Индивидуальный SLA) — договор, заточенный под конкретного клиента. Учитывает его уникальные потребности и бизнес-процессы и помогает, когда у клиента есть специфические требования, которые не покрыть стандартным договором.

3. Multi-level SLA (Многоуровневый SLA) — соглашение, где условия разделены на уровни (например: корпоративный, сервисный, пользовательский). Составляют для сложных проектов, где нужно учесть и глобальные KPI компании, и точечные задачи.

Это может выглядеть примерно так:

Корпоративный уровень — общие обязательства перед компанией-клиентом типа ежемесячных отчётов.
Сервисный уровень — параметры работы конкретного сервиса, например, доступность CRM-системы.
Пользовательский уровень — гарантии для отдельных сотрудников клиента. Например, время ответа техподдержки для пользователей.

4. Internal SLA (Внутренний SLA) — соглашение между отделами внутри компании-провайдера. Это документ не для клиентов, а для синхронизации работы команд — он нужен, чтобы обеспечить слаженность процессов, которые влияют на выполнение внешних SLA. Как пример, по такому договору отдел разработки обязуется передавать обновления отделу поддержки за 3 дня до релиза, чтобы подготовить клиентов.

5. Partner SLA (Партнёрский SLA) — соглашение между компаниями, которые совместно предоставляют услуги клиенту. Бизнес нередко делегирует разные работы разным аутсорсерам. При этом поставить забор между ними нельзя — они находятся в условиях взаимных зависимостей и обязательств. Партнёрский SLA помогает избежать конфликтов и «белых пятен» в зонах ответственности.

Не стоит натягивать один шаблон на проекты. Для стартапа подойдёт service-based SLA, а для корпорации — многоуровневое. Чем сложнее услуга, тем детальнее нужно прописывать уровни — как в multi-level SLA. Ну и полезно учитывать юридические нюансы. Тот же partner SLA страхует клиента от ситуаций, когда провайдеры начинают перекладывать вину друг на друга.

Структура SLA должна отражать суть услуги и защищать интересы обеих сторон. Мы всегда предлагаем клиенту выбрать тип SLA, который лучше всего ляжет на его бизнес-логику. Иногда даже комбинируем подходы — например, добавляем операционные метрики в индивидуальное соглашение.

— Наверняка есть общие смысловые блоки, которые включает договор SLA независимо от типа? Что включает типовой SLA?

Да, есть универсальные разделы, которые включают в любой договор об уровне обслуживания.

1. Описание услуг — перечень услуг, которые предоставляет провайдер. Клиент видит, за что платит, а провайдер — где заканчивается его зона ответственности.

2. Метрики обслуживания — время реакции и устранения сбоя во уровням критичности, доступность сервиса и любые другие измеримые параметры качества услуг. Эти цифры становятся KPI для провайдера и гарантиями для клиента.

3. Методы измерения — как и какими инструментами будут отслеживаться показатели. Например, по Zabbix измеряем uptime серверов, в тикетах Jira фиксируем время реакции. Так у всех есть объективные данные, с которыми сложно спорить.

4. Обязанности сторон — что обязан делать провайдер (например, делать ежедневные бэкапы), и что обязан обеспечить клиент (например, доступ к оборудованию).

5. Отчётность — здесь указаны формат, сроки и содержание отчётов о выполнении SLA. Формулировка может быть примерно такая: «ежемесячный PDF-отчёт с графиками uptime, списком инцидентов и временем их устранения.

6. Санкции за невыполнение условий — это компенсации за нарушение SLA, чаще всего в виде скидок на услуги: например, за downtime сервера сверх разрешенных 0.1 % — компенсация 5 % от месячной стоимости услуги.

7. Условия изменения SLA — например, при масштабировании бизнеса клиента. Это можно сформулировать так: «Любые изменения в SLA согласуются сторонами в письменной форме за 14 дней до вступления в силу». Так договор останется актуальным, если требования клиента или возможности провайдера изменятся.

8. Срок действия и условия расторжения. Здесь, помимо даты старта и окончания действия договора, указывают условия досрочного расторжения — например, при систематическом нарушении обязательств.

9. Форс-мажор — обстоятельства, при которых провайдер не несёт ответственности за нарушение SLA: пожары, DDoS-атаки, действия третьих лиц. Это защищает провайдера в ситуациях, которые он не может контролировать.

10. Контакты и escalation-процедуры включает указание персон, ответственных за взаимодействие с обеих сторон и описывает процедуру эскалации проблем — например, если инцидент не решен за 8 рабочих часов, клиент обращается к техническому директору провайдера.

Также в договор SLA иногда добавляют глоссарий терминов и приложения — технические схемы, диаграммы процессов и т. д.

— Какую пользу несёт договор SLA обеим сторонам?

Для клиента:

Гарантии качества работы подрядчика.
Однозначное понимание критериев качества.
Финансовая защита.
Прозрачность, разграничение зон ответственности.
Снижение рисков.

Для провайдера:

Чёткие рамки работы, исключающие «бесконечные» запросы.
Доверие и лояльность клиентов, вклад в репутацию.
База для планирования ресурсов.
Защита от необоснованных претензий.

Для всех:

Общее понимание правил игры.
Фокус на результате.
Основа для долгосрочного партнёрства.

— Нужно ли мэтчить SLA и бизнес-приоритеты клиента?

Да, SLA должен быть синхронизирован с бизнес-приоритетами. SLA — по сути отражение бизнес-логики клиента. Если ключевой приоритет компании — непрерывность работы (как в екоме), SLA фокусируется на максимальном uptime и мгновенном реагировании на сбои. Если клиент ценит безопасность данных (как в финтехе или медтехе), SLA включает метрики по шифрованию, аудитам и времени устранения уязвимостей. Для логистической компании с круглосуточным режимом работы стоит прописать в SLA гарантии 24/7 поддержки и восстановление систем за 1 час. Для них простой = потеря миллионов, поэтому это приоритет № 1.

Оторванный от бизнеса SLA может принести ненужные расходы, имиджевые риски и конфликты. Вот пример: провайдер соблюдает SLA по доступности, но не успевает за ростом трафика клиента, и сайт «ложится» в часы пик. Технически SLA выполнен, но бизнес-цели провалены.

Чтобы смэтчить SLA с приоритетами клиента, полезно провести аудит и выяснить, как бизнес клиента зарабатывает, в чём его «боли» — простои, утечки данных, медленная разработка. На основании этих выводов ранжируем приоритеты — скорость, стабильность, безопасность... И затем выделяем метрики и санкции, увязанные с этими приоритетами.

— Откуда брать метрики и их значения, которые фиксировать в SLA? Бизнес-цели — понятно, но, вероятно, есть ещё какие-то источники?

1. Значения метрик определяют на основании отраслевых стандартов и бенчмарков. Например, для облачных провайдеров uptime 99.9 % — «золотой стандарт». Для телекома среднее время устранения инцидента (MTTR) — не более 2–4 часов. Для финансов важно соответствие показателям безопасности данных PCI DSS.

2. Также в расчёт берут исторические данные — самого клиента или аналогичных проектов. Условно, если за последний год серверы клиента «падали» 5 раз в месяц, ставим цель снизить количество сбоев до 1–2. Если среднее время ответа техподдержки 3 часа — фиксируем улучшение до 1 часа.

3. Учитывают технические возможности провайдера. Провайдеру нужно оценить, какие метрики он может обеспечить без рисков. Если инфраструктура позволяет гарантировать uptime 99.99 %, но не 100 % — это и нужно честно указать в SLA.

4. Бывает, что SLA должен отвечать требованиям регуляторов. Например, для медицинских компаний стандарт HIPAA требует шифровать данные на всех этапах и проводить ежегодные аудиты безопасности. А в странах Евросоюза GDPR требует уведомлять об утечке данных в течение 72 часов.

5. Полезно прислушаться к обратной связи от пользователей. Если есть жалобы на медленную загрузку интерфейса, в SLA включаем метрику скорость отклика интерфейса ≤ 2 сек. Если есть претензии к работе чат-бота — прописываем точность ответов ИИ ≥ 90 %.

6. Можно выделиться на фоне других провайдеров, если изучить SLA других поставщиков и предложить лучшие значения. Обоснованно, разумеется. Если в старом SLA клиента было время реакции 4 часа, а клиент хочет улучшений, предлагаем 2 часа, но с учётом наших ресурсов.

7. Сценарное моделирование. Это значит, что мы прогнозируем «аппетиты» клиента в будущем. Если клиент планирует увеличить трафик в 5 раз, то нужно заложить в SLA гибкие метрики по масштабируемости. А если компания готовится к выходу на международный рынок, то включаем мультиязычную поддержку в SLA.

Как определить целевые значения метрик?

Не гнаться за идеалом. Лучше гарантировать достижимые 99 %, чем сорвать SLA из-за попыток выполнить 99.99 %.
Взять тестовый период. Иногда стоит провести пилотный этап в 1–3 месяца для настройки метрик под реальные условия.
Если клиент настаивает на жестких KPI — например, 100 % uptime — объясняем риски и предлагаем доплату.

— Сколько целей и метрик зафиксировать в SLA? Чем больше — тем лучше? Или это неверный подход?

Нет, подход «чем больше метрик — тем лучше» опасен для обеих сторон. SLA — это не олимпийский вид спорта, а стратегический документ. Во-первых, ресурсы распыляются. Если провайдер должен отслеживать 50 метрик, он тратит время на отчёты, а не на улучшение сервиса. Второе — конфликт KPI. Метрики могут противоречить друг другу. Например, быстрое устранение инцидентов и минимизация затрат на команду. Или высокая доступность сервиса 99.99 % и частые обновления, которые требуют его остановки.

Сколько метрик считать оптимальным? Универсальной цифры нет, но есть практические правила:

Для стандартных услуг (хостинг, поддержка): 5–7 ключевых метрик — uptime, время реакции, MTTR, удовлетворённость клиента (CSAT), частота бэкапов.
Для сложных проектов (разработка ПО, интеграция систем): до 10–12 метрик, но с группировкой по уровням — бизнес-метрики, технические, пользовательские.
Для индивидуальных SLA: фокус на 3–5 критических для бизнеса клиента показателях типа аптайма кассовой системы, блокировки DDoS-атаки за 5 минут или загрузки данных в CRM в пределах 1 минуты.

Выбрать «правильные» метрики поможет принцип Парето — 20 % метрик должны покрывать 80 % бизнес-рисков клиента. Из SLA нужно исключать метрики «для галочки» — например, количество звонков в поддержку — это не KPI, а операционная статистика.

Полезно проверить SLA на дублирующие показатели: если есть «uptime сервера» и «uptime приложения», выберите тот, что критичнее для бизнеса.

И конечно, нужно категорически удалять неконтролируемые параметры.

— Как компании-клиенту отслеживать выполнение SLA?

Отслеживание выполнения SLA — это зона ответственности обеих сторон, но клиенту важно иметь инструменты контроля. Расскажу, как это можно организовать эффективно и без лишнего стресса.

1. Автоматизированные системы мониторинга, которые в реальном времени собирают данные о работе сервисов. В зависимости от метрик это может быть Zabbix, Nagios, PRTG, Grafana, Freshservice... Клиент получает доступ к дашбордам или API для интеграции с своими системами.

2. Регулярная отчётность от провайдера. Обычно с детализацией по метрикам SLA и анализом причин сбоев.

3. Совместные аудиты и проверки. Клиент может инициировать проверку выполнения SLA. Провайдер предоставляет доступ к логам, данным мониторинга, тикет-системе.

4. Обратная связь. Еженедельные/ежемесячные встречи по выполнению SLA и опросы удовлетворённости (CSAT).

5. Финансовые индикаторы. Наличие в счетах санкций за нарушения косвенно свидетельствует о качестве работы по SLA.

6. Сторонние сервисы. Например, c помощью UptimeRobot можно мониторить доступность сайта — независимо от основных инструментов, используемых обеими сторонами.

Чем прозрачнее процесс — тем меньше конфликтов. Мы всегда предоставляем клиентам инструменты для контроля, потому что это укрепляет партнёрство: вы видите нашу работу, а мы получаем обратную связь для улучшения сервиса.

— Дайте несколько рекомендаций по составлению хорошего договора об уровне обслуживания.

1. Начинайте с глубокого аудита бизнеса клиента. Выясните, какие процессы критичны для прибыли или других ключевых метриках. SLA должен прежде всего опираться на них.

2. Выбирайте метрики по принципу «Меньше, но лучше». Сфокусируйтесь на 3–5 KPI, которые напрямую влияют на бизнес-результаты клиента. Избегайте абстракций, зафиксируйте конкретные целевые показатели.

3. Прописывайте зоны ответственности клиента, чтобы провайдер не стал «крайним» за сбои, вызванные действиями клиента.

4. Учитывайте реалии инфраструктуры. Не обещайте невозможного. Если ваш дата-центр физически не может обеспечить 100 % uptime, не пишите этого.

5. Добавьте условия «на вырост». Можно предусмотреть возможность пересмотра технических требований раз в квартал или при каком-то условии — например, росте трафика клиента на 50 %.

6. Внедрите прозрачную систему отчётности. Укажите формат, частоту и ответственных.

7. Продумайте санкции, но не превращайте их в «казнь». Добавьте бонусы за хорошую работу и превышение KPI.

8. Не забудьте про форс-мажор. Конкретизируйте, что считается форс-мажором (кибератаки, стихийные бедствия, действия регуляторов) и как действуют стороны в таких случаях. Например, так: «DDoS-атака третьих сторон приостанавливает действие SLA до устранения угрозы».

9. Проведите «тест-драйв» SLA. В течение 1–3 месяца будет ясно, нужно ли что-то изменить в вашем договоре. Например, если клиент замечает, что время реакции в 2 часа слишком велико для его бизнеса, то стоит уменьшить до 1 часа, но увеличить стоимость.

10. Подключите юриста, который специализируется на IT-договорах. Убедитесь, что договор соответствует законодательству страны клиента (особенно в сфере данных: GDPR, 152-ФЗ) и что в нём нет двусмысленных формулировок (например, «разумное время реакции»).

11. Сделайте SLA живым документом. Пересматривайте договор раз в 6–12 месяцев или при изменении бизнес-модели клиента.

Хороший SLA — инструмент роста для обеих сторон. И в его составлении тоже должны участвовать обе стороны. Такой подход позволяет клиенту получить гарантии, которые защищают его бизнес, а провайдеру — избежать нереалистичных ожиданий и работать в комфортном режиме.

‍

Подпишитесь на наш телеграм-канал