Текст книги "ИТ СЕРВИС–МЕНЕДЖМЕНТ. Вводный курс на основе ITIL"
Автор книги: Jan van Bon
сообщить о нарушении
Текущая страница: 14 (всего у книги 18 страниц)
? Затраты: уменьшение числа срочных закупок, сокращение ненужных или дорогих избыточных мощностей и составление планов инвестиций на ранней стадии.
? Операционная деятельность ИТ[205]205
Operations.
[Закрыть]: уменьшение количества инцидентов из-за проблем с производительностью, возможность удовлетворить спрос заказчика в любое время и степень серьезности в отношении компании к Процессу Управления Мощностями.
12.5.3. Функции и роли
Роль Руководителя Процесса Управления Мощностями заключается в руководстве процессом и в обеспечении разработки и поддержания Плана по мощностям, а также в гарантии актуальности базы данных мощностей (CDB).
Менеджеры систем, сетей и приложений также играют важную роль в Процессе Управления Мощностями. Они не только являются ответственными за оптимизацию производительности, от них также ожидается использование их профессиональных знаний для преобразования потребностей бизнеса в профили[206]206
Profiles.
[Закрыть] загрузки систем и определения на их основе необходимых мощностей ИТ-средств.
12.6. Проблемы и затраты
12.6.1. Проблемы
Потенциальные проблемы Процесса Управления Мощностями могут быть следующими:
? Нереалистичные ожидания – разработчики[207]207
Designers.
[Закрыть], руководители и заказчики часто имеют нереалистичные ожидания из-за недостаточного понимания технических возможностей приложений, компьютерных систем и сетей. Одной из задач Процесса Управления Мощностями является направление этих ожиданий, например, путем осведомления разработчиков о воздействии их разработок (например, базы данных) на мощности ИТ-средств и их производительность. Эффект от работы Процесса Управления Мощностями также может переоцениваться, особенно в отношении настройки системы и составления графика рабочей нагрузки. Если работа системы требует значительной настройки, то, скорее всего, причина в недостатках дизайна приложения или базы данных. В целом, настройка не может быть использована для достижения более высокого уровня производительности, чем тот, на который система была рассчитана изначально. Большинство крупных ИТ-систем имеют алгоритмы планирования загрузки, которые обычно более эффективны, чем вовлечение системных менеджеров. И конечно, существуют и затраты, связанные с настройкой: для высокооплачиваемого инженера не имеет смысла тратить недели на достижение 3%-го улучшения характеристик, если расширение памяти за 100 долларов даст улучшение на 10%. Еще более дорого обойдется Управление Системами, которые не являются «простыми, как дважды два». Чрезмерное «дергание» параметров на различных блоках, приложениях или базах данных может повлечь непреднамеренные последствия и увеличит задержку всех процессов сервис-менеджмента, а также обслуживание и поиск неисправностей.
? Недостаток соответствующей информации – часто бывает трудно получить необходимую информацию, например, для Плана по мощностям. Могут возникнуть затруднения в получении достоверной информации об ожидаемой рабочей нагрузке, так как планы заказчика неизвестны или почти неизвестны, в особенности в деталях. Это также вызывает трудности у заказчика, так как жизненный цикл продукта становится все короче. Единственное решение – это делать наилучшие возможные оценки и периодически обновлять их при получении большей информации.
? Информация от поставщика – при отсутствии информации о предыстории вопроса (например, когда закупается новая система), Управление Мощностями становится зависимым от информации, предоставляемой поставщиками. Поставщики обычно используют результаты тестов[208]208
Benchmarks.
[Закрыть] для предоставления информации об их системах, но из-за больших различий в методах тестирования часто бывает трудно сопоставить информацию, и она может ввести в заблуждение о действительной производительности системы.
? Внедрение в комплексных ИТ-средах – внедрение в сложных распределенных средах является трудной задачей, так как значительное количество технических интерфейсов создает большое число взаимозависимостей параметров производительности.
? Определение подходящего уровня мониторинга – инструменты для мониторинга часто имеют много опций и могут провоцировать на чрезмерно подробные исследования. При покупке и использовании этих инструментов необходимо заранее решить, на каком уровне детализации должен проводиться мониторинг.
Эти проблемы являются актуальными дня Управления Мощностями компьютерных систем, а также сетей, больших принтерных центров и телефонных АТС-систем[209]209
PABX.
[Закрыть]. Это может вызвать еще больше затруднений, если за эти области отвечают несколько подразделений, что может привести к конфликтам в ответственности за Управление Мощностями.
12.6.2. Затраты
Затраты на ввод в действие Управления Мощностями должны быть определены при подготовке внедрения процесса. Эти затраты можно разделить на следующие группы:
? закупка аппаратных и программных средств, таких как инструменты мониторинга, база данных мощностей (CDB), инструменты моделирования для имитационного моделирования и статистического анализа и инструменты генерации отчетов;
? затраты на Управление Проектом по внедрению процесса;
? затраты на персонал, обучение и поддержку;
? помещение и т. д.
После запуска процесса остаются текущие расходы на персонал, контракты на обслуживание и т. д.
Глава 13 Управление Непрерывностью ИТ-сервисов
13.1. Введение
Многие руководители считают Процесс Управления Непрерывностью ИТ-сервисов (IT Service Continuity Management – ITSCM) роскошью, на которую у них нет средств. Однако, как показывает статистика, чрезвычайные ситуации стали часто встречающимся явлением.
Чрезвычайная ситуация (бедствие, катастрофа) – это событие, которое оказывает такое негативное воздействие на функционирование сервиса или системы, что требуются значительные усилия для восстановления изначального Уровня Производительности.
Как следует из данного определения, чрезвычайная ситуация намного серьезнее инцидента. Чрезвычайная ситуация – это приостановка бизнеса. Это означает, что весь бизнес или его часть будет находиться "вне бизнеса" после возникновения чрезвычайной ситуации. Известны такие примеры чрезвычайных ситуаций, как пожары, удары молнии, наводнения, кражи, вандализм и акты насилия, широкомасштабное нарушение электроснабжения и сбои в работе аппаратного обеспечения. Атаки террористов, например, нападение на Всемирный торговый центр в Нью-Йорке, становятся реальностью. Чрезвычайные ситуации возможны также и в Интернете, например, отказ сервиса (DoS)[210]210
Denial of Service – DoS.
[Закрыть] может разрушить связь внутри всей организации. Некоторые организации могли бы предотвратить серьезные проблемы, если бы в свое время разработали План обеспечения непрерывности бизнеса. Бизнес все больше и больше зависит от ИТ-услуг, а это означает, что последствия потери сервиса становятся все более ощутимыми и все менее допустимыми. Фактически, сейчас во многих организациях ведение бизнеса эквивалентно использованию информационных технологий (ИТ), и без них бизнес едва ли будет существовать. Поэтому необходимо решать, как защитить непрерывность бизнеса. Со времени опубликования модуля Планирование на случай чрезвычайных обстоятельств (Contingency Planning Module) ассоциацией CCTA многое изменилось в области информационных технологий и в том, как они используются в организациях. Ранее это планирование касалось только ИТ. В настоящий момент информационные технологии уже значительно интегрированы во многие аспекты бизнеса. Если раньше традиционный процесс планирования непрерывности работы и восстановления функционирования в основном носил реактивный характер (что делать в случае возникновения чрезвычайной ситуации), то теперь Процесс Управления Непрерывностью ИТ-сервисов выполняет превентивную роль, т. е. работает над предотвращением катастроф.
13.2. Цель процесса
Цель Процесса Управления Непрерывностью ИТ-сервисов – оказывать поддержку Процессу Управления Непрерывностью Бизнеса (Business Continuity Management – ВСМ). Такая поддержка означает, что необходимая инфраструктура и ИТ-услуги, включая службу поддержки и службу Service Desk, могут быть восстановлены за заданный период времени после возникновения чрезвычайной ситуации. У данного процесса может быть и ряд других целей. Поскольку процесс ITSCM является составной частью Процесса Управления Непрерывностью Бизнеса, сфера действия Процесса Управления Непрерывностью ИТ-сервисов (ITSCM) должна определяться, исходя из целей бизнеса. В результате при оценке рисков можно потом определить, попадают ли они в сферу действия данного процесса.
Преимущества использования процесса[211]211
Benefits.
[Закрыть]
Поскольку бизнес во все большей степени зависит от ИТ-услуг, определить, во что может обойтись недостаточное планирование непрерывности предоставления ИТ-услуг и какие преимущества даст должное планирование этих вопросов, можно только с помощью анализа рисков. После того, как определен возможный риск для бизнеса, а не только для ИТ-сервиса, можно выделять средства для принятия превентивных мер и мер по борьбе с чрезвычайными ситуациями, например, разработка Плана восстановления после катастрофы.
Если чрезвычайная ситуация все же произошла, то использование процесса ITSCM даст бизнесу следующие преимущества:
? возможность управлять восстановлением своих систем;
? уменьшить простои в работе;
? свести к минимуму перерывы в ведении бизнеса.
13.3. Процесс
Процесс Управления Непрерывностью ИТ-сервисов отвечает за:
? оценку воздействия нарушений в работе ИТ-сервисов после возникновения чрезвычайной ситуации;
? определение критичных для бизнеса сервисов, которые требуют дополнительных превентивных мер;
? определение периода времени, в течение которого сервис должен быть восстановлен;
? принятие мер по предотвращению, обнаружению, подготовке к чрезвычайным ситуациям или по уменьшению степени их воздействия;
? определение общего подхода к восстановлению услуг;
? разработку, тестирование и поддержку плана восстановления с достаточным Уровнем Детализации, который поможет пережить чрезвычайную ситуацию и восстановить нормальную работу за заданный период времени.
Поскольку наблюдается все большее взаимопроникновение бизнес-операций и информационных технологий, то эти две области вместе описываются в рамках ITIL:
? Процесс Управления Непрерывностью Бизнеса (Business Continuity Management – ВСМ) обеспечивает анализ и Управление Рисками, что позволяет организации во все времена гарантировать сохранение минимально требуемых производственных мощностей и Уровня Сервисов. Процесс ВСМ помогает уменьшить степень риска до приемлемого уровня и разработать Планы восстановления бизнес-деятельности на случай, если она пострадает во время чрезвычайной ситуации.
? Процесс Управления Непрерывностью ИТ-сервисов (ITSCM) – это процесс, предназначенный для противодействия на случай чрезвычайных обстоятельств, затрагивающих ИТ-услуги, и восстановления сервисов, необходимых для возобновления бизнес-операций.
Процесс Управления Непрерывностью ИТ-сервисов является частью общего процесса Управления Непрерывностью Бизнеса, и он зависит от информации, которую предоставляет процесс ВСМ. Доступность ИТ-сервисов обеспечивается благодаря сочетанию мер по уменьшению степени риска (например, использование высоконадежных систем) и способов восстановления (например, запасные и параллельно работающие системы). Для успешной реализации процесса требуются поддержка со стороны всей организации, твердое намерение руководства реализовать данный процесс и участие всего персонала.
Процесс Управления Непрерывностью ИТ-сервисов взаимодействует со всеми другими процессами ИТ Сервис-менеджмента, особенно с такими как:
? Управление Уровнем Сервиса: предоставляет информацию об обязательствах во предоставлению ИТ-услуг.
? Управление Доступностью: поддерживает процесс ITSCM в части разработки и внедрения превентивных мер.
? Управление Конфигурациями: определяет базисные конфигурации и элементы ИТ-инфраструктуры, информация о которых используется при восстановлении после чрезвычайной ситуации.
? Управление Возможностями: гарантирует поддержку требований бизнеса соответствующими ИТ-ресурсами.
? Управление Изменениями: обеспечивает правильность и актуальность всех планов в рамках процесса ITSCM благодаря вовлечению ITSCM в работу над всеми изменениями, которые могут повлиять на превентивные меры и Планы восстановления.
13.4. Виды деятельности
На рис 13.1 показаны виды работ, выполняемые в рамках процесса ITSCM. Цифры обозначают подразделы раздела 13.4, в которых описывается тот или иной вид деятельности.
Рис. 13.1. Модель Процесса Управления Непрерывностью ИТ-Сервисов (на основе модели OGC)
13.4.1. Определение охвата (области действия)[212]212
Scope.
[Закрыть] Процесса Управления Непрерывностью ИТ-сервисов
При инициализации процесса ITSCM необходимо рассмотрение всей организации в целом и выполнение следующих действий:
? Определение политики – определение политики организации в отношении Управления Непрерывностью ИТ-сервисов следует осуществить по возможности быстрее и довести ее до сведения каждого сотрудника организации, чтобы все знали о необходимости процесса ITSCM. Руководство должно продемонстрировать свое твердое намерение реализовать данный процесс.
? Определение области действия процесса и других важных для процесса областей – при выборе подхода к оценке риска и Анализу воздействия на бизнес (Business Impact Analysis) и методов их выполнения используются страховые требования, стандарты качества, такие как серия ISO-9000, стандарты Управления Безопасностью, например, BS7799 и общие принципы определения политики в области бизнеса. На этом этапе также определяются соответствующая структура менеджмента и процессов на случай чрезвычайной ситуации.
? Выделение ресурсов – развертывание ИТ-среды на случай чрезвычайных обстоятельств потребует значительных затрат на персонал и ресурсы. Должно быть проведено обучение персонала для подготовки к выполнению второго этапа процесса ITSCM (Требования и стратегия).
? Подготовка проектной организации – рекомендуется использовать формальные методы Управления Проектом, такие как PRINCE 2, совместно с программным обеспечением, предназначенным для целей планирования.
13.4.2. Анализ воздействия на бизнес[213]213
Business Impact Analysis.
[Закрыть]
Перед проведением анализа ИТ-услуг рекомендуется установить причины, почему компании необходимо включать Процесс Управления Непрерывностью ИТ-сервисов в общий Процесс Управления Непрерывностью Бизнеса, и определить потенциальное воздействие серьезных сбоев услуг. В некоторых случаях при возникновении чрезвычайной ситуации бизнес некоторое время еще может функционировать, и тогда основное внимание уделяется восстановлению услуг, в других случаях бизнес не может работать без ИТ-услуг, поэтому основное внимание уделяется предотвращению чрезвычайных ситуаций. В большинстве случаев необходимо найти баланс между этими двумя крайностями.
Среди возможных причин внедрения этого процесса могут быть следующие:
? защита бизнес-процессов;
? быстрое восстановление сервиса;
? необходимость выдержать конкуренцию;
? сохранение позиций на рынке;
? сохранение прибыльности;
? защита репутации компании.
Эти причины могут быть комбинированы. В финансовой сфере, например, в торговле валютными средствами, отсутствие информации о рынке ведет к приостановке торговли (основного бизнес-процесса), что означает потерю денег. Более того, если существует государственное требование регистрировать все валютные операции с использованием специализированной системы, то можно продолжать ведение бизнеса даже в случае повреждения этой системы, но рано или поздно это требование все равно будет нарушено, и тогда возможно наложение штрафа. В обоих случаях компания может потерять заказчиков и свои позиции на рынке.
Анализ сервисов
После того, как определена необходимость внедрения Процесса Управления Непрерывностью ИТ-сервисов, следует провести анализ ИТ-услуг, необходимых для бизнеса (например, информационные системы, офисные приложения, бухгалтерские приложения, электронная почта и т. д.), которые должны быть доступны в соответствии Соглашениям об Уровне Сервиса. Для некоторых услуг невысокой значимости могут быть достигнуты договоренности о предоставлении экстренного сервиса с ограниченными возможностями и доступностью. Уровни Сервиса во время восстановления могут быть изменены только по договоренности с заказчиком. Для критически важных услуг необходимо найти компромисс между превентивными мерами и способами восстановления.
Инфраструктура
После анализа сервисов выполняется оценка зависимостей между сервисами и ИТ-ресурсами. Информация из Процесса Управления Доступностью используется для анализа степени критичности ИТ-ресурсов для поддержки описанных ранее ИТ-услуг. Процесс Управления Возможностями предоставляет информацию о необходимых мощностях, а также помогает определить, на какое время эти услуги могут быть приостановлены с момента сбоя сервиса до его восстановления. В последствии такая информация может быть использована для определения способов восстановления по каждой услуге.
13.4.3. Оценка рисков
Официальная статистика по чрезвычайным ситуациям отсутствует, но во всем мире известны такие катастрофы, как:
Отравление газом | Токийское метро, Япония (март 1995) |
Отключение электроэнергии | Окланд, Новая Зеландия (декабрь 1997) |
Землетрясения | Лос-Анджелес, США (январь 1994) |
Кобе, Япония (январь 1995) | |
Атаки террористов | Всемирный торговый центр, Нью-Йорк, США (февраль 1993) |
Бишопсгейт, Лондон, Англия (апрель 1993) | |
Оклахома-сити, Оклахома, США (апрель 1995) | |
Доклэндс, Лондон, Англия (февраль 1996) | |
Манчестер, Англия (июнь 1996) | |
Всемирный торговый центр, Нью-Йорк, США (сентябрь 2001) | |
Наводнения | Бангладеш (июль 1996) |
Пакистан (август 1996) |
Анализ рисков способен помочь в определении рисков, угрожающих бизнесу. Такой анализ дает ценную информацию руководству, т. к. он позволяет выявить вероятные угрозы и виды уязвимости и определить соответствующие превентивные меры. Поскольку поддержка Плана восстановления после чрезвычайной ситуации является относительно дорогим мероприятием, то сначала можно воспользоваться превентивными мерами. После того, как такие меры предприняты против наиболее серьезных рисков, следует определить, остались ли еще риски, для которых необходим План обеспечения непрерывности работы (Contingency Plan). На рис. 13.2 показаны связи между Анализом рисков и Управлением Рисками; они основываются на методе Анализа и Управления Рисками, разработанного ассоциацией CCTA (CCTA Risk Analysis and Management Method – CRAMM).
Рис. 13.2. Метод оценки рисков ассоциации CCTA (источник: OGC)
Данная модель позволяет поддерживать эффективное планирование на случай чрезвычайных обстоятельств путем реализации поэтапного подхода.
Анализ рисков
? Во-первых, должны быть определены вовлеченные компоненты (активы), такие как здания, системы, данные и т. д. Эффективная идентификация активов требует определения владельцев и назначения активов.
? Следующий этап – анализ угроз и зависимостей, а также оценка вероятности возникновения чрезвычайной ситуации (высокая, средняя, низкая), например, комбинация ненадежной системы энергоснабжения и района с большим количеством бурь и гроз.
? Далее – идентификация и классификация (высокая, средняя, низкая) уязвимостей. Молниеотвод может дать некоторую защиту от ударов молний, но они все же могут серьезно повлиять на работу сети и систем.
? И последний этап – оценка угроз и уязвимостей в контексте ИТ-компонентов для получения оценки риска.
При оценке риска следует учитывать область действия[214]214
Scope.
[Закрыть] процесса; фактически такая оценка является частью начала внедрения Процесса Управления Непрерывностью ИТ-сервисов (этап 1). Например, незначительные проблемы можно решить с помощью мер, принимаемых Процессом Управления Доступностью, в то время как другие риски для бизнеса могут выходить за сферу действия процесса ITSCM.
13.4.4. Стратегия обеспечения непрерывности ИТ-сервисов
Многие направления бизнеса стараются найти равновесие между сокращением степени риска и планированием работ по восстановлению. Следует понимать разницу между такими понятиями, как сокращение риска, работы по восстановлению бизнес-деятельности и способы восстановления ИТ. Ниже обсуждается связь между сокращением степени риска (предотвращение) и планированием восстановления (способы восстановления).
Угрозы никогда нельзя устранить полностью. Например, пожар в соседнем здании может повредить ваше здание. Уменьшение одного вида риска может вызвать повышение другого. Например, аутсорсинг может привести к повышению рисков в области безопасности.
Превентивные меры
Превентивные меры можно принимать на основе анализа рисков при тщательном учете затрат и рисков. Такие меры могут помочь в уменьшении вероятности непредвиденных обстоятельств или степени их воздействия, и тем самым сократить сферу действия Плана восстановления. Превентивные меры действенны против пыли, чрезвычайно высоких или низких температур, пожаров, утечек воды, прекращения энергоснабжения и воровства. Остальные виды рисков будут учтены в Плане восстановления.
Метод "Неприступной крепости"[215]215
Stronghold/Fortress approach.
[Закрыть] является самой дорогой превентивной мерой. Он позволяет устранить большинство видов уязвимости, например, путем строительства бункера с собственным энерго– и водоснабжением. Однако такой подход может привести к появлению других уязвимых мест, например, риску сбоя сети или появлению пробок на дорогах, что только затруднит восстановление. Подход «Неприступной крепости» пригоден для крупных вычислительных центров, которые слишком сложны для разработки для них Плана восстановления. В наше время важно дополнять данный подход возможностью быстрого реагирования[216]216
Skirmish Capability.
[Закрыть], т. е. возможностью направляться туда, где есть проблема, и быстро ее решать, пока она не вышла из-под контроля.
Выбор способов восстановления[217]217
Recovery Options.
[Закрыть]
Если остались еще виды рисков, которые не удалось устранить с помощью превентивных мер, тогда для них производится планирование восстановления. Способы восстановления должны включать в себя:
? Персонал и размещение – помещение, мебель, транспорт, способ перемещения и т. д.
? ИТ-системы и сети – способы восстановления будут обсуждаться ниже.
? Вспомогательные службы – электро– и водоснабжение, телефон, почта и курьерская связь.
? Архивы – дела, документы, архив на бумажных носителях и справочные материалы.
? Услуги сторонних организаций – таких, как поставщиков услуг электронной почты и Интернета.
Существует несколько способов для быстрого восстановления ИТ-услуг:
? Ничего не делать – лишь немногие бизнес-организации могут себе это позволить. Это больше напоминает стремление уйти от проблем, устраниться от решения. Подразделения, которые думают, что могут обойтись без средств восстановления ИТ-сервиса, создают о себе впечатление, как о структурах, ничего не значащих для целей бизнеса, которые могут не потребоваться в случае чрезвычайной ситуации. Тем не менее для каждого ИТ-сервиса должна быть рассмотрена такая возможность.
? Возврат к ручной (на основе бумажных носителей) системе – этот способ обычно не подходит для услуг, критически важных для бизнеса, поскольку трудно найти достаточное количество персонала, имеющего опыт работы с традиционными системами. Более того, бумажные системы, существовавшие в прошлом, теперь могут уже не существовать. Тем не менее такие системы можно использовать для менее важных, второстепенных услуг. Большинство планов восстановления включают в себя процедуры резервного копирования на бумажные носители. Например, способом восстановления для терминала кредитных карт может быть использование бумажных оттисков (слипов) с кредитных карт.
? Взаимные соглашения – этот способ можно использовать в том случае, когда две организации используют одинаковое аппаратное обеспечение и между ними существует договоренность о предоставлении друг другу необходимых устройств в случае возникновения чрезвычайных обстоятельств. Для данного способа две бизнес-структуры должны заключить соглашение и координировать все изменения, с тем, чтобы сохранить взаимозаменяемость двух сред. Процесс Управления Возможностями должен следить за тем, чтобы зарезервированные возможности не использовались для других целей или чтобы их можно было быстро освободить. В настоящее время этот способ не очень привлекателен из-за роста использования онлайновых систем, таких как сети банкоматов (ATM) и онлайновые банковские системы для клиентов, т.к. эти системы должны быть доступны круглосуточно в течение всего времени.
? Поэтапное восстановление ("холодный" резервный центр[218]218
Cold Stand-by.
[Закрыть]) – этот способ можно использовать в тех сферах бизнеса, где можно обойтись без ИТ-услуг в течение определенного периода времени, например, 72-х часов. При использовании данного способа заказчику предоставляется свободный компьютерный зал на заранее оговоренной территории, стационарный центр[219]219
Fixed Facility.
[Закрыть] или мобильная компьютерная комната, доставляемая на место расположения компании, – мобильный центр[220]220
Mobile Facility.
[Закрыть]. Такой компьютерный центр должен быть снабжен электропитанием, кондиционером, сетевыми коммуникациями и телефонной связью. Данный способ может быть предоставлен по договору с внешним поставщиком. Кроме того, необходимо отдельное соглашение с поставщиком, гарантирующее быструю доставку ИТ-компонент. Общее преимущество такого подхода состоит в том, что эти средства восстановления доступны всегда. Кроме того, для стационарного и мобильного компьютерного центра преимущества и недостатки различаются и зависят от таких аспектов, как:
? Расстояние до центра – обычно существует ограниченное количество поставщиков, предоставляющих услуги стационарного центра, и он может находиться на некотором расстоянии от заказчика. Этот недостаток может быть компенсирован использованием мобильной станции.
? Время – стационарные залы доступны лишь на определенное время.
? Задержка – в любом случае доставка необходимого компьютерного оборудования занимает определенное время.
? Сеть – часто возникают трудности с предоставлением нужных телекоммуникационных средств. Оборудование передвижной станции можно подсоединить к сети в основном используемом здании.
? Промежуточное восстановление ("теплый" резерв[221]221
Warm Stand-by.
[Закрыть]) – данный способ обеспечивает доступ к аналогичной операционной среде, в которой можно восстановить обычное предоставление услуг в течение короткого промежутка времени (от 24 до 72 часов). Существует три варианта этого способа:
? Внутренний (совместное устранение неисправности): применим в тех случаях, когда бизнес располагается на нескольких площадках или имеет выделенную среду тестирования, которую можно использовать в качестве рабочей среды. Данный способ обеспечивает полное восстановление при минимальных затратах времени на переключение. В организациях с несколькими распределенными системами часто используется один из вариантов этого подхода, когда на каждой системе резервируется часть требуемых мощностей. Мониторинг таких свободных мощностей осуществляется Процессом Управления Мощностями (аналогично варианту использования взаимных соглашений – см. выше).
? Внешний: некоторые поставщики услуг предлагают этот способ как коммерческую услугу. При этом затраты распределяются между несколькими заказчиками. Расходы по данному варианту зависят от того, какое программное и аппаратное обеспечение потребуется, на какой период времени будут предоставляться средства (например, на 16 недель). Часто этот способ помогает сохранить работоспособность на период времени, в течение которого активируется "холодный" резервный центр. Данный вариант способа промежуточного восстановления относительно дорогостоящий и предоставленный центр, скорее всего, будет находиться на некотором удалении от основной территории.
? Мобильный: в данном варианте готовая к работе инфраструктура размешается в трейлере, который используется как компьютерный зал и оборудован устройствами контроля за окружающей средой, такими как кондиционеры. У ИТ-организации должно быть место для парковки такого трейлера. В специально выделенных пунктах на некотором расстоянии от основного здания должны быть предусмотрены источники электропитания, телекоммуникационные каналы и хранилище данных. Преимуществами такой версии являются быстрое время реагирования и близость к месту расположения компании. Данный способ доступен только для ограниченного числа технических платформ. Некоторые крупные поставщики оборудования предлагают несколько трейлеров со стандартными конфигурациями аппаратного обеспечения. В согласованный момент времени, например, раз в год, такой трейлер направляется к месту расположения бизнеса для проверки Плана восстановления. Кроме того, такая процедура позволяет произвести тестирование перехода[222]222
Upgrade.
[Закрыть] на новую версию операционной системы.
? Немедленное восстановление ("горячий" старт, "горячее" восстановление[223]223
Hot Start, Hot Stand-by.
[Закрыть]) – данный способ обеспечивает немедленное или очень быстрое восстановление работы менее чем за 24 часа путем предоставления идентичной рабочей среды и зеркального отображения данных, а возможно, и рабочих процессов. Последний вариант обычно разрабатывается при тесном взаимодействии с Процессом Управления Доступностью.
? Комбинации способов – часто План на случай чрезвычайных обстоятельств[224]224
Contingency Plan.
[Закрыть] включает в себя более дорогой способ восстановления, который используется до активизации более дешевого варианта. Например, трейлер, оборудованный как передвижной вычислительный центр (мобильный «горячий» старт), может служить временным решением до тех пор, пока не приедет мобильный центр и не будут доставлены новые главные сервера[225]225
Host Computers.
[Закрыть] (передвижной «холодный" старт). Нормальная работа будет возобновлена после восстановления здания и установки в нем новых главных компьютеров.
13.4.5. Организация процесса и планирование внедрения
После того, как определена стратегия бизнеса и сделан выбор одного из перечисленных способов восстановления, необходимо переходить к реализации Процесса Управления Непрерывностью ИТ-сервисов и разработки детальных планов для использования выбранных средств восстановления. Реализацией процесса ITSCM должна заниматься специальная группа. Ее организация может включать в себя назначение руководителя (Руководитель на случай кризисной ситуации[226]226
Crisis Manager.
[Закрыть]), координацию работ и формирование восстановительных команд каждого сервиса.
На самом высоком уровне должен быть разработан общий план, охватывающий следующие вопросы:
? План экстренного реагирования;
? План оценки повреждений;