Высокая доступность
Высокая доступность (англ. high availability) — характеристика технической системы, разработанной для избежания невыполненного обслуживания путём уменьшения или управления сбоями и минимизацией времени плановых простоев. Высокая доступность ожидается от систем жизнеобеспечения, здравоохранения и систем, от которых зависит благополучие общества в целом и экономическое благополучие отдельных организаций[1].
Высокая доступность вычислений (англ. highly available computing) обеспечивается компьютерными системами, которые спроектированы для минимизации времени как запланированных, так и незапланированных простоев[1].
Определение
Высокую доступность можно определить как свойство системы быть защищённой и легко восстанавливаемой от небольших простоев в короткое время и автоматизированными средствами. При таком определении рассматриваются три фактора: категоризация возможных проблем (сбоев), категоризация требований к системе в отношении продолжительности перерывов в работе, технологические решения для автоматической защиты и восстановления после сбоев[2].
Уровни доступности
В ходе сбора требований пользователей к системе обычно выясняется, какой уровень им необходим[3][4]:
- Высокая доступность — наиболее распространённый уровень, ожидаемый пользователями, при котором система или приложение доступны в обозначенные требованиями дни и часы без незапланированных простоев, а о запланированных остановках в работе объявлено заранее.
- Непрерывный режим работы (continuous operations) — система доступна 24 часа в сутки 7 дней в неделю без запланированных простоев.
- Постоянная доступность (continuous availability) — сочетание высокой доступности с непрерывным режимом работы. Система доступна 24 часа в сутки 7 дней в неделю без запланированных или незапланированных простоев. Наиболее дорогой уровень доступности, требуемый от систем связи, банкоматов, сайтов электронной коммерции, а также от других важных систем, таких, как системы электроснабжения.
От желаемого уровня доступности зависит стоимость реализации и эксплуатации системы. Кроме того, так как доступность определяется с точки зрения пользователя, часто субъективной, в требованиях к системе стоит точно определить, что понимается под высокой доступностью системы[5].
Количественное определение доступности
Процентный метод
Для вычисления достигнутого уровня доступности необходимо знать время простоя (П) и время обещанной доступности (Д), в случае высокой доступности в это время не включается суммарное время запланированных простоев. Тогда уровень доступности можно получить по формуле[6]:
- доступность = (Д — П) / Д × 100 %
Например, простой системы постоянной доступности в течение 45 минут в январе говорит об уровне доступности 99,9 % («три девятки»).
Доступность можно выразить в виде средних величин[7]:
- средняя доступность = MTTF / (MTTF + MTTR) × 100 %,
где MTTF (англ. mean time to failure) — средняя наработка до отказа, MTTR (англ. mean time to repair) — среднее время до восстановления работоспособности.
Время восстановления после сбоя зависит от многих факторов, таких как сложность системы (чем сложнее система, тем дольше её перезапуск), серьёзность проблемы, доступность обслуживающего персонала, запасного оборудования, недостаточного резервного копирования и т. п. Следует также отметить, что доступность системы измеряется с точки зрения пользователя, а не фиксации факта работы основных узлов[6].
Наработка на отказ
Другой метрикой доступности, применяемой в отношении больших сетей и составляющих их устройств, является метод, в котором считается число отказов на миллион (DPM, англ. defects per million) часов работы. Этот метод точнее, чем процентный, позволяет принимать во внимание сбои в работе части сети. В этом случае можно измерять часы безотказной работы сети в целом, суммарное время работы всех устройств или даже суммарное время работы пользователей[8].
Примечания
- Weygant, 2001.
- Schmidt, 2006, p. 22-23.
- Piedad, Hawkins, 2001, p. 16-17.
- Schmidt, 2006, p. 21-22.
- Облачные вычисления, 2011, с. 83.
- Piedad, Hawkins, 2001, p. 17-18.
- Taylor, Ranganathan, 2013, p. 82-83.
- Oggerino, 2001, p. 9-10.
Литература
- Piedad, F. and Hawkins, M. High Availability: Design, Techniques, and Processes. — Prentice Hall PTR, 2001. — 266 p. — ISBN 9780130962881.
- Peter S. Weygant (Hewlett-Packard Company). Chapter 1. Basic High Availability Concepts // Clusters for High Availability: A Primer of HP Solutions. — Second Edition. — Prentice Hall, 2001. — ISBN 9780130893550.
- Oggerino, C. High Availability Network Fundamentals. — Cisco Press, 2001. — ISBN 9781587130175.
- Schmidt, K. High Availability and Disaster Recovery: Concepts, Design, Implementation. — Springer, 2006. — 422 p. — ISBN 9783540345824.
- Риз Д. Облачные вычисления (Cloud Application Architectures). — БХВ-Петербург, 2011. — 288 p. — ISBN 9785977506304.
- Taylor, Z. and Ranganathan, S. Designing High Availability Systems: DFSS and Classical Reliability Techniques with Practical Real Life Examples. — Wiley, 2013. — 480 p. — ISBN 9781118739839.