Контентно-адресуемое хранилище данных
Content-addressable storage (CAS) — архитектура хранения, в которой адресация осуществляется образом хранимых данных. Образ данных хешируется и хеш используется для его нахождения на устройствах или системах хранения.
Архитектура обладает большой устойчивостью к дубликатам, а также может быть выполнена децентрализованно, что даёт ей существенную надёжность.
Является персистентным аналогом контентно-адресуемой памяти.
Принцип CAS
В отличие от традиционных дисковых систем (файловая, блоковая адресация), размещение информации производится не по имени файла или конкретному сектору на поверхности диска, а по его содержимому. Для каждого объекта (им может быть файл, блок данных либо иной поток информации) вычисляется контрольная сумма (MD5, SHA-256 и т.д) — своего рода «отпечаток пальца», — которая и является адресом размещения информации. И по этому же адресу объект впоследствии может быть прочитан из устройства. В житейском представлении это напоминает не совсем обычный ломбард, учитывающий объекты, в первую очередь, не по их названиям (как в традиционных файловых системах), а, например, по особенной исключительно-уникальной стоимости, которую он подбирает, оценивая объекты при приёме их на хранение, и которая в дальнейшем послужит такому ломбарду идентификатором при поиске объекта среди других для выдачи его обратно. Если за время хранения к объекту что-то добавили или, наоборот, отняли, то вместе с этим этот ломбард произведёт переоценку, изменив его идентификационную стоимость.
Свойства CAS-устройств
Неизменяемость данных
Сама архитектура системы гарантирует неизменность хранимой информации. Если какой-либо объект был изменён, то у него будет уже другая контрольная сумма, и это будет уже другой объект, хранимый по другому адресу. При обращении по старому адресу объект будет прочтён в гарантированно первозданном виде, что исключает подмену, подделку и иные подобные действия, что неоценимо в области юриспруденции, безопасности, хранения ключевых доказательств и др.
Срок хранения (Retention)
Для каждого из записанных объектов может быть установлен определённый срок хранения, в течение которого он не может быть удалён. Этот срок может составлять от нескольких минут до нескольких лет, а также неограниченное хранение. В последнем случае удаление файла возможно только на заводе-изготовителе либо только физическим уничтожением устройства. Причём начало срока хранения не обязательно исчисляется с текущего момента, а может начинаться с любого определённого или даже неопределённого момента в будущем, как например хранение истории болезни в течение трёх лет с даты смерти пациента, которая на данный момент неизвестна.
Соответствие стандартам (Compliance)
Для нашей страны это пока ещё только зарождающаяся тенденция (как, например, указания Центробанка по сроку и требованиям хранения банковских документов[1][2]), однако, во всём мире уже немало стандартов (таких, как SEC 17a-4, HIPAA, 21CPR Part 11, DoD 5015.2 и др.), которые устанавливают срок и особенности хранения определённых файлов законодательно. Как следует из предыдущих пунктов, CAS-устройства способны справиться с этой задачей, что подтверждается сертификатами соответствия стандартам, позволяющими использовать их в определённых сферах.[3] [4]
Авторизированное и сертифицированное удаление (Audited delete, Reflections)
Удаление объекта в устройстве не происходит бесследно. Помимо того, что для этого могут потребоваться определённые права доступа, а также авторизация вышестоящего руководства, после удаления объекта остаётся определённая информация о факте удаления, а также о связанных с ним объектах и персонах. Так например устройство позволяет создать хранилище записей камер видеонаблюдения, которое позволяет установить был ли факт наличия/отсутствия определённых записей, а также пользователей, причастных к их удалению.
Единственность копии (Single Instance Storage)
Следствием архитектуры CAS является ещё одна интересная особенность: в случае, если записываются несколько одинаковых файлов, но под разными именами, то реально будет записан только один объект, так как контрольные суммы — и следовательно, адреса размещения всех объектов - совпадут, что значительно экономит дисковое пространство. Однако же при чтении каждый файл будет читаться под своим именем.
Прочие
Помимо перечисленных особенностей, CAS-устройства имеют и стандартные для дисковых устройств функции, такие, как масштабируемость, Web-интерфейс, RAID, репликация, shredding, развитые возможности мониторинга, диагностики, оповещения о неисправностях, а также обширные функции индексации, поиска по содержимому и пользовательским метаданным.
Применение устройств CAS
Исходя из перечисленных свойств, устройства CAS получили распространение для архивного хранилища, а также для концепции «активного архива» (например при использовании ПО «Disk Extender», «E-Mail Extender»), в которых неиспользуемые данные незаметно для пользователя перемещаются на более дешёвое архивное хранилище, заменяясь ссылкой на оригинальный файл, по которой его может прочесть пользователь, не подозревающий об его реальном местонахождении.
Примеры устройств CAS
Конкретные реализации CAS-устройств представлены продуктами:
- «Centera» фирмы EMC
- «HCP» («Hitachi Content Platform») компании Hitachi, ранее имевшее название «HCAP» («Hitachi Content Archive Platform»).
- «HP StorageWorks Reference Information Storage System» (RISS) Hewlett-Packard
- «Sun StorageTek 5800 System» Sun Storagetek
Примечания
- Инструкция N 9 по делопроизводству ЦБ РФ 1.
- Перечень документов, образующихся в деятельности центрального банка российской федерации, с указанием сроков хранения (утв. цб рф 23.06.1994 n 97)
- https://web.archive.org/web/20100816054409/http://www.emc.com/collateral/hardware/data-sheet/c1034-centera-compliance-sol.pdf
- Архивированная копия (недоступная ссылка). Дата обращения: 4 июня 2013. Архивировано 21 июня 2013 года.
Ссылки
- CAS решения: Особенности и применения. Журнал «Storage News» No 2 (31), 2007. Статья
- EMC Centera family. Официальный сайт производителя
- EMC Centera Data sheet. Соответствие требованиям регулятров
- HDS Object storage solutions. Hitachi Content Platform Официальный сайт производителя
- Regulatory Compliance and the Hitachi Content Platform
- Перечень документов, образующихся в деятельности центрального банка российской федерации, с указанием сроков хранения (утв. цб рф 23.06.1994 n 97)
- Инструкция N 9 по делопроизводству ЦБ РФ 1.