При построении централизованных систем хранения данных основной проблемой, с которой сталкиваются системные архитекторы, является организация эффективного размещения данных.
К хранению различных видов данных предъявляются совершенно разные требования по скорости доступа, надежности хранения, готовности, стоимости и многие другие. Именно поэтому для размещения разных видов данных применяют разные системы хранения. Для хранения различных видов информации можно спроектировать систему с максимально возможными характеристиками, которая будет покрывать весь спектр требований, предъявляемых к хранению. Большой объем, высокая производительность и полная отказоустойчивость в результате дадут высокую стоимость, чрезмерное энергопотребление и дорогостоящее сопровождение. Ресурсы такой системы будут использоваться на 20-40%, а стоимость владения будет чрезвычайно высокой. Для того чтобы избежать подобных ситуаций, применяют идеологию иерархического хранения, другими словами комбинируют различные системы в единое пространство хранения данных. Такая идеология хранения данных получила название Hierarchical Storage Management (HSM).
Для HSM-систем в классическом понимании принято рассматривать 3 уровня хранения on-line, near-line и off-line. Каждый из уровней хранения максимально оптимизирован для выполнения конкретной задачи, а в комплексе эти уровни хранения составляют единый том хранения, управление которым осуществляют серверы метаданных. Важной особенностью HSM решений является свободное перемещение данных между уровнями хранения, которое осуществляется либо в автоматическом режиме, либо по запросу пользователя.
В любой организации существует как минимум три вида данных:
«Мгновенной доступности – такой вид данных используется постоянно и доступ к ним должен предоставляться в режиме реального времени с высокой скоростью, например рабочие проекты.
«Текущего доступа» – к такому виду данных обращение происходит периодически, скорость доступа в этом случае не является критичным параметром, однако доступность в режиме реального времени также необходима, например базы знаний и информационные ресурсы.
«Отложенного доступа» – данные такого типа могут предоставляться по требованию, при этом доступность к таким данным осуществляется в прогнозируемое время, например архивные проекты.
Давайте рассмотрим эти три вида данных с точки зрения их размещения на хранилищах разного уровня.
Данные «мгновенной доступности» чаще всего размещают на дисковых массивах, которые способны обеспечить on-line доступ для множества пользователей на высоких скоростях. В системах хранения такого уровня используются высокоскоростные накопители SAS или SSD, RAID-контроллеры с алгоритмами балансировки нагрузки и поддержкой множественности путей доступа, программно-аппартные средства виртуализации и т. д. Стоимость таких систем составляет от нескольких десятков до сотен тысяч долларов в зависимости от объема хранящихся данных.
Для данных «текущего доступа» обычно используют дисковые массивы с накопителями SATA больших объемов или ленточные библиотеки с большим количеством приводов. Современные ленточные библиотеки в состоянии обеспечивать передачу данных на скоростях до 120 МБ/с с каждого привода при линейном чтении. Это позволяет использовать ленточные библиотеки для on-line доступа при низкой интенсивности запросов на линейном чтении больших объемов. Основное преимущество таких систем заключается в оптимальном соотношении их стоимости к объему хранимой информации. Стоит отметить, что возможность обработки данных непосредственно на уровне ленточной библиотеки появляется только при использовании программного обеспечения HSM, средствами стандартных операционных систем реализовать подобный функционал невозможно.
Объем хранилища для файлов «текущего доступа» очень сильно зависит от задачи и от величины прироста объема данных в единицу времени. Существуют специальные формулы для его расчета. На практике обычно получается, что объем хранения для файлов «текущего доступа» в 10-50 раз больше объема хранения для файлов «мгновенной доступности».
Для данных «отложенного доступа» существует два варианта размещения – либо на ленточных и оптических библиотеках с низкой скоростью доступа, либо отдельно хранимые носители информации, которые добавляются в устройство чтения по запросу. В случае отдельно хранимых носителей, емкость виртуального тома для файлов «отложенного доступа» ограничивается только размерами помещения, в котором они хранятся.
Ленточные и оптические библиотеки обладают идеальными параметрами для организации долговременного хранения больших объемов информации. По сравнению с дисковыми массивами, которые постоянно потребляют электроэнергию для питания всех жестких дисков, находящихся в системе, библиотеки расходуют электроэнергию только в момент работы с конкретным носителем. На сегодняшний день только лента и оптические носители позволяют обеспечить гарантированное хранение информации на срок до 40 лет.
Возможность комбинирования различных уровней хранения позволяет создавать как универсальные тома, так и узкоспециализированные, адаптированные под конкретную задачу. Регулируя емкости систем хранения различных видов, системные архитекторы могут оптимизировать систему по производительности и стоимости. За процесс формирования и управления иерархическими томами HSM отвечают серверы метаданных. На такие серверы устанавливается программное обеспечение HSM; в момент, когда происходит обращение к данным, пользователь обращается к одному из таких серверов. Сервер метаданных в свою очередь предоставляет доступ к уровню «мгновенной доступности» и выгружает на этот уровень запрашиваемые файлы. Таким образом, серверы метаданных выполняют роль не только управляющих серверов, но еще и неких сетевых роутеров. В некоторых случаях для таких серверов применяют термин Data Mover (серверы, осуществляющие трансфер данных).
Программные продукты, обеспечивающее иерархическое хранение, используют собственные, специализированные файловые системы. Основным отличием таких файловых систем является возможность задавать своеобразные маркеры для каждого из файлов. Маркеры по своей сути сходны с атрибутами файлов в стандартных файловых системах. Именно благодаря состоянию маркера система определяет, на какой из уровней хранения должен быть перемещен тот или иной файл. В момент обращения специализированная файловая система интерпретирует запрашиваемый файл в формат той платформы, с которой происходит обращение. Для пользователя все операции с файлом происходят как при работе с обычной сетевой папкой.
Еще одной интересной особенностью является то, что пользователь видит все находящиеся в системе файлы независимо от того, на каком из уровней хранения они находятся. Даже те файлы, которые на данный момент недоступны и находятся в режиме off-line, могут быть перемещены, скопированы или удалены по запросу пользователя. Например, пользователь может отправить команду на удаление файла, размещенного на ленточном картридже, который в свою очередь находится в off-line хранении на стеллаже. В таком случае системному администратору придет запрос с требованием добавить картридж с определенным номером в ленточную библиотеку. В тот момент, когда запрашиваемый файл станет доступен, система выполнит команду удаления.
Если запрашиваемый файл находится на картридже в библиотеке, система перемещает картридж в свободный привод и «разматывает» файл на дисковый массив.
Системы HSM можно разделить на два типа по принципу доступа к данным. Системы первого типа предоставляют доступ к HSM тому только для хранения. При построении систем такого типа пользователь получает возможность сохранять данные на виртуальный том иерархической системы. Для обработки данные необходимо выгрузить на клиентскую станцию, а после обработки отправить обратно на хранение. Системы второго типа позволяют обрабатывать данные непосредственно на томе HSM. В любом случае, данные, расположенные в «отложенном доступе», вначале перемещаются на уровень «мгновенной доступности» и только после этого пользователь получает к ним доступ.
Некоторые производители HSM-систем обеспечивают резервирование на уровне серверов метаданных. Несколько серверов совместно управляют иерархическим томом, один из таких серверов является «ведущим» (active) – именно на нем происходят все операции по синхронизации данных и по управлению «ведомыми» (passive) серверами системы. В случае выхода из строя «ведущего» сервера, его функционал передается одному из ведомых. Благодаря дублированию информации о структуре иерархического тома на нескольких серверах, минимизируются возможные точки отказа системы. Стоимость такого решения выше, чем у решений без поддержки резервирования, однако помимо резервирования, наличие нескольких серверов метаданных позволяет организовать отдачу данных с нескольких узлов одновременно.
Применение HSM-систем подразумевает, что в составе одного решения для различных типов данных используются оптимальные среды хранения. Таким образом, в состав иерархической системы могут одновременно входить дисковые массивы, ленточные библиотеки, а также данные, находящиеся в off-line хранилище. Дисковые массивы служат для обеспечения «мгновенного доступа» к данным, ленточная библиотека предназначена для размещения данных «отложенного доступа», а возможность использования off-line хранения снимает ограничение по максимальному объему данных, доступных в составе системы. Помимо этого, в некоторых решениях иерархического хранения существует возможность организовать многоуровневое хранение на основе дисковых массивов. В таких решениях дисковое пространство делится на «быстрое» (SAS/FC) и «медленное» (SATA), существенно более дешевое и емкое. Такого рода решения наиболее востребованы для данных, которые требуется хранить длительный срок, при этом не требуется предоставлять множественный высокоскоростной доступ к «медленной» части иерархического тома. Типичным задачами для таких решений являются хранение и покадровая обработка графических или видеофайлов, хранение конструкторской документации, информации медицинских обследований и т. д.
Перераспределять данные по различным устройствам хранения позволяет встроенный в систему HSM алгоритм назначения правил. Правила к файлам или группам файлов могут применяться как в автоматическом режиме, так и по требованию пользователя. В соответствии с правилами, назначенными пользователем, файлы или группы файлов попадают на хранение именно на тот уровень, который для этого предназначен. Правила применяются по маске файла, по дате создания, дате последнего обращения к файлу, по принадлежности файла к определенной папке.
Корпорация QLogic представляет третье поколение решений для конвергентных сетей 10 Гбит/с Ethernet, включающих в себя адаптеры для конвергентных сетей 10 Гбит/с Ethernet серии 8200, интеллектуальные адаптеры 10 Гбит/с Ethernet серии 3200 и решение конвергентной локальной сети для материнских плат cLOM.
Поставщик кластерных систем хранения данных NAS, компания Isilon Systems Inc, добавила поддержку протокола iSCSI к операционной системе OneFS, благодаря чему появилась возможность получить доступ к данным на "блочном уровне".
Компания DILARIS получила статус Авторизованного партнера Quantum и является официальным реселлером всего спектра оборудования Quantum на территории РФ.