CХД для секвенирования нового поколения на базе Hitachi NAS Platform

Технология Data-Select
Разработанная нами инновационная технология Data-Select позволит вам уменьшить затраты на ИТ и ускорить рост вашего бизнеса.

Основные функции высокопроизводительного решения CХД для геномных исследований на базе технологии Hitachi NAS Platform включают в себя:

  • широкие возможности масштабируемости
  • аппаратное ускорение работы  файловой системы,
  • объектно-ориентированная файловая система Hitachi NAS Silicon File System.
  • возможность интегрировать несколько уровней устройств хранения данных корпоративного класса 

Соответствие повышенным требованиям к производительности и масштабируемости.

Аппаратное ускорение файловой системы Hitachi NAS Platform (размером 1ПБ) занимает центральное место решений для хранения данных Hitachi. Чтобы устранить типичные ограничения традиционных программных решений, она использует параллельную обработку и суммирует производительность множества дисков. Файловая система  и структура каталогов  Hitachi NAS Platform поддерживает миллионы файлов в одном каталоге, и тысячи одновременно работающих пользователей. Аппаратное ускорение позволяет каждому из этих систем для обработки до 280,000IOPS (Hitachi NAS Platform 4100), перемещать большие объемы данных в файле размером до 256TB и предлагают хранения емкостью до 16PB. По мере роста данных и  количества пользователей, или при ускорении производительности рабочей станции или сервера приложений, системы хранения могут масштабироваться до 8 узлов в одном кластере. Емкость единого глобального кластера пространства имен достаточно, чтобы контролировать и управлять всем объёмом памяти.

Кластеризация и кластер имен (CNS) объединяет в одном кластере мощь всех 2-8 узлов.  Существует единая структура каталогов, которая обеспечивает единое логическое представление данных, независимо от того, где они находится в физической памяти. Когда приложение требует дополнительной вычислительной мощности для скорости передачи данных, параметр ЦНС позволяет нескольким узлам, чтобы действовать на эту проблему. Файловые системы могут быть назначены и переназначены на виртуальные серверы и физические узлы по мере изменения требований использования и производительности без потерь пользовательских данных, доступа к файлам или глобальной доступности.

Untitled-3

Структура виртуализации, состоящая из корпоративных виртуальных серверов, виртуальных файловых систем с глобальными пулов хранения ЦНС и виртуальных с параллельным чередованием RAID, обеспечивают инфраструктуру хранения данных, которую можно быстро и легко расширить. Физический Hitachi NAS Platform сервер можно разделить на виртуальные серверы, которые, в свою очередь, могут перемещаться внутри  системы в соответствии с изменением требований к производительности или доступности. Файловая система может быть присоединена к определенному виртуальному или физическому серверу. Эта возможность виртуализации встроена в серверной платформе и работает без ухудшения производительности и позволяет динамически реагировать на всплески спроса на высокой скорости передачи данных или обработки данных. Например, чтобы сбалансировать рабочую нагрузку, проекты NGS, требующих высокого уровня ресурсов хранения в настоящее время могут быть перемещены на выделенный сервер в пуле устройств хранения данных.

Динамическое кэширование чтения резко повышает совокупную производительность п  (до 400%) при повышенных нагрузках по по операциям чтения за счет кэширования чтения данных в кластере. Клиенты NGS с профилями рабочей нагрузки с интенсивным чтением и способность стадии данные в оптимизированной рабочий процесс может использовать кэширование чтения для масштабирования производительности, когда и как они нуждаются в ней. Активные файлы копируются с уровнями хранения ниже производительности на высокопроизводительных Fibre Channel или кэш SSD уровня хранения для использования на физических или виртуальных серверах. Это агрегирует пропускную способность и уменьшает время отклика для предотвращения качества в обслуживании проблемы во время всплесков спроса. В качестве примера, критические данные исследования, как библиотеки тысяч геномных последовательностей, можно масштабировать в соответствии с возможностями ввода / вывода расширения вычислительных кластеров и вычислительных сетей в высокой производительности и технических вычислений пространства.

Настроенный для непредсказуемых нагрузок, платформы Hitachi NAS Platform построены с нуля, чтобы справиться с изменчивостью в производительности, размера и долговечности данных NGS в ситуациях, когда многие приложения нуждаются в доступе к данным в различных точках во времени. На этапе анализа, может потребоваться очень большой набор данных включает в себя несколько сотен терабайт. Эти данные часто будут доступны в высокой производительности ввода / вывода всплесков. С другой стороны, проанализированные данные затем используется другим приложением, которое может иметь меньшую пиковую емкость хранения и меньшие требования к рабочим характеристикам, но с комбинированием чтения и записи. Это представляет собой смешанную рабочую нагрузку на систему, с различными требованиями масштабируемости на различных этапах жизненного цикла данных, что затрудняет настройку системы на какую-либо конкретную рабочую нагрузку.

По мере того как платформы  Hitachi NAS Platform динамически адаптируются  к изменяющимся нагрузкам и требованиям масштабируемости они обеспечивают оптимальную производительность. Это возможно благодаря виртуализации серверов и систем хранения. Hitachi NAS Platform обеспечивает высокий уровень одновременного доступа и производительности. Виртуализация серверов и разделов хранилищ, позволяет таким образом, изолировать различные рабочие нагрузки, предотвращая их взаимное влияния друг на друга,  а так же автоматически выделяя ресурсы хранения данных только по мере необходимости.

 Защита ранее вложенных инвестиций

В Hitachi NAS Platform системы могут консолидировать и объединить уже существующую инфраструктуру хранения данных, обеспечивая масштабируемое и высокопроизводительное решение СХД для среды NGS. Исследовательские организации могут добавлять хранилище в любое время дл новых приложений или бизнес-потребностей. Они также могут консолидировать разрозненные устаревших системы хранения в единый пул управления без выключения оборудования.

В современных условиях, новые серверные технологии и сети развернут в рамках предприятия, системы хранения данных должны быть обновлены для удовлетворения потребностей ИТ-инфраструктуры. Подавляющее большинство конкурирующих NAS платформ при модернизаций системы хранения данных требуют совершенно новой установки продукта.

Модульное решение от компании Hitachi Data Systems устраняет эти затраты на замену оборудования.

Это обеспечивает гибкость для обновления встроенного программного обеспечения с помощью новых функций, или серверных модулей без замены всей системы. Если вам просто нужно больше емкости для хранения данных, нужно просто добавить в систему сетевые массивы Hitachi или сторонних производителей без дополнительных затрат на добавление серверных модулей.

Таким образом, архитектура   настраивается в соответствии с потребностям хранения в конкретной ситуации.

■■ Лучший в своем классе система Hitachi NAS Platform  для NGS позволяющая наращивание как  с помощью сетевых хранилищ сторонних производителей, так и модулей Hitachi NAS Platform , включая SSD, FC, SAS и SATA дисков, а также ведущих ленточных библиотек.

■■ Заказчики могут повторно использовать свои предыдущие унаследованные системы хранения данных. Решение предоставляет возможность динамически расширять глобальное пространство имен для включения системы хранения сторонних производителей, тем самым защищая предыдущие инвестиции

Упростить Управление Данными для всех типов пользователй

Решения по управлению данными стандартно поставляемое   с Hitachi NAS Platform  предназначены для ИТ-администраторов и нового класса пользователейисследователей. Они могут легко управлять и настраивать растущие данный секвенирования, которые обычно размещаются в   различных варианты хранения.

Интеллектуальное многоуровневое хранение данных для нескольких классов данных секвенирования

Интеллектуальная функция многоуровневого хранения хорошо подходит к различным НГС данных требований, поскольку это позволяет лаборатории, выбирать для хранения конкретного типа данных соответствующие физические носители. В результате этого возможно достижение  оптимального уровня производительности, мощности и стоимости без необходимости управлять и обслуживать несколько систем хранения. Данные, которые часто запрашиваются в течение определенного рабочего процесса могут храниться на носителях самой высокого уровня производительности системы хранения данных, а старые данные , которые не используются в рабочем процессе может быть перемещены на мене производительные носители для снижения стоимости хранения. Кроме того, данные необходимые на краткосрочный период (например, необработанные данные документа) могут быть сохранены на другой тип устройства по сравнению с данными, которые должны храниться в течение более длительного времени, такими как промежуточные данные или данные конечных результатов.

Unbenannt1

Использование сетевых хранилищ Hitachi NAS Platform   с устройством  для нового поколения секвенирования Illumina.

Решения для систем хранения данных  для нового поколения секвенирования  в реальных производственных условиях должны обеспечить высокую производительность, несмотря на сложные нагрузки нескольких приложений, где общий анализ пропускной способности значительно меняется с течением времени. Однократной оптимизации под одно тестовое исследование недостаточно, поскольку это может привести к деградации общей производительности в условиях сложных, ресурсоемких, смешанных рабочих процессов. Учитывая все эти вопросы, Hitachi совместно с Illumina  была создана конфигурации приведенная ниже, чтобы изучить проблемы, нюансы, и потенциальные выгоды при интеграции и оптимизации систем хранения для сред NSG.

Unbenannt2

При проведении геномных исследований существуют три типа пользователей общей инфраструктуры сети хранения, которые конкурируют за производительности, емкости и использования системы. Во-первых, анализаторы генома являются точками сбора данных и создают первую серию результатов, которые должны храниться и анализироваться. Далее, как только эти данные получены, вычислительный кластер выполняет анализ данных, обычно в виде параллельных пакетных заданий. Наконец, исследователи, работающие в сотрудничестве требуется прозрачный доступ к данным, производимым всеми остальными. Комбинированная нагрузка от этих 3 классов пользователей смешивается и имеет непредсказуемый характер. Важно, что общее решение для хранения данных обеспечивает высокую производительность и снижает сложность управления информационными активами.

Требования анализаторов генома  Illumina к ИТ инфраструктуре

Есть несколько  видов программного обеспечения при  проведения геномного анализа:

  • Программное обеспечение для управления отдельными анализаторами генома (программное обеспечение для управления последовательностью или SCS, в случае Illumina)
  • Программное обеспечение для анализа изображений
  • Процедуры статистического анализа при  пост-обработке

Различные версии программного обеспечения геномного анализа может иметь очень разные рабочие нагрухочные характеристики. Это обусловлено стремительным развитием технологий в этом сегменте. Например, операции обработки изображение в предыдущих версиях программного обеспечения Offline Base colling (OLB) v1.5 вызывает преимущественно нагрузки последовательного чтения. Решения для хранения настроены в этом случае на хорошую пропускную способность последовательного чтения. Однако новое программное обеспечение Realtime Analysis (RTA) v1.6 приводит эти операции к узлу SCS. По этой причине сегодня необходимо искать и внедрять решения для хранения данных, что может обеспечить более сбалансированную производительность. Эффективные решения должны быть способны обрабатывать вариации смеси операций чтения/записи и всплески IOPS.

Разнообразные требования по нагрузке.

На рисунках ниже показаны фактические нагрузки во время тестов приложения. Эти две часто используемых при анализе операций, необходимых для получения геномных последовательностей из исходных данных анализатора, имеют значительно отличающимися требования к производительности системы хранения по операциям считывание/запись и IOPS.

Unbenannt3

Unbenannt4

Цифры лишний раз убеждают в том, что для удовлетворения различных расчетных нагрузок, используемых в биомедицинских исследовательских организаций сегодня решение для хранения должны иметь широкий спектр возможностей наращивания производительности. Он должен иметь возможность обрабатывать богаты набор вариаций чтения и записи, высокую пропускную способность и нагрузку с ярко выраженными пиками IOPS.

BlueArc® кэшированное динамическое чтение повышает производительность

Этот тест приложений Illumina высвечивает общее требование к вычислительной среде  во многих медико-биологических науках. В этих случаях система хранения может быть ограничена уровнем линейной производительности какой-либо одной системы.
Однако программное обеспечение, кэшированное динамическое чтение удалось преодолеть это ограничение. При использовании с группой Hitachi сетевых кластеров хранения, каждый сетевой узел хранения каждый поддерживает собственный динамический кэш, но известные файлы доступны на всех остальных серверах кластера.. Это приводит к резкому совокупному улучшения производительности, так как каждый сервер может реагировать на любой запрос на чтение данного набора горячих файлов.

Выводы
Тестирование Illumina обеспечивает лучшее понимание требований, предъявляемых общей системы хранения, следующего поколения систем виртуализации и связанные с ними процедуры анализа и вычислительные алгоритмы. Испытания подтвердили, что новые секвенсоры производят гораздо более разнообразные данные чем их предшественники и при внедрении систем  хранения требуют более инновационные и высокопроизводительные решения.

Hitachi Data Systems Hitachi NAS Platform   Сетевые системы хранения обеспечивают лучшую в классе для сред Секвентирования нового поколения: смешанных рабочих нагрузок, требующих высокой производительности и iops

Снижение совокупной стоимости владения благодаря превосходному управлению и улучшенные возможности использования