|
|
Интерконнект: 10 Гбит/с и даже больше
Огромное количество проблем, которые существуют в различных областях науки и промышленности, для своего решения требуют значительных вычислительных ресурсов. Будь то прогноз погоды, сложные инженерные расчеты, обработка геофизических данных, анализ больших массивов информации - решение всех этих задач на одном процессоре, даже самом мощном, заняло бы слишком большое время, а в некоторых случаях всей человеческой жизни не хватило бы, чтобы получить ответ на поставленные вопросы. Поэтому уже многие годы все высокопроизводительные вычислительные системы являются многопроцессорными.
В свою очередь, многопроцессорные системы тоже бывают различными - есть векторные системы, когда каждый процессор может параллельно выполнять много операций по обработке массивов данных, есть системы с общей памятью, когда все процессоры имеют возможность доступа к одним и тем же данным, и есть кластерные системы, когда множество вычислительных узлов (то есть отдельных компьютеров) связаны между собой высокоскоростной сетью, которая в обиходе носит имя "интерконнект" и с помощью которой осуществляется обмен информацией. Какая именно система нужна для решения той или иной задачи, зависит от множества условий - от того, как устроена модель решения, от используемого программного обеспечения, от условий, в которых эта система должна быть размещена. В последнее время для решения все большего количества задач используются кластерные системы - они во многих случаях позволяют достичь большего экономического эффекта по сравнению с другими системами, более просты в ремонте и эксплуатации, легче расширяемы, в случае когда потребителю такой системы требуется увеличить вычислительную мощность. В этой статье речь пойдет о различных интерконнектах - именно интерконнект во многом определяет эффективность работы кластера.
СетиСегодня существует большое количество сетей, позволяющих достичь необходимые характеристики для кластерных инсталляций, и компании, разрабатывающие интерконнект, периодически обновляют свои продукты, правда, с различной интенсивностью. Так или иначе, ежегодно проходят две суперкомпьютерных конференции: одна из них проводится летом в Гейдельберге, а вторая - осенью в США. И как правило, все события в мире высокопроизводительных вычислений приурочены к одной из двух конференций, чтобы анонс был одинаково "громким" для всех участников сообщества. Таким образом, суперкомпьютеры, равно как и новинки интерконнекта, считают не только по осени, но и в начале лета.Gigabit EthernetЭта технология оказывается самой доступной для организации сети передачи данных и подходит для инсталляций, которые не требуют интенсивного обмена данных между узлами кластера (как правило, на установках, использующих Gigabit Ethernet (GbE), части задачи независимо рассчитываются на различных узлах, а уже потом собираются в единый результат). Помимо невысокой пропускной способности, Gigabit Ethernet обладает довольно большими задержками - порядка 50 мкс при работе библиотек MPI. Основным преимуществом этой технологии является простота ее внедрения, потому что порты GbE сегодня есть на любой плате, а коммутатор стоит относительно недорого.Новая версия этой же технологии носит вполне объяснимое название: 10 Gigabit Ethernet. Он в 10 раз быстрее, время задержки значительно меньше, чем у GbE, что позволяет считать данную технологию одной из самых перспективных на рынке, к тому же наследует повсеместно распространенный Gigabit Ethernet. Однако цена оказывается высокой, хотя и наблюдаются устойчивые тенденции к ее снижению, в частности с начала текущего года цена в пересчете на один порт упала с $10 000 до $2500 летом и уже приближается к отметке $1000.
MyrinetЭтот интерконнект тоже весьма часто используется. Основные его преимущества - невысокая цена, накопленный опыт использования (Myrinet - зрелая технология) и наличие различного ПО и отдельных библиотек, работающих на кластерах, использующих Myrinet. В отношении интерконнекта от компании Myricom, все отраслевое сообщество уже несколько лет находилось в ожидании нового продукта, поддерживающего пропускную способность до 10 Гбит/с. Наконец, на конференции в Гейдельберге в 2005 году это свершилось, и сегодня массовый рынок, - конечно, если рынок интерконнекта вообще можно назвать массовым - получил доступ к продуктам с пропускной способностью 10 Гбит/с. Что интересно, новые адаптеры производства Myricom, Myri-10G, обладают совместимостью с коммутаторами 10 Gigabit Ethernet. Это позволяет подключать их к более распространенным, но пока относительно дорогим коммутаторам 10 Gigabit Ethernet. На момент публикации статьи 10-Гбит коммутаторы от Myricom еще не были анонсированы, но появятся они уже очень скоро - скорее всего, на осенней конференции, которая пройдет в Сиэтле.
Основные преимущества Myrinet — невысокая цена, опыт использования и наличие различного ПО и отдельных библиотек, работающих на кластерах
До этого Myrinet хотя и оставался одной из самых освоенных технологий для кластерных сетей, но позволял достигать пропускную способность лишь в 2 Гбит/с (либо 4 Гбит/с, при использовании двух каналов). При этом задержка на MPI-транзакциях составляет порядка 3 мкс. Теперь у этой технологии есть неплохой шанс, тем более что стоимость порта колеблется в районе $1000, как и для других высокопроизводительных решений.
Впрочем, для России Myrinet вряд ли можно назвать оптимальным решением, хотя бы в виду экспортных ограничений - при заказе этого интерконнекта всегда надо указывать конечного потребителя.
SCIТехнология SCI также достаточно интересна, хотя и весьма ограничена. Основной производитель интерконнекта SCI, компания Dolphin вошла в строй лидирующих поставщиков интерконнекта, объявив в марте этого года о выпуске решения, работающего со скоростью до 10 Гбит/с. Новое решение поддерживает шину PCI Express. Дело в том, что до летней конференции, на которой был сделан последний анонс, все продукты от Dolphin работали на шине PCI 64 МГц и даже не поддерживали PCI-X. К счастью, компания перепрыгнула через PCI-X и перешла сразу к PCI Express, как к более прогрессивной технологии.Новое решение от Dolphin, согласно заявлениям производителя, отличается малым временем задержки (порядка 1 мкс). Это можно считать преимуществом SCI, при том, что ранее адаптеры SCI давали задержку порядка 4 мкс на транзакциях MPI.
Следует отметить, что продукция компании Dolphin не распространена в России, и даже несмотря на объявление нового поколения высокоскоростных и доступных по цене решений SCI, она вряд ли станет популярнее.
InfiniBandЭто, пожалуй, самый интересный интерконнект на сегодня. Дело в том, что технология InfiniBand универсальна, она не является частным стандартом ни одной из компаний и поддерживается многими производителями. В частности, драйвер InfiniBand уже включен в саму ОС Linux, которая, как правило, используется для создания кластеров. И хотя, быть может, пока поддержка InfiniBand не находится на уровне, достаточном для применения в серьезных установках, но уже в конце этого года - начале следующего ситуация принципиально изменится, как заверяют представители сообщества.Примечательно, что за последний год появилось множество адаптеров InfiniBand, ориентированных на различные сегменты рынка. В частности, были выпущены адаптеры, которые используют оперативную память сервера и не имеют выделенной памяти. Стали доступны адаптеры с одним портом, они используют не два потока, а один - такие решения подходят для небольших кластерных инсталляций, где два порта принципиально не нужны. При этом разница в цене между продуктами верхнего и нижнего диапазонов, составляет порядка $200-300, что в пересчете на один узел весьма ощутимо.
Компания Mellanox анонсировала интегрированный чип для материнских плат, выполняющий роль контроллера InfiniBand, что повысит стоимость последней всего на $70. То есть в ближайшем будущем порты InfiniBand будут доступны уже встроенными в материнской платы, равно как и Gigabit Ethernet. Можно взглянуть на эти технологии как на прямых конкурентов. Более того, такие платы уже есть в портфелях компаний Iwill и Arima, они были продемонстрированы на выставке Computex '2005. Осенью прошлого года Mellanox анонсировала возможность достижения скорости передачи данных 20 Гбит/с, а на последней суперкомпьютерной конференции - до 60 Гбит/с при использовании интерфейса InfiniBand 12x. При этом адаптеры InfiniBand демонстрируют задержку на библиотеках MPI порядка 4 мкс, работая на шине PCI Express, и порядка 6 мкс на шине PCI-X.
Интересно, что IBM разработала собственный адаптер InfiniBand для крупных UNIX-серверов. Этот продукт, конечно, вряд ли станет массовым, но сам факт использования технологии такой компанией, как IBM, говорит о росте ее популярности.
Обращая внимание на программное обеспечение, следует отметить рост интереса к InfiniBand, в частности практически все крупные инженерные пакеты уже могут работать в том числе и с этой технологией. Возможности такой работы демонстрировали осенью 2004 года в Питтсбурге на суперкомпьютерной конференции многие компании, продолжились демонстрации другими анонсами в течение всего года. Причем такие компании, как Oracle, объявили о поддержке InfiniBand, и эта возможность была наиболее полно реализована во втором релизе Oracle 10g, также называемой GRID-базе данных Oracle.
Высокопроизводительные расчеты также стали чаще проводиться на базе кластеров, соединенных InfiniBand. Например, если еще год назад были доступны математические библиотеки MPI, лишь разработанные в университете Огайо и в MCSE, сегодня появилось множество коммерческих версий, включая разработки Intel и HP.
В последних версиях продуктов InfiniBand латентность была снижена до 2,8 мкс, что в полтора раза меньше, чем у адаптеров предыдущего поколения. В сочетании с тем, что цена на InfiniBand порты находится в пределах $1000, интерконнект можно считать весьма перспективным. Кроме этого, Mellanox уже давно выпускает коммутаторы с 24 портами InfiniBand, чего не удалось почти ни одному производителю интерконнекта.
QuadricsУ технологии Quadrics есть два критических преимущества, которые пока почти никем не были перекрыты. Одно из них - очень небольшое время задержки, порядка 2 мкс. Второе состоит в том, что Quadrics имеет на своем счету самые крупные инсталляции. Это значит, что при сборке большой системы можно гарантировать работу только для Quadrics, так как подобные проекты уже были реализованы в мире. Поэтому Quadrics пока остается лидером по части масштабности проектов. Однако о самой технологии, которая используется в решениях Quadrics уже более трех лет, сказать ничего определенного нельзя. Дело в том, что изначально этот интерконнект разрабатывался для американских оборонных и других специальных учреждений, потому его очень сложно экспортировать, в частности, в Россию.Вообще говоря, сейчас планируется большая инсталляция в Европе (во Франции), которая будет обладать вычислительной мощностью порядка 50 Тфлоп/с, в рамках которой будет использоваться Quadrics. Этот кластер предназначается для исследования в области ядерной физики.
PathScaleКомпания PathScale, разработчик программных и аппаратных решений для Linux-кластеров, представила на последней суперкомпьютерной конференции рекордные результаты производительности своего нового интерконнекта PathScale InfiniPath, впервые продемонстрировав его для широкого круга специалистов. Адаптер PathScale InfiniPath - уникальное решение, обеспечивающее рекордно низкое время задержки интерконнекта (до 1,3 мкс на библиотеке MPI) при пропускной способности 10 Гбит/с. PathScale InfiniPath подключается напрямую к системной шине HyperTransport, реализуя преимущества архитектуры AMD DirectConnect. Для построения кластерных систем использует стандартную инфраструктуру InfiniBand.Преимуществом PathScale InfiniPath является рост производительности с увеличением количества процессоров в вычислительном узле, что особенно актуально в связи с тенденцией перехода к использованию многоядерных процессоров. Так, при использовании на узле четырех процессоров PathScale InfiniPath позволяет достичь рекордной цифры в 8 млн сообщений в секунду. Наибольший выигрыш в производительности достигается при передаче сообщений маленького размера, что позволяет технологии PathScale InfiniPath обеспечивать во многих случаях лучшую, даже чем при использовании систем с общей памятью, производительность.
Развитие этого интерконнекта приведет к появлению плат с выведенной шиной HyperTransport, к примеру, такие продукты уже есть у Iwill. Вообще говоря, пока о признании нового решения говорить сложно, но в будущем, благодаря использованию эксклюзивной шины, они дадут серьезное преимущество кластерам на базе процессоров AMD Opteron.
Частные интерконнектыВ завершение хочется сказать, что некоторые вендоры используют частные технологии, предназначенные только для их установок. Так, достаточно интересным решением можно считать суперкомпьютер компании IBM BlueGene/L, использующий собственную уникальную технологию интерконнекта. Другая любопытная разработка - интерконнект BlackWidow в суперкомпьютере RedStorm производства компании Cray. Впрочем, останавливаться подробно на этих решениях вряд ли возможно, так как они закрытые. У многих других крупных компаний также есть собственные разработки интерконнекта, но и они используются лишь в частных инсталляциях.ЗаключениеКак можно видеть, мир высокопроизводительных вычислений многообразен, и на создание лучшей сети передачи данных претендуют многие компании. Подводя итог, скажем, что сегодня в лидерах оказываются InfiniBand и 10 GbE. А что касается остальных игроков рынка, практически все они смогли преодолеть рубеж в 10 Гбит/с - хороший показатель для индустрии.
Мнение 1.Руслан Заединов,руководитель направления центров обработки данных компании КРОК
Как известно, кластерная архитектура подразумевает наличие вычислительного поля из однотипных узлов и сети передачи данных между ними. Технические параметры узлов и коммуникационной сети выбираются в зависимости от характера расчетной задачи, которую будет решать суперкомпьютер. В частности, в зависимости от требований по пропускной способности и задержкам выбирается один из доступных на сегодняшний день типов межузлового соединения: Gigabit Ethernet, Myrinet, Infiniband, Quadrics или SCI. Справедливости ради следует отметить, что выбор межузлового соединения диктуется не только техническими требованиями, но и особенностями программного обеспечения суперкомпьютера. Например, не все из названных соединений могут поддерживаться операционной системой, интересующей заказчика. Повсеместно поддерживаемым интерконнектом на сегодняшний день, естественно, является Gigabit Ethernet, а самым медленно развивающимся - SCI. Впрочем, в ограничениях, связанных с поддержкой со стороны используемой ОС, есть и свои плюсы. Существует ряд интерконнектов, которые крайне тесно интегрированы со специфическим аппаратным обеспечением вычислительных узлов и их операционными системами. Это NumaFlex компании SGI и High Performance Switch компании IBM. Проработанность этих технологий в тандеме со специфической архитектурой вычислительных узлов SGI и IBM позволяет достигать максимальных показателей производительности кластера в целом.
Что касается наших проектов, суперкомпьютер в НПО "Сатурн" включает в себя 64 узла - серверы IBM xSeries 336 на базе процессоров Intel Xeon с 64-разрядными расширениями. Кроме того, в состав кластера входят два мастер-узла IBM xSeries 455 на базе процессоров Itanium 2. В качестве межузлового соединения используется сеть Infiniband, построенная на коммутаторе TopSpin. Используется параллельная файловая система IBM GPFS, которая обеспечивает одновременный доступ к данным всем узлам кластера с высокой пропускной способностью.
Мнение 2.Олег Кукушкин,управляющий директор группы компаний ARBYTE
Как правило, клиенты принимают непосредственное участие в выборе интерконнекта, и основным критерием является соотношение цена/производительность, причем производительность комплексная, т.е. узлов и интерконнекта в целом, на конкретном целевом приложении, поэтому компания проводит предварительное тестирование комплекса в различных конфигурациях в нашем центре высокопроизводительных вычислений или в составе инфраструктуры клиента.
Нашим специальным решением для большинства инсталляций являются 1U-серверы Zeeger 1D и Alkazar. Эти устройства наиболее популярны, так как позволяют применять разные типы процессоров и могут быть использованы и просто как серверы и как узлы кластера с высокой плотностью (два ЦПУ на 1U), не имеют ограничений по типу применяемого интерконнекта. Zeeger 1D - новое поколение компактных серверов с усовершенствованной системой охлаждения. Для клиентов, которым для решения задач мощности отдельного сервера недостаточно, а род решаемой задачи не позволяет использовать кластер, мы рекомендуем 1U-решения SGI Altix 330.
Что касается кластеров, наиболее часто наша компания использует Gigabit Ethernet, нередко использование Infiniband. В качестве высокопроизводительного SMP-решения мы применяем оборудование Silicon Graphics с его фирменным интерконнектом NUMAlink. Архитектура NUMAlink, основанная на процессорах Intel Itanium 2 имеет самый быстрый в индустрии интерконнект (6,4 Гбит/с), устраняет ограничения по объему оперативной памяти.
Редакция благодарит технический отдел компании "Т-Платформы" за помощь в подготовке статьи.
|
|