Внутри будущей стойки и микросерверного железа Facebook

Гиперскейлеры и разработчики облачных технологий задают темп инновациям на серверной арене в течение последнего десятилетия или около того, особенно и публично с тех пор, как Facebook запустил проект Open Compute Project в апреле 2011 года и наращивает темпы, когда Microsoft присоединилась к нему в начале 2014 года и фактически создала совершенно новый поток серверных инноваций, который был уникален и во многом несовместим с разработками Facebook.

Microsoft мало говорит о своих аппаратных разработках на последнем виртуальном саммите Open Compute Summit на этой неделе, в отличие от Facebook. Виджей Рао, директор по технологиям и стратегии Facebook, представил систему обучения машинному обучению «Zion» на саммите OCP в прошлом году с инновационной архитектурой модуля OCP Accelerator Module, которая, по нашему мнению, получит широкое распространение в отрасли из-за ее плотности и модульности. предложений и множество межсоединений и ускорителей, которые могут использовать эту архитектуру. Рао намекнул, что меньшие по размеру механизмы вывода M.2 можно объединить и использовать в проектах микросерверов Facebook «Yosemite», дебют которых состоялся в марте 2015 года, и в этом же месяце мы запустили «Следующую платформу». Шасси Yosemite представляет собой вычислительный салазок шириной в одну треть, который вписывается в 21-дюймовые корпуса Open Rack, поддерживаемые Facebook, и изначально имел до четырех однопроцессорных микросерверов, а также общую сеть и хранилище для этих узлов, а также до 24 таких салазок. плюс две полки электропитания и некоторое воздушное пространство заполнили одну открытую стойку, в общей сложности насчитывающую 96 серверов.

На нашем мероприятии The Next AI Platform в прошлом году Рао немного больше рассказал о том, как Facebook может массово работать параллельно с относительно скромными механизмами вывода и развертывать их внутри таких машин, как Yosemite, а в этом году на виртуальном саммите OCP инженеры Facebook точно изложили как они собираются это сделать, а также поговорить о будущих однопроцессорных и двухпроцессорных серверах на базе процессоров Intel «Cooper Lake» Xeon SP, которые также будут делать некоторые выводы благодаря поддержке половинной точности FP16 и Bfloat16. форматы данных и их обработка в векторных модулях AVX-512 на этих процессорах.

Шасси Yosemite составляет большую часть инфраструктуры Facebook, наряду с различными поколениями двухпроцессорных компьютеров. Мы описали, как Facebook настраивает свои серверы для различных рабочих нагрузок еще в 2016 году, и двухпроцессорные системы «Leopard» плюс Yosemite представляли подавляющую часть ее инфраструктуры, при этом машины с поддержкой графического процессора «Big Sur» имели относительно небольшой объем, но быстро росли. по важности. Но Facebook создал более двух машин и предоставил их с открытым исходным кодом, как об этом говорится в обзоре Кэтрин Шмидтке, директора по снабжению ASIC и заказного кремния в социальной сети:

Facebook разработал проекты для центров обработки данных, стоек, серверов, серверов хранения, различных видов мезонинных и сетевых карт, ускорительных модулей для серверов, модульных и шасси-коммутаторов, оптических трансиверов, не говоря уже о куче программного обеспечения. Вы могли бы построить довольно приличный центр обработки данных даже на основе старых проектов Прайнвилля, открытых в 2011 году, и наполнить его более дешевым и не требующим тщеславия оборудованием, если бы у вас хватило ума это сделать.

В прошлом году Facebook туманно говорил о модификациях, которые он может внести в шасси Yosemite, и о том, как он может создать массово-параллельные комплексы вывода, используя относительно скромные механизмы вывода от ряда поставщиков, использующих несущую карту «Glacier Point» для модулей вывода, которые вписываются в Йосемитский корпус. В этом году они предоставили подробную информацию об обновленном шасси Yosemite V2.5 и несущей карте Glacier Point V2, которая уже находится в производстве. У Facebook есть множество причин, по которым они хотят использовать чипы детского вывода на картах PCI-Express форм-фактора M.2. Во-первых, компания не хочет, чтобы логический вывод, который является жизненно важной частью ее стека приложений, имел огромную зону поражения, если что-то пойдет не так. Более того, логический вывод представляет собой довольно легкую и естественно массовую параллельную рабочую нагрузку (например, веб-обслуживание), которая естественным образом подходит для работы на небольших устройствах. Цена/производительность и тепловые характеристики этих устройств также очень привлекательны для выполнения логических выводов на графических процессорах или FPGA – во всяком случае, по расчетам Facebook. Но эти устройства не очень хороши в обучении и идут в совершенно противоположном направлении тому, что делает Nvidia, объединяя высокопроизводительные вычисления, обучение искусственного интеллекта и логические выводы искусственного интеллекта в новом графическом процессоре Ampere GA100, анонсированном на этой неделе. Но у Facebook есть и другие рабочие нагрузки, которые ему необходимо поддерживать, такие как кодирование и декодирование видео, которые также могут работать на флешках M.2, развертываться на картах операторов связи и размещаться на серверах Yosemite. Более того, его собственный компилятор GLOW, о котором мы здесь говорили, позволяет разделить модели вывода на несколько относительно небольших устройств, поэтому ему не нужно выбирать более тяжелые вычисления для выполнения вывода только потому, что у него более тяжелый вывод.