Расширение инфраструктуры машинного обучения Facebook

Здесь, в The Next Platform, мы стараемся пристально следить за тем, как крупные гипермасштабирующие компании развивают свою инфраструктуру для поддержки крупномасштабных и все более сложных рабочих нагрузок.

Не так давно основные сервисы представляли собой относительно стандартные транзакции и операции, но с добавлением обучения и вывода на основе сложных моделей глубокого обучения (что требует двустороннего подхода к оборудованию) гипермасштабируемому аппаратному стеку пришлось ускорить свой шаг к идти в ногу с новыми требованиями к производительности и эффективности машинного обучения в больших масштабах.

Хотя Facebook не занимается инновациями в области специального оборудования так же, как Google, он поделился заметным прогрессом в тонкой настройке своих собственных центров обработки данных. От уникальной разделенной сетевой магистрали, системы визуализации на основе нейронных сетей до крупномасштабных обновлений серверных ферм и работы по совершенствованию использования графических процессоров — здесь есть на чем сосредоточиться с точки зрения инфраструктуры. Для нас одной из наиболее дальновидных разработок Facebook является собственная конструкция серверов, которые по состоянию на конец 2017 года обслуживают более 2 миллиардов учетных записей, в частности, новейший подход Open Compute, основанный на графических процессорах.

Система Big Basin компании, представленная на саммите OCP в прошлом году, является преемником машины первого поколения Big Sur, которую гигант социальных сетей представил на конференции Neural Information Processing Systems в декабре 2015 года. Если глубоко погрузиться в архитектуру, машина Big Sur оснащена восемью ускорителями Nvidia Tesla M40, которые вставляются в слоты PCI-Express 3.0 x16 и имеют 12 ГБ кадрового буфера GDDR5 для работы приложений CUDA, а также два процессора Haswell Xeon. Процессоры E5 в довольно высоком корпусе. С тех пор конструкция была расширена для поддержки новейших графических процессоров Nvidia Volta V100.

Facebook также утверждает, что по сравнению с Big Sur новая платформа V100 Big Basin обеспечивает гораздо больший прирост производительности на ватт, используя арифметику с плавающей запятой одинарной точности на каждый графический процессор, «увеличенную с 7 терафлопс до 15,7 терафлопс, а также память с высокой пропускной способностью ( HBM2), обеспечивающий пропускную способность 900 ГБ/с (в 3,1 раза больше, чем у Big Sur)». Команда инженеров отмечает, что благодаря этой новой архитектуре половинная точность также была увеличена вдвое для дальнейшего повышения пропускной способности.

«Big Basin может обучать модели, которые на 30 процентов больше благодаря наличию большей арифметической пропускной способности и увеличению объема памяти с 12 ГБ до 16 ГБ. Распределенное обучение также улучшается благодаря высокоскоростной связи NVLink между графическими процессорами», — добавляет команда. .

В Facebook говорят, что переход на «Big Basin» привел к 300-процентному улучшению пропускной способности по сравнению с Big Sur на ResNet-50, и что, хотя они довольны этими результатами, они все еще оценивают новые аппаратные конструкции и технологии.

Однако на данный момент их инфраструктура машинного обучения состоит только из стандартных процессоров и графических процессоров. Хотя неудивительно, что они не пошли по пути Google к созданию собственных специализированных ASIC для глубокого обучения в больших масштабах, учитывая различия в бизнес-целях, можно с уверенностью сказать, что Facebook пока придерживается своих позиций Nvidia и Intel, поскольку другие гиперскейлеры стремятся диверсифицировать рынок процессоров с помощью AMD Epyc.

В подробном описании своей текущей аппаратной инфраструктуры, которое Facebook только что опубликовал, социальный гигант описывает, как они поддерживают восемь основных типов вычислительных стоек и стоек хранения данных, которые соответствуют конкретным сервисам.

«Новые услуги, как правило, сопоставляются с существующими типами стоек до тех пор, пока они не достигнут уровня, требующего создания собственной конструкции стойки», — отмечают проектировщики инфраструктуры, указывая на приведенный ниже пример шасси 2U, вмещающего три полки с двумя разными типами серверов. Один из них поддерживает однопроцессорный ЦП для веб-уровня, который представляет собой рабочую нагрузку без сохранения состояния, ориентированную на пропускную способность, и может эффективно работать на процессоре с меньшим энергопотреблением, таком как Xeon D, с меньшим объемом памяти и флэш-памяти. Другой вариант салазок — это более крупный двухпроцессорный сервер с более мощным процессором Broadwell или Skylake и гораздо большим объемом оперативной памяти для решения более вычислительных и ресурсоемких рабочих нагрузок.

Новости

Расширение инфраструктуры машинного обучения Facebook