Машинное обучение меняет аварийное восстановление в Facebook

У гиперскейлеров миллиарды пользователей, которые получают доступ к их сервисам бесплатно, но забавно то, что эти пользователи ведут себя так, будто они платят за это, и ожидают, что эти сервисы будут всегда доступны, без каких-либо оправданий.

Организации и потребители также полагаются на Facebook, Google, Microsoft, Amazon, Alibaba, Baidu и Tencent в отношении услуг, за которые они тоже платят, и они разумно ожидают, что их данные всегда будут немедленно доступны и безопасны, услуги всегда доступны, их результаты поиска всегда появляются через миллисекунды после ввода запроса, а рекомендации, которые приходят к ним, персонализированы для них. Эти гипермасштаберы построили сети огромных центров обработки данных, охватывающих весь земной шар, чтобы обеспечить близость данных и услуг к своим клиентам и чтобы задержки не стали проблемой.

Учитывая все это, аварийное восстановление становится важнейшей частью бизнеса. Гипермасштабным компаниям необходимо убедиться, что бизнес может продолжаться в обычном режиме, даже если центр обработки данных выйдет из строя. Они используют несколько зон доступности, расположенных в пределах географических регионов, чтобы обеспечить доступ к данным, сервисам и рабочим нагрузкам через другие центры обработки данных, если один из них станет недоступен. Гипермасштабирующие компании, такие как Microsoft, которая делает Azure доступной в 140 странах, также имеют другие планы аварийного восстановления, от управления ролями в доменах сбоя до автоматического переключения пользовательского трафика в другой регион, если регион пользователя не позволяет пользователям геореплицировать Azure. Хранение в дополнительных регионах.

Для Facebook с ее 2,1 миллиарда пользователей и глобальными центрами обработки данных, расположенными от Санта-Клары, Калифорния, и Эшберна, Вирджиния до Лулео, Швеция, и Оденсе, Дания, аварийное восстановление не только имеет решающее значение для ее деятельности, но и является чем-то, чем занимаются гигантские социальные сети. работает постоянно.

«Возможность беспрепятственно справиться с потерей части глобальных вычислительных, хранилищ и сетевых ресурсов Facebook была давней целью инфраструктуры Facebook», — написала группа инженеров Facebook в недавней статье об инфраструктуре компании. «Наша команда аварийного восстановления регулярно проводит тренировки для выявления и устранения самых слабых звеньев в нашей глобальной инфраструктуре и стеках программного обеспечения. Подрывные действия включают в себя отключение всего центра обработки данных практически без предварительного уведомления, чтобы подтвердить, что потеря любого из наших глобальных Центры обработки данных приводят к минимальным нарушениям в работе бизнеса».

Обеспечение высокой доступности, хотя оно всегда имеет решающее значение для операций, стало еще более важным, поскольку роль искусственного интеллекта (ИИ) и машинного обучения стала еще более распространенной в операциях компании. Facebook использует машинное обучение в широком спектре услуг: от рейтинга в ленте новостей и поиска до показа рекламы, нацеленной на конкретных пользователей, и Facer для распознавания лиц, а также языкового перевода, распознавания речи и внутренних операций, таких как Sigma, для обнаружения аномалий. Компания также использует несколько моделей машинного обучения, включая глубокие нейронные сети, логистическую регрессию и машины опорных векторов. Существуют платформы глубокого обучения, такие как Caffe2 и PyTorch, а также внутренние возможности машинного обучения как услуги, такие как FBLearner Feature Store, FBLearner Flow и FBLearner Prediction.

Как мы отмечали в The Next Platform, большая часть распределенной и масштабируемой инфраструктуры машинного обучения Facebook основана на системах собственной разработки, таких как сервер графических процессоров Big Basin, и в значительной степени зависит от процессоров Intel и графических процессоров Nvidia для обучения. и вывод. По мнению авторов статьи, рост возможностей машинного обучения во всех операциях Facebook еще больше увеличивает важность аварийного восстановления.

«Как для обучения, так и для частей машинного обучения, важность готовности к стихийным бедствиям нельзя недооценивать», — написали они. «Хотя важность логических выводов для реализации нескольких ключевых проектов неудивительна, существует потенциально удивительная зависимость от частого обучения, прежде чем заметить измеримое ухудшение нескольких ключевых продуктов».

Новости

Машинное обучение меняет аварийное восстановление в Facebook