Машинное обучение меняет аварийное восстановление в Facebook
У гиперскейлеров миллиарды пользователей, которые получают доступ к их сервисам бесплатно, но забавно то, что эти пользователи ведут себя так, будто они платят за это, и ожидают, что эти сервисы будут всегда доступны, без каких-либо оправданий.
Организации и потребители также полагаются на Facebook, Google, Microsoft, Amazon, Alibaba, Baidu и Tencent в отношении услуг, за которые они тоже платят, и они разумно ожидают, что их данные всегда будут немедленно доступны и безопасны, услуги всегда доступны, их результаты поиска всегда появляются через миллисекунды после ввода запроса, а рекомендации, которые приходят к ним, персонализированы для них. Эти гипермасштаберы построили сети огромных центров обработки данных, охватывающих весь земной шар, чтобы обеспечить близость данных и услуг к своим клиентам и чтобы задержки не стали проблемой.
Учитывая все это, аварийное восстановление становится важнейшей частью бизнеса. Гипермасштабным компаниям необходимо убедиться, что бизнес может продолжаться в обычном режиме, даже если центр обработки данных выйдет из строя. Они используют несколько зон доступности, расположенных в пределах географических регионов, чтобы обеспечить доступ к данным, сервисам и рабочим нагрузкам через другие центры обработки данных, если один из них станет недоступен. Гипермасштабирующие компании, такие как Microsoft, которая делает Azure доступной в 140 странах, также имеют другие планы аварийного восстановления, от управления ролями в доменах сбоя до автоматического переключения пользовательского трафика в другой регион, если регион пользователя не позволяет пользователям геореплицировать Azure. Хранение в дополнительных регионах.
Для Facebook с ее 2,1 миллиарда пользователей и глобальными центрами обработки данных, расположенными от Санта-Клары, Калифорния, и Эшберна, Вирджиния до Лулео, Швеция, и Оденсе, Дания, аварийное восстановление не только имеет решающее значение для ее деятельности, но и является чем-то, чем занимаются гигантские социальные сети. работает постоянно.
«Возможность беспрепятственно справиться с потерей части глобальных вычислительных, хранилищ и сетевых ресурсов Facebook была давней целью инфраструктуры Facebook», — написала группа инженеров Facebook в недавней статье об инфраструктуре компании. «Наша команда аварийного восстановления регулярно проводит тренировки для выявления и устранения самых слабых звеньев в нашей глобальной инфраструктуре и стеках программного обеспечения. Подрывные действия включают в себя отключение всего центра обработки данных практически без предварительного уведомления, чтобы подтвердить, что потеря любого из наших глобальных Центры обработки данных приводят к минимальным нарушениям в работе бизнеса».
Обеспечение высокой доступности, хотя оно всегда имеет решающее значение для операций, стало еще более важным, поскольку роль искусственного интеллекта (ИИ) и машинного обучения стала еще более распространенной в операциях компании. Facebook использует машинное обучение в широком спектре услуг: от рейтинга в ленте новостей и поиска до показа рекламы, нацеленной на конкретных пользователей, и Facer для распознавания лиц, а также языкового перевода, распознавания речи и внутренних операций, таких как Sigma, для обнаружения аномалий. Компания также использует несколько моделей машинного обучения, включая глубокие нейронные сети, логистическую регрессию и машины опорных векторов. Существуют платформы глубокого обучения, такие как Caffe2 и PyTorch, а также внутренние возможности машинного обучения как услуги, такие как FBLearner Feature Store, FBLearner Flow и FBLearner Prediction.
Как мы отмечали в The Next Platform, большая часть распределенной и масштабируемой инфраструктуры машинного обучения Facebook основана на системах собственной разработки, таких как сервер графических процессоров Big Basin, и в значительной степени зависит от процессоров Intel и графических процессоров Nvidia для обучения. и вывод. По мнению авторов статьи, рост возможностей машинного обучения во всех операциях Facebook еще больше увеличивает важность аварийного восстановления.
«Как для обучения, так и для частей машинного обучения, важность готовности к стихийным бедствиям нельзя недооценивать», — написали они. «Хотя важность логических выводов для реализации нескольких ключевых проектов неудивительна, существует потенциально удивительная зависимость от частого обучения, прежде чем заметить измеримое ухудшение нескольких ключевых продуктов».