4 жовтня приблизно о 11:39 ранку за східним часом (о 17:39 за київським часом) Facebook і пов'язані з ним WhatsApp і Instagram були відключені від Всесвітньої мережі. При введенні їх доменних імен в рядку браузера DNS-резолвер не повертав відповідну IP-адреса, в результаті маршрутизатори інтернет-провайдерів (ISP) не могли направити користувачів на сервери цих соціальних мереж. Замість сторінки Facebook чи Instagram користувачі бачили на екрані повідомлення про помилку, меседжери Facebook і WhatsApp не працювали, а мобільні додатки показували старий контент, який зберігся в кеші, але не могли оновити стрічку.

Все виглядало так, що хтось в Facebook «видалив» карту маршруту, яка вказує комп'ютерам у всьому світі, як знайти сайти компанії в глобальній мережі.

Як згодом виявилося, один з адміністраторів в центральному офісі компанії запустив оновлення записів протоколу BGP, але «щось пішло не так».

BGP (Border Gateway Protocol) — протокол міждоменної IP-маршрутизації, один з головних механізмів, що гарантують функціонування інтернету. Саме BGP забезпечує обмін інформацією про маршрутизації між автономними системами (AS) в інтернеті. У великих груп маршрутизаторів, на які спирається інтернет, перманентно оновлюються списки можливих маршрутів, які застосовуються для доставки мережевих пакету до цільових місць. Без BGP доставка пакетів просто неможлива, тому інтернет або певний його сегмент просто не буде працювати.

На помилку системного адміністратора наклалися множинні прорахунки в організації роботи компанії. Адже не тільки сотні мільйонів користувачів не могли отримати доступ до соціальної мережі, але і самі співробітники компанії втратили зв'язок один з одним за допомогою внутрішніх інструментів комунікацій. Справа в тому, що електронна пошта і меседжери Facebook працювали через ті самі домени, які виявилися заблокованими.

Масла у вогонь підлили зміни в політиці компанії щодо персоналу, викликані множинними карантинами і локдаунами. Співробітники перебували на робочих місцях тільки в центральному офісі, а всі майданчики керувалися дистанційно. Та коли зв'язок обірвався, треба було фізично бути присутніми на місцях, і тут з'ясувалося, що фахівці не можуть увійти в будівлю датацентру, оскільки не працює система авторизації.

Все це призвело до того, що усунення наслідків збою зайняло майже 7 годин, що катастрофічно багато для компанії рівня Facebook. За даними CNBC, «це наймасштабніше відключенням Facebook з 2008 року, коли мережа була недоступна протягом доби для 80 мільйонів користувачів».

Чому гальмував Google, Telegram, Twitter та інші сервіси

Через деякий час після «падіння» Facebook виявилося, що «глючать» багато інших додатків і сервісів. І навіть сайти і соціальні мережі, ніяк не пов'язані, на перший погляд, з соціальною мережею, почали працювати з затримками. Для цього є дві причини.

По-перше, через високу популярність Facebook та Instagram DNS-трафік зріс у кілька десятків разів. Це призвело до затримок і уповільнення роботи інших платформ. Адже користувачі не могли зрозуміти, в чому проблема, і намагалися знову і знову зайти на сайти соціальної мережі.

Крім того, коли любителі соцмереж виявили, що на сайт Facebook вони зайти все-таки не можуть, то переключили увагу на інші соціальні мережі, такі як Twitter, Telegram, Snapchat, YouTube. В результаті останні відчували перевантаження і працювали з перебоями. Так, Павло Дуров повідомив, що 4 жовтня всього за один день число реєстрацій в Telegram збільшилася на 70 мільйонів, чого раніше ніколи не було.

Відчувалися й значні проблеми в роботі додатків, в тому числі мобільних. Справа в тому, що багато програм і сервісів використовують інструменти Facebook для авторизації користувачів і таргетування онлайн-реклами. І якщо бізнес-логіка складного додатка зав'язана на сервіси Facebook і в його коді задіяний SDK Facebook, але сам домен перестає бути доступним — то починає збоїти і сам додаток. Тому ті розробники, які вже зіткнулися з подібною проблемою в минулі роки, «відключили» свої додатки від Facebook, щоб більше не залежати від сторонніх сервісів. Отже цього разу число постраждалих стало набагато менше.

Хто винен?

Найбільш цікаве питання — а чому, власне, в Facebook стався такий масштабний збій? Чи були це зловмисні дії співробітників, або ж некомпетентність чи збіг несприятливих обставин? Відповіді на це питання немає. Можна лише стверджувати, що ймовірність зовнішньої хакерської атаки вкрай малоймовірна. Причини катастрофи треба шукати всередині компанії, оскільки саме Facebook керує записами BGP.

Як показує досвід, одна з основних категорій ризиків в області ІТ, в тому числі в сфері інформаційної безпеки, — це помилки персоналу. Причому в особливій мірі це стосується персоналу, який володіє значними повноваженнями — адміністративними, технічними і т.д. Будь-яка людина може помилитися, навіть якщо це дуже кваліфікований фахівець. І такі помилки можна компенсувати тільки наявністю детально і чітко прописаних регламентів, дотримання яких жорстко контролюється.

Якщо говорити саме про Facebook, то схоже, що в регламенті не врахували того факту, що багато фахівців перейшли на віддалений режим роботи і тому у фізичному доступні не було експертів, які могли швидко дістатися і усунути помилку. Тому навряд чи варто розглядати варіант диверсії.

З іншого боку, дивно, що у такої великої компанії в регламенті не були передбачені відповіді на всі можливі позаштатні події.

Хоча багато фактів виглядають дивно, наприклад, викликає питання, чому не працювала система доступу, через яку співробітники не могли потрапити в офіси. Відомо, що в бізнес-практиці є такий термін як Business Continuity Management, тобто, механізм управління безперервністю бізнесу. І ось саме він описує обхідні шляхи, які дозволяють бізнесу більш-менш нормально працювати навіть в разі нештатної ситуації. Наприклад, мова йде про переключення на резервне обладнання, використання деяких обхідних шляхів і т.д . Тут цього не було. Чому — складне питання. У ЗМІ проскакувала інформація, що в компанії оптимізували витрати і скоротили штат. І весь персонал сидів тільки в одному з офісів, тобто їх просто фізично складно було швидко доставити в датацентри, щоб перезапустити сервери і т. д. Звичайно, має бути фахівець високого рівня кваліфікації на місці, який здатен оперативно вирішити подібні проблеми. Та логічно припустити, що в компанії вирішили, що такого фахівця містити дорого, тим більше, коли мова йде про рішення проблем, які трапляються один раз в декілька років.

Чи може це повторитися в майбутньому?

ІТ-технології розвиваються швидко і, щоб успішно конкурувати, ІТ-гіганти змушені перманентно впроваджувати новітні технології. Тому спрогнозувати в майбутньому подібні збої цілком можливо. Будь-який продукт вимагає відповідної підтримки і вартість її іноді — дуже недешева. З урахуванням території охоплення і масштабів бізнесу Facebook все це вимагає колосальних ресурсів.

Для обкатки нових технологій в великих компаніях існує таке поняття, як тестова і production зони. Саме в тестовій зоні фахівці аналізують роботу нових технологій. І тільки якщо все пройшло успішно, новий продукт впроваджують в робоче середовище. Звичайно, від помилок ніхто не застрахований, тим більше, що у великих компаніях це ускладнюється тим, що в них працює величезна кількість людей і деякі з них можуть бути недостатньо кваліфікованими або навіть мають шкідливі мотиви. Тут в гру повинні вступити служби безпеки та інформаційної безпеки — саме вони займаються контролем таких ризиків і за допомогою регламенту, елементів технічного контролю, політик розподілу повноважень роблять все необхідне, щоб ці ризики знизити.

Звичайно, повністю усунути ризики не можна, зате можна мінімізувати. Якщо ж не займатися управлінням ризиками, то подібні збої будуть відбуватися все частіше і частіше.

Світ рухається до диджиталізації: чим нам загрожують такі аварії?

Україна разом з іншими країнами вступила на шлях диджиталізаціі. У той же час, стрімкі темпи переходу нашої країни на «цифрові рейки» вражають навіть деякі прогресивні країни ЄС. І оскільки країна не має таких потужних фінансових і людських ресурсів, як великі західні корпорації або країни, в один прекрасний день це може привести до колапсу, коли цифрові сервіси не працюють, а інші шляхи — вже малодоступні.

Тим більше, що перші «дзвіночки» вже були. Коли на початку травня перестала функціонувати «Дія», то виявилося що один з фізичних серверів, на якому хостився гіпервізор і кілька віртуальних серверів, просто залило водою і він припинив працювати. Це було «вузьке» місце, про яке не подумали.

Для держави було б правильно мати якісь резервні механізми поза ІТ-систем, і на випадок глобального краху забезпечити доступність бізнес-процесів без інтернету, без комп'ютерів, за допомогою ручної праці. Наприклад, йдеться про паперові копії документів замість цифрових. Нехай така система буде не дуже продуктивна, але хоч трохи робоча. І це актуально не тільки в масштабах держави, а й для середнього та великого бізнесу.

Підсумовуючи, можна сказати, що недавній збій в ФБ є ще одним нагадуванням про те, що сьогоднішній світ спирається на надзвичайно складну і взаємопов'язану систему, яка складається з безлічі алгоритмів, протоколів і технологій. Регламенти, стандарти, кооперація і обмін знаннями між ІТ-організаціями є запорукою працездатності сотень цифрових сервісів для мільйонів користувачів у всьому світі.