Рост числа корпораций, использующих искусственный интеллект, делает технологию привлекательной мишенью кибермошенников.
Автоматизация снижает человеческий контроль и создает новые возможности для эксплуатации уязвимостей. Каковы основные сценарии атак на ИИ и как им противостоять, RSpectr рассказал руководитель ИБ-практики Accenture в России Андрей Тимошенко.
ОТ ТЕОРИИ К ПРАКТИКЕ
Бизнес-департаменты компаний все чаще принимают решения с помощью искусственного интеллекта (ИИ). Понимая суть бизнес-процессов, злоумышленники могут эффективно манипулировать машинным обучением компаний-жертв, используя в своих целях нейросети.
По данным Accenture, 79% руководителей сегодня считают, что новые технологии внедряются быстрее, чем обеспечивается реальная информбезопасность (ИБ) их эксплуатации. Именно поэтому нужно уже сейчас заниматься улучшением защиты всего, что связано с корпоративными ИИ- и ML-инструментами (машинное обучение).
ВСЕ АТАКИ МОЖНО РАЗДЕЛИТЬ НА ДВА ТИПА: ВО ВРЕМЯ ОБУЧЕНИЯ МОДЕЛИ И НА ГОТОВОЕ ИИ-РЕШЕНИЕ
Первые направлены на незаконное получение знаний и информации из данных участников обучения. Цель злоумышленников – понять или украсть параметры модели либо данные, которые использовались во время ее обучения. Вторые ищут уязвимости и бэкдоры в уже готовых и работающих ИИ-решениях.ДАННЫЕ НА СТАДИИ ОБУЧЕНИЯ
Яркий пример – кейс южнокорейской компании Scatter Lab, которая использовала 9,4 млрд переписок в мессенджере KakaoTalk без согласия клиентов для создания чат-бота на базе ИИ-алгоритма. Разработчики не обезличивали информацию (имена, адреса, номер телефона) в обучающих данных (в итоге она стала регулярно просачиваться из чат-бота после его запуска в эксплуатацию), а кроме того, хранили весь массив информации в качестве обучающих данных в открытом доступе на Github более шести месяцев. Каждый злоумышленник мог получить и использовать эту информацию в любой момент времени, а также влиять на процесс создания бота, внося изменения в данные для обучения модели.
ТАК ЖЕ ХАКЕРЫ ИЛИ КОНКУРЕНТЫ НАХОДЯТ СЛАБЫЕ МЕСТА В КРЕДИТНЫХ ОРГАНИЗАЦИЯХ
Например, крупный банк использует модели машинного обучения для автоматизации решений по заявкам на получение кредита. Пользователи могут отправлять личную информацию и получать одобрение или отказ в зависимости от их данных. Модель машинного обучения предоставляется через API (программный интерфейс приложения), поэтому мелкие дочерние банки могут получить доступ к ней. Конкурирующий банк стремится воспроизвести функциональность этого ML-решения и использует существующую информацию о клиенте для отправки множества поддельных заявок непосредственно в серверную часть модели. На основе результатов обработки этих фейков можно построить похожую модель с такой же точностью, повысив свою конкурентоспособность.ЦЕЛЬ АТАКИ: ОБМАН ИИ-МОДЕЛИ
Хороший пример – кейс антивирусного ПО Cylance, которое применяет ML-модель для анализа двоичных файлов с целью выявления вредоносных программ (ВПО) через изучение конкретных строк. Они использовались при машинном обучении и сравнивались с безопасными файлами. В итоге исследователи смогли обмануть Cylance так, что модель обнаружения ВПО воспринимала «хакерские» файлы как безопасные. Этого удалось добиться путем добавления «доброкачественных» строк к некоторым особенно популярным вредоносным файлам (WannaCry, SamSam и другим).
Другой пример – обман голосовых помощников в рамках так называемой dolphin attack (атаки на голосовых помощников). Исследования показали, что можно передавать звуковые инструкции на неслышимых для человеческого слуха низкоуровневых частотах и заставлять Alexa, Siri и Google Assistant незаметно совершать нужные преступникам действия.
ТАКАЯ АТАКА ДАЖЕ НА ЗАБЛОКИРОВАННОМ УСТРОЙСТВЕ ПОЗВОЛЯЕТ НАБРАТЬ НОМЕР ТЕЛЕФОНА, ОТКРЫТЬ ССЫЛКУ, ИЗМЕНИТЬ МАРШРУТ НА НАВИГАТОРЕ
РЕЦЕПТЫ ЗАЩИТЫ
Это далеко не полный перечень всех актуальных ИИ-угроз на настоящий момент, однако они покрывают базовые варианты развития ситуации с потенциальными взломами и недобросовестными манипуляциями.
Сегодня существует несколько подходов, обеспечивающих возможности безопасного развития ИИ- и ML-моделей с сохранением конфиденциальности данных и защитой от всех перечисленных сценариев атак. Например, это дифференциальная конфиденциальность (Differential Privacy) или анонимизация (обфускация) данных (Data Anonymization). Кроме того, существует ряд технологий безопасных вычислений.
Навык компетентного комбинирования этих инструментов позволяет эффективно отвечать на основные ИБ-вызовы сегодня и сохранит актуальность в ближайшие годы.
Давайте рассмотрим несколько решений, способных защитить IT-инфраструктуру компаний.
Federated Learning (FL) – распределенная модель, которая использует алгоритмы машинного обучения для анализа пользовательских данных и формирования когорт.
На практике применение технологии включает четыре составляющие:
- распространение модели: сервер инициирует глобальную ИИ-модель и распределяет ее среди всех клиентов для обучения на их устройствах и данных;
- локальное обучение: каждый клиент обучает и оценивает модель на собственных данных, не передавая их на сервер модели;
- агрегирование моделей: клиенты отправляют обученные модели на сервер, который объединяет их в одну глобальную;
- распространение: сервер перераспределяет единую модель среди всех клиентов, и они начинают следующий раунд обучения.
- сервер разбивает ИИ-модель и отправляет клиенту ее часть;
- пользователь и сервер обучают/обновляют свою часть модели;
- обмена необработанными данными от клиента к серверу не происходит.
Federated Split Learning (FSL):
Методы машинного обучения (ML), которые позволяют обучать модели ML по данным, распределенным между клиентами, не требуя прямого доступа к их необработанной информации. Это комбинация двух предыдущих подходов:
- сервер инициализирует полную модель, разбивает ее на две части и отправляет пользовательскую часть каждому клиенту, которых может быть сколько угодно много;
- клиенты запускают процесс SL на основе собственного набора данных и обучают модель для каждого пакета данных;
- затем они отправляют разбитую информацию на сервер, а также обученную клиентскую модель;
- сервер продолжает обучать модель на своей стороне, а затем выполняет обратное распространение до разделенного слоя и отправляет градиенты разбитых данных клиентам.
После нескольких итераций сервер интегрирует клиентскую часть модели с соответствующей серверной отдельно для каждого клиента. Затем формируется глобальная SL. Сервер разделяет общую модель и перераспределяет клиентскую часть среди всех клиентов. Процесс запускается снова.
Так каждый клиент сохраняет контроль над своими данными, не передавая сырых на сервер, а владелец модели – контроль над ней. Технология считается оптимальной для обучения ИИ- и ML-моделей с точки зрения ИБ.
Homomorphic Encryption (HE):
Гомоморфное шифрование позволяет производить определенные математические действия с закодированным текстом и получать защищенный результат. Технология подразумевает сложение и умножение зашифрованных чисел. Расшифровка результатов вычислений даст результаты, равные тем, что выполнены для незащищенных значений.
Недостаток – обучение очень медленное, что делает метод неприемлемым для больших и сложных наборов данных. Но все же в некоторых областях технология очень эффективна, особенно там, где требуется обеспечить в первую очередь защиту информации, например, данных о состоянии здоровья.
ВЫВОДЫ
ИИ и ML, помимо увеличения эффективности процессов и информационных технологий, создают угрозы кибербезопасности, так как уязвимы к компьютерным атакам. Существующие ИБ-модели нацелены чаще на реагирование. В новых реалиях больше внимания следует уделять предвидению угроз и обеспечению непрерывности операций.
Поскольку горизонты угроз и векторы потенциальных кибератак постоянно расширяются, необходимо принимать на вооружение стратегии развития цифровых инструментов. Они позволят не стать жертвой хакеров ни на этапе начальной адаптации новых технологий, ни в процессе их использования.