Как интернет-магазины защищают персональные данные технически: на каких этапах нужна защита, какие бывают угрозы, как их отслеживают и какие сложности возникают
Клиентские данные в электронных магазинах большая ценность — они нужны для построения лояльного сообщества вокруг бренда и сервисов магазина, выявления поведенческих паттернов, таргетирования рекламы, прогнозирования потребления и формирования оптимальных складских запасов, обучения нейросетей. То есть без преувеличения — ценнейший актив онлайн-сервиса. Поэтому их нужно не только эффективно использовать, но и бережно хранить.
О том, как это делать, рассказывает заместитель генерального директора ГК "Гарда" Рустэм Хайретдинов,
Известное противоречие — цифровые бизнесмены стремятся собрать как можно больше данных и сделать доступ к ним как можно проще, а защитники информации настаивают на хранении только необходимых данных с максимально возможным ограничением доступа. Оптимальный баланс между этими противоречащими друг другу подходами каждый бизнес находит самостоятельно, если только это не касается персональных данных. Оборот персданных в России регулируется государством, требования по их сбору и хранению определены Федеральным Законом 152 "О персональных данных" и подзаконными актами, выбор средств и методов защиты персданных также определяется ими.
Какие данные используются в бизнесе и на каких этапах работы требуется защита
Для нужд бизнеса обычно используются обезличенные персональные данные — они маскируются под UserID, ничего не говорящим номером. Такой подход позволяет одновременно выполнить требования Закона и использовать данные в бизнесе. Ведь бизнесу интересна не сама личность потребителя, не физическое лицо, а именно покупатель — как и на каком устройстве он выбирает товар, чем оплачивает, откуда и куда заказывает, какие ресурсы посещает и т.д. Любой заказ, даже не состоявшийся, генерирует огромное количество данных, собирать и анализировать их необходимо для коммерческих и маркетинговых задач. Однако анализ анализом, а защиту данных, составляющих, скорее всего, коммерческую тайну, никто не отменял.
Защищать данные необходимо на всем жизненном цикле: в местах сбора, во время хранения и обработки, во время передачи, резервного копирования, тестирования приложений и т.д. И во всех аспектах: для обеспечения доступности (на обычном языке это означает — чтобы данные не уничтожили), для обеспечения конфиденциальности (чтобы данные не утекли) и для обеспечения целостности (чтобы данные не подменили).
Какие бывают угрозы и какие методы борьбы обычно используют компании
Если классифицировать угрозы по источнику, то их делят обычно на внешние — вызванные хакерскими атаками, и внутренние — исходящие от легальных пользователей, злоупотребляющих доверенным доступом. Противодействие каждому типу угроз требует наличия у компании определенных процессов контроля, реализуемых с помощью специализированного программного обеспечения и обученных сотрудников информационной безопасности.
Даже простое перечисление инструментов защиты может занять не одну страницу. Обычно к инструментам противодействия хакерским атакам относят антиDDoS, антифишинг, антивирусы, системы обнаружения вторжений (IDS/IPS), различные межсетевые экраны (классические — FW, прикладного уровня — WAF/WAAP, многофункциональные — NGFW), сканеры уязвимостей (VMS), системы обмана хакеров (Deception), и т.д.
С защитой от внутренних угроз обычно ассоциируются межсетевой экран уровня баз данных (DBF), системы противодействия утечкам (DLP), системы мониторинга файловых операций (DCAP/DAG), системы маскирования данных, мониторинг внутрисетевого трафика (NDR), системы противодействия мошенничеству (antifraud),контроль привилегированных записей (PAM) и т.д.
Каждый из этих инструментов сфокусирован на решении специфической задачи и не может противодействовать сложным многокомпонентным атакам, когда каждый шаг хакера (от проникновения в систему до заметания следов после нанесения ущерба) выглядит легитимным. Для противодействия сложным атакам все события безопасности, включая легитимные, собираются в специальной производительной базе данных центра операций безопасности (SOC — Security Operstion Center), где преднастроенные сценарии, квалифицированные специалисты и технологии искусственного интеллекта находят среди всех событий признаки нарушений и выстраивают из них цепочки атак.
Сегодня защита инфраструктуры, в которой хранятся данные — сложный процесс, требующий как постоянно обновленных до актуального состояния инструментов, квалифицированной команды, постоянно обучающейся новым тактикам и техникам хакеров. Не каждому онлайн-магазину это по карману, поэтому большую популярность набирают сервисы информационной безопасности, при которых какую-то функцию безопасности можно отдать в аутсорсинг. Сегодня самые популярные сервисы: antiDDoS и WAF, набирает популярность аутсорсинг SOC. Также часто аутсорсятся экспертные сервисы — тест на проникновение и расследование инцидентов информационной безопасности.
Какие сложности возникают при защите данных. И как их решать
Защита данных осложняется тем, что опасные операции с ними часто выглядят легитимными для систем мониторинга, которые реагируют только на значительные аномалии — на выгрузку большого сегмента базы данных или одномоментное удаление больших массивов. Те же опасные действия, происходящие небольшими шагами, да еще перемежающиеся легальными действиями, не выглядят для систем мониторинга как что-то опасное.
Для того, чтобы система мониторинга понимала, какие действия представляют угрозу (не важно, случайные они или нет), нужно ей сообщить, кто, что, когда и в каком виде должен и имеет право делать с данными. На первый взгляд это нерешаемая задача — в компаниях огромное число данных, большое количество пользователей и задач, постоянные изменения в данных, пользователях и процессах.
Не обязательно сразу пытаться классифицировать каждую транзакцию, вполне можно для начала кластеризовать задачи по-крупному.
1. Разделение прав доступа
Часто у сотрудников прав доступа к данным больше, чем необходимо — часто процессы так организованы, чтобы за каждым действием сотрудник не обращался в поддержку. Тем более такие права есть у администраторов.
Например, сотрудник, по должности работающий с пищевыми продуктами, часто имеет возможность менять скидки и в других продуктовых категориях. Это возникает либо из-за невозможности разделять доступ по продуктовым категориям в конкретной реализации электронного магазина, либо такие права не отбираются при переводе с одной продуктовой группы на другую, и т.д. Если вдруг изменения проводит администратор, имеет смысл поинтересоваться, по чьему поручению он делает не свою работу. Наблюдать за необычными действиями сотрудников и реагировать на них — часть работы по противодействию внутренним угрозам.
2. Уменьшение числа сырых данных, которые выдаются для аналитики
Аналитикам, собственно, данные не нужны. Им нужны результаты их обработки. Поэтому различные предустановленные расчеты и отчеты для аналитиков позволяют выдавать им сразу результаты анализа, а не сырые данные — это и экономит время высокооплачиваемых сотрудников, и увеличивает защиту данных.
Сырые данные обычно обрабатываются автоматически на основании запросов. При этом сложно придумать задачу, в которой пользователю нужно выгрузить их в сыром виде. Чаще всего нужно решение двух типов:
- скоринг (например, ответить на однозначный вопрос "с вероятностью Х%", где 0% трактуется как "нет", а 100% — как "да");
- консолидированные данные, желательно — выраженные в графике (например, "рост прибыли по кварталам этого года").
Сегодня оба типа запросов пользователи могут делать уже с помощью больших языковых моделей.
3. Отслеживание подозрительной активности с помощью ИИ
Сейчас в моде роботизация рабочих мест с помощью искусственного интеллекта, и это тоже можно использовать для защиты данных. С помощью программного робота можно видеть действия сотрудника с данными: к каким именно он обращается, как часто, с какой частотой, в каком количестве их требует, к одним и тем же данным обращается или все время к разным.
Всего таких параметров можно придумать более сотни — чтобы можно было составить предельные рамки ролевой модели. И если вдруг какой-то из наблюдаемых параметров (например, частота или объем данных) кратно изменится, можно начинать бить тревогу.
Пример 1
Сотрудник в день обращается в среднем к нескольким десяткам файлов. Внезапно с его учетной записи начинается обращение уже к тысячам. Это точно не нормальное поведение — либо взломана его учетная запись, либо сотрудник сам решил что-то найти за рамками своих должностных обязанностей, либо он не соблюдал цифровую гигиену и запустил вредоносное программное обеспечение, например, шифровальщик. В любом случае надо блокировать подозрительную учетную запись и запускать процедуру расследования инцидента.
Пример 2
Сотрудник в день отсылает в среднем 20 писем, но сегодня с его ящика начинают разлетаться тысячи — вполне возможно он заражен вирусом, который включил его учетную запись в бот-сеть и теперь он рассылает спам. Или сотрудник сам решил заняться рассылкой рекламы для какого-то своего личного проекта.
А, может быть, ресурсы компьютера сотрудника были загружены в среднем на 40%, а сегодня приближаются к ста процентам — возможно, сотрудник словил вирус-майнер или сам установил программу-майнер.
4. Сбор шаблонов уже расследованных нарушений с данными
Такой сбор позволит предотвращать схожие по паттерну и шагам нарушения.
Например, преступник сначала совершил действие 1, потом действие 2 и так до 15, после чего и произошло нарушение. Это значит, что если пользователь сделал уже, скажем, 12 шагов, полностью повторяющих действия нарушителя, мы предсказываем 13-й шаг и когда пользователь делает в точности предсказанное, мы с большой долей вероятности можем сказать, что он приближается к нарушению и готовы уже блокировать его действия, чтобы похожее нарушение предотвратить.
Такой мониторинг проводится с помощью специализированного программного обеспечения, находящим опасные корреляции в миллиардах разрозненных событий (чаще всего оно относится к категории антифрод-решений). Такие программы крупные компании онлайн-ритейла разрабатывают самостоятельно, а средние и маленькие компании могут купить платформы и настроить их на решение своих задач.
5. Маскировка данных
В принципе, большинству пользователей корпоративных приложений не нужны полные данные, поэтому их можно маскировать, показывая только часть. С этим приемом вы часто сталкиваетесь в финансовых или телеком сервисах: "подтверждающая СМС отправлена на номер +7(***)*****11", "остаток на карте XXXX XXXXXXXX 1234" и т.д.. Все это тоже увеличивает защищенность данных.
Защита при передаче данных бизнес-партнерам и подрядчикам
Передача данных подрядчикам для тестирования цифровых сервисов или обучения нейросетей также требует маскирования чувствительных данных, но не прямого их сокрытия, а умной замены. На звездочках можно мало что протестировать и, тем более, невозможно на них чему-то обучить нейросеть. Поэтому фамилия должна оставаться фамилией, но ненастоящей, номер паспорта — номером паспорта, но в реальности несуществующим и т.д. Для этого используются специальные программы и справочники, покрывающие практически все виды структурированных данных: от географических названий до IP-адресов.
Например, передавая пул фамилий клиентов сервису по организации лотерей, не обязательно передавать ему реальные персональные данные. Можно заменить их на другие при помощи специальных программ по маскированию данных.
Фамилии будут заменены на другие с соблюдением частоты встречаемости, пола и национальности, населенные пункты, в которых проживает клиент — на реально существующие похожего размера в том же часовом поясе, номер телефона будет соответствовать номеру региона и оператору. Такие изменения позволяют лотерейным компаниям применять обычные правила розыгрыша, чтобы победители были однородно распределены по стране, возрастам и т.д. Утечка таких данных по вине подрядчика не несет никакой угрозы. Когда же будет объявлен победитель, с помощью обратной процедуры — демаскирования, можно восстановить персданные, по которым победители будут найдены и награждены.
Защита данных сегодня — это серьезный набор разнообразных методов, не имеющих какого-то практического объединения, единых политик, которые можно контролировать технически. Десятки разных типов технических решений используются для защиты, но каждая из них защищает какой-то сегмент: доступ, транзакции, СУБД, файловые хранилища, каналы передачи, приложения и т.д. Какого-то единого решения с кнопкой "сделать хорошо так, чтобы плохие действия с данными не происходили, а хорошие не замедлялись" нет, и не предвидится. Поэтому защита данных с помощью разнообразных встроенных и наложенных инструментов — долгий путь и каждая компания пройдет его самостоятельно.