раздел 01 · подстраница 1

Персональные данные

Что это за тема

Персональные данные - информация, по которой можно прямо или косвенно определить конкретного человека: ФИО, телефон, email, адрес, фото, иногда даже связка из нескольких косвенных признаков. Это самая чувствительная категория при сборе данных, потому что её защищает закон, а не только правила площадки.

Зачем это понимать

Многие риски скрейпинга связаны именно с персональными данными. Собрать каталог товаров - одно. Собрать базу с контактами людей - совсем другое: здесь вступает в силу законодательство, и ответственность серьёзнее. Понимать эту границу нужно до того, как вы начали собирать.

Как это устроено

152-ФЗ (Россия). Закон о персональных данных. В общих чертах: обработка персональных данных (а сбор в базу - это обработка) требует законного основания, чаще всего - согласия человека. Просто то, что данные где-то опубликованы, автоматического права собирать их в свою базу не даёт.

GDPR (Европа). Европейский регламент о защите данных. Логика похожа: нужна законная основа для обработки, у человека есть права (узнать, что о нём собрано, потребовать удаления). Действует, если затрагиваются данные людей из ЕС, независимо от того, где вы находитесь.

Это очень общее описание, не юридическая консультация. Конкретику по своему случаю сверяйте с юристом.

Пример

Сбор цен и характеристик товаров - персональных данных нет, тема не про этот закон. Сбор объявлений вместе с именами и телефонами продавцов - уже персональные данные, и «они же открыты» не работает как оправдание. Если данные нужны обезличенно (например, статистика цен) - не тащите идентификаторы людей вовсе.

Антипаттерны

  • «Опубликовано - значит, можно собирать». Публикация человеком где-то не равна согласию на сбор в чужую базу.
  • Хранить персональные данные «про запас». Чем меньше собираете, тем меньше рисков. Не нужно для задачи - не собирайте.
  • Игнорировать запросы на удаление. У людей есть права на свои данные; их игнор усугубляет ситуацию.

Что дальше

Дальше - технические ограничения, которыми площадки усложняют автоматический сбор: rate limits, капчи, баны и антибот-системы.