раздел 01

Что можно и что нельзя

Что это

Прежде чем собирать данные, стоит ответить на три вопроса: что говорят правила площадки, что разрешает robots.txt и какого рода эти данные - публичные, приватные или персональные. Ответы задают рамку дозволенного.

Правила площадки (ToS)

ToS (Terms of Service, условия использования) - договор между площадкой и пользователем. Многие площадки прямо прописывают в ToS, что автоматический сбор данных запрещён или ограничен. Открывая сайт, вы формально соглашаетесь с этими условиями. Поэтому первый шаг - прочитать раздел про автоматический доступ и сбор данных в ToS интересующей площадки.

robots.txt

robots.txt - текстовый файл в корне сайта (например, site.com/robots.txt), в котором площадка указывает, какие разделы можно обходить автоматическим программам, а какие нет. Это не закон и не техническая защита - это выраженная воля владельца сайта. Уважать robots.txt - норма хорошего тона и сигнал добросовестности. Игнорировать его - аргумент против вас, если дойдёт до спора.

Публичное против приватного

Ключевое различие:

  • Публичные данные - доступны без логина, открыты всем. Технически собрать проще, и риск ниже, но это не отменяет ToS и закон о персональных данных.
  • Приватные данные - за логином, в личных кабинетах, в закрытых группах. Сбор таких данных - почти всегда нарушение: вы обходите контроль доступа.

Персональные данные

Отдельная и самая чувствительная категория - данные, по которым можно идентифицировать человека: ФИО, телефон, почта, адрес. Их сбор и обработку регулирует закон: в России - 152-ФЗ, в Европе - GDPR. То, что данные «лежат на виду», не делает их свободными для сбора в базу. Подробно - на подстранице «Персональные данные».

Пример

Каталог товаров магазина с ценами, открытый без логина и не запрещённый в robots.txt и ToS, - низкий риск. Профили пользователей с их контактами, даже если открыты, - высокий риск из-за персональных данных. Данные из личного кабинета - нельзя.

Антипаттерны

  • «Раз видно в браузере - значит, можно». Видимость не равна разрешению.
  • Игнорировать robots.txt и ToS. Это первое, на что посмотрят в споре.
  • Собирать персональные данные «потому что они открыты». Открытость не снимает требований закона.

Подразделы