раздел 05

Шпаргалка

Весь курс на одной странице: чек-лист перед сбором, светофор рисков и куда смотреть.

Чек-лист перед сбором

  1. Есть ли официальный API? Если да - используйте его, дальше можно не читать.
  2. Что говорит ToS площадки? Найдите раздел про автоматический сбор.
  3. Что разрешает robots.txt? Откройте site.com/robots.txt.
  4. Данные публичные или за логином? За логином - не трогаем.
  5. Есть ли персональные данные? ФИО, телефоны, почты - особый режим, см. закон.
  6. Какая частота? Бережно, с паузами, реагируя на ошибки 429.
  7. Соберу ли только нужное? Минимизация - меньше данных, меньше рисков.

Светофор рисков

| Зона | Что это | Что делать | | --- | --- | --- | | Зелёная | Официальный API; публичные данные без запрета и без персональных | Можно, на условиях площадки | | Жёлтая | Публичное, но ToS против; высокая частота; спорный статус данных | Серая зона, риск на вас - взвесить | | Красная | За логином; персональные данные без основания; обход защит | Не делаем |

Что запомнить

  • Технически можно ≠ разрешено. Видимость в браузере - не право на сбор.
  • Защита - это сигнал. Капчи и антибот означают «площадка против».
  • Ответственность на пользователе. В серой зоне отвечаете вы.
  • API - первый выбор. Легально, стабильно, с понятными лимитами.
  • Персональные данные - отдельный закон. 152-ФЗ, GDPR. Открытость не снимает требований.

Связанные курсы

  • API простыми словами - как устроен официальный путь к данным.
  • Apify - платформа сбора данных с сайтов.
  • SerpAPI - поисковая выдача структурированно и легально.

Подразделы