раздел 05
Шпаргалка
Весь курс на одной странице: чек-лист перед сбором, светофор рисков и куда смотреть.
Чек-лист перед сбором
- Есть ли официальный API? Если да - используйте его, дальше можно не читать.
- Что говорит ToS площадки? Найдите раздел про автоматический сбор.
- Что разрешает robots.txt? Откройте
site.com/robots.txt. - Данные публичные или за логином? За логином - не трогаем.
- Есть ли персональные данные? ФИО, телефоны, почты - особый режим, см. закон.
- Какая частота? Бережно, с паузами, реагируя на ошибки 429.
- Соберу ли только нужное? Минимизация - меньше данных, меньше рисков.
Светофор рисков
| Зона | Что это | Что делать | | --- | --- | --- | | Зелёная | Официальный API; публичные данные без запрета и без персональных | Можно, на условиях площадки | | Жёлтая | Публичное, но ToS против; высокая частота; спорный статус данных | Серая зона, риск на вас - взвесить | | Красная | За логином; персональные данные без основания; обход защит | Не делаем |
Что запомнить
- Технически можно ≠ разрешено. Видимость в браузере - не право на сбор.
- Защита - это сигнал. Капчи и антибот означают «площадка против».
- Ответственность на пользователе. В серой зоне отвечаете вы.
- API - первый выбор. Легально, стабильно, с понятными лимитами.
- Персональные данные - отдельный закон. 152-ФЗ, GDPR. Открытость не снимает требований.
Связанные курсы
- API простыми словами - как устроен официальный путь к данным.
- Apify - платформа сбора данных с сайтов.
- SerpAPI - поисковая выдача структурированно и легально.