раздел 00
Что такое скрейпинг и где проходит грань
Скрейпинг - это автоматический сбор данных с сайтов. Программа открывает страницы как человек, но делает это быстро и пачками: вытаскивает цены, отзывы, объявления, контакты, статьи - всё, что отображается. То же самое можно делать руками, копируя страницу за страницей; скрейпинг просто масштабирует это.
Зачем он нужен: собрать данные для ресёрча, следить за ценами конкурентов, наполнить датасет, дать AI-агенту доступ к свежей информации. Спрос растёт вместе с AI: моделям нужны данные, а данные живут на сайтах.
Проблема в том, что «технически возможно» и «разрешено» - это разные вещи. Браузер покажет вам страницу, и формально вы можете её сохранить. Но у площадки есть правила, у данных может быть владелец, а у персональных данных - закон. Грань между нормальным сбором и нарушением проходит не там, где стоит техническая защита.
Где проходит грань
Грубо данные делятся так:
- Открытые и собирать можно - публичная информация, которую площадка не запрещает забирать, без персональных данных.
- Запрещено - то, что закрыто правилами площадки или законом: данные за логином, персональные данные, контент под защитой.
- Серая зона - данные на виду, но правила площадки запрещают их автоматический сбор; либо частота запросов на грани. Формально не всегда нарушение, но риск и ответственность на вас.
Курс идёт ровно по этой логике.
Что будет в курсе
- 00 - что такое скрейпинг и где грань. Вы здесь.
- 01 - что можно и что нельзя: правила площадок, robots.txt, публичное против приватного, персональные данные и закон.
- 02 - технические ограничения: rate limits, капчи, бан аккаунтов и IP, антибот-системы.
- 03 - серые зоны: публичное, но запрещено правилами; частота; где ответственность остаётся на вас.
- 04 - как снижать риски: официальные API, разумные лимиты, не трогать приватное, юридическая аккуратность.
- 05 - шпаргалка: чек-лист, светофор рисков и словарь терминов.
Каждая страница построена одинаково: что это, зачем нужно, как устроено, пример и где люди обычно ошибаются.