раздел 00

Что такое скрейпинг и где проходит грань

Скрейпинг - это автоматический сбор данных с сайтов. Программа открывает страницы как человек, но делает это быстро и пачками: вытаскивает цены, отзывы, объявления, контакты, статьи - всё, что отображается. То же самое можно делать руками, копируя страницу за страницей; скрейпинг просто масштабирует это.

Зачем он нужен: собрать данные для ресёрча, следить за ценами конкурентов, наполнить датасет, дать AI-агенту доступ к свежей информации. Спрос растёт вместе с AI: моделям нужны данные, а данные живут на сайтах.

Проблема в том, что «технически возможно» и «разрешено» - это разные вещи. Браузер покажет вам страницу, и формально вы можете её сохранить. Но у площадки есть правила, у данных может быть владелец, а у персональных данных - закон. Грань между нормальным сбором и нарушением проходит не там, где стоит техническая защита.

Где проходит грань

Грубо данные делятся так:

  • Открытые и собирать можно - публичная информация, которую площадка не запрещает забирать, без персональных данных.
  • Запрещено - то, что закрыто правилами площадки или законом: данные за логином, персональные данные, контент под защитой.
  • Серая зона - данные на виду, но правила площадки запрещают их автоматический сбор; либо частота запросов на грани. Формально не всегда нарушение, но риск и ответственность на вас.

Курс идёт ровно по этой логике.

Что будет в курсе

  • 00 - что такое скрейпинг и где грань. Вы здесь.
  • 01 - что можно и что нельзя: правила площадок, robots.txt, публичное против приватного, персональные данные и закон.
  • 02 - технические ограничения: rate limits, капчи, бан аккаунтов и IP, антибот-системы.
  • 03 - серые зоны: публичное, но запрещено правилами; частота; где ответственность остаётся на вас.
  • 04 - как снижать риски: официальные API, разумные лимиты, не трогать приватное, юридическая аккуратность.
  • 05 - шпаргалка: чек-лист, светофор рисков и словарь терминов.

Каждая страница построена одинаково: что это, зачем нужно, как устроено, пример и где люди обычно ошибаются.

Подразделы