раздел 05 · подстраница 1

Словарь терминов

Короткие определения понятий курса. Держите под рукой.

Базовые понятия

Скрейпинг (scraping) - автоматический сбор данных с сайтов программой. То же, что собирать вручную, но быстро и пачками.

Парсинг - разбор собранного контента: вытаскивание из HTML нужных полей (цены, заголовки, контакты). Часто употребляют как синоним скрейпинга, хотя строго это его этап.

Краулер / бот - программа, которая автоматически обходит страницы сайта.

Правила и доступ

ToS (Terms of Service) - условия использования площадки. Договор, с которым вы соглашаетесь, открывая сайт. Часто ограничивает автоматический сбор.

robots.txt - файл в корне сайта, где площадка указывает, какие разделы можно обходить автоматическим программам. Воля владельца, не закон.

Публичные данные - доступны без логина, открыты всем.

Приватные данные - за логином, в личных кабинетах, в закрытых разделах. Сбор - обход контроля доступа.

Персональные данные - информация, по которой можно идентифицировать человека: ФИО, телефон, почта, адрес. Регулируются законом.

Закон

152-ФЗ - российский закон о персональных данных. Сбор в базу - это обработка, обычно нужно законное основание.

GDPR - европейский регламент о защите данных. Похожая логика, действует при работе с данными людей из ЕС.

Технические ограничения

Rate limit - ограничение частоты запросов. Превысили - ошибки (429) или блокировка.

Капча - проверка «человек или робот». Появляется при подозрении на автоматический трафик.

Бан - блокировка аккаунта или IP при распознавании автоматического сбора.

Антибот-система - сервис, отсекающий подозрительный автоматический трафик по совокупности сигналов.

Серая зона

Серая зона - случаи без однозначного «можно/нельзя»: публичное, но ToS против; высокая частота; спорный статус данных. Ответственность на пользователе.

Официальный API - предусмотренный площадкой способ получить данные легально, на её условиях. Первый выбор вместо скрейпинга.

Практические правила

  • Технически можно не равно разрешено.
  • Сначала ищите официальный API.
  • Не лезьте за логин и не собирайте персональные данные без основания.
  • Уважайте ToS, robots.txt и частоту запросов.
  • Собирайте только то, что нужно для задачи.
  • Спорные случаи - к юристу.