раздел 05 · подстраница 1
Словарь терминов
Короткие определения понятий курса. Держите под рукой.
Базовые понятия
Скрейпинг (scraping) - автоматический сбор данных с сайтов программой. То же, что собирать вручную, но быстро и пачками.
Парсинг - разбор собранного контента: вытаскивание из HTML нужных полей (цены, заголовки, контакты). Часто употребляют как синоним скрейпинга, хотя строго это его этап.
Краулер / бот - программа, которая автоматически обходит страницы сайта.
Правила и доступ
ToS (Terms of Service) - условия использования площадки. Договор, с которым вы соглашаетесь, открывая сайт. Часто ограничивает автоматический сбор.
robots.txt - файл в корне сайта, где площадка указывает, какие разделы можно обходить автоматическим программам. Воля владельца, не закон.
Публичные данные - доступны без логина, открыты всем.
Приватные данные - за логином, в личных кабинетах, в закрытых разделах. Сбор - обход контроля доступа.
Персональные данные - информация, по которой можно идентифицировать человека: ФИО, телефон, почта, адрес. Регулируются законом.
Закон
152-ФЗ - российский закон о персональных данных. Сбор в базу - это обработка, обычно нужно законное основание.
GDPR - европейский регламент о защите данных. Похожая логика, действует при работе с данными людей из ЕС.
Технические ограничения
Rate limit - ограничение частоты запросов. Превысили - ошибки (429) или блокировка.
Капча - проверка «человек или робот». Появляется при подозрении на автоматический трафик.
Бан - блокировка аккаунта или IP при распознавании автоматического сбора.
Антибот-система - сервис, отсекающий подозрительный автоматический трафик по совокупности сигналов.
Серая зона
Серая зона - случаи без однозначного «можно/нельзя»: публичное, но ToS против; высокая частота; спорный статус данных. Ответственность на пользователе.
Официальный API - предусмотренный площадкой способ получить данные легально, на её условиях. Первый выбор вместо скрейпинга.
Практические правила
- Технически можно не равно разрешено.
- Сначала ищите официальный API.
- Не лезьте за логин и не собирайте персональные данные без основания.
- Уважайте ToS, robots.txt и частоту запросов.
- Собирайте только то, что нужно для задачи.
- Спорные случаи - к юристу.