Другие заметки


  1. Все дороги ведут в Рим?

    В типичном сценарии краулер собирает с пройденной страницы ссылки и далее следует по ним. Чтобы не ходить по кругу, пройденные адреса необходимо запоминать и хранить...

    читать дальше
  2. В ложбине белого орешника

    Длина веб-адреса не имеет значения — если верить стандарту RFC-3986. Зато очень четко прописано, что можно, а что нельзя включать в URL.

    читать дальше
  3. По горячим следам

    Все умеют делать скриншоты руками. Можно ли научить этому паука — чтобы он, наткнувшись на какой-то интересный ресурс, сохранил его скриншот? Для достижения цели придется выйти за рамки привычной питоновской экосистемы...

    читать дальше
  4. Структура проекта

    Создаем проект для библиотеки crawlersinfo. Каждый новый проект я создаю по одному и тому же шаблону. Сгенерировать "болванку" проекта, совместимого с setuptools и pip, помогает утилита paster

    читать дальше
  5. Зачем пауку восемь ног?

    Каждая отдельная задача, выполняемая веб-краулером, предполагает задержку: ожидание ответа сервера, паузу между запросами, время на сохранение данных... Перечисленные задачи лучше выполнять параллельно. Здесь начинается цикл статей, посвященных многозадачности.

    читать дальше
  6. Тронутые плесенью страницы

    Как бы ни менялись с годами веб-интерфейсы, основная схема навигации в информационном океане остается неизменной: от списка к элементам. Соответственно, скрапер, чья цель — собрать всю имеющуюся информацию с сайта или его раздела, почти всегда работает по одному и тому же алгоритму... Каталоги почти никогда не ограничены одной страницей. Чтобы обойти все страницы, краулер почти всегда двигается "сверху вниз".

    читать дальше
  7. Назову себя Гантенбайном...

    Наша задача — добиться того, чтобы при инициализации очередного "паука" его название (значение заголовка User-Agent) не совпадало с предыдущим. При этом должна быть возможность указывать, нужен ли нам мобильный браузер или обычный.

    читать дальше
  8. Добавим беспорядка

    Как подсказывает здравый смысл, первый признак робота — он все делает правильно и равномерно: ходит, разговаривает и... выдерживает одинаковые паузы между запросами. Функция, представленная здесь, позволяет внести в поведение краулера долю хаоса: она погружает программу в сон разной длительности в пределах заданного диапазона.

    читать дальше

Page 1 / 2 »

social

Яндекс.Метрика