Другие заметки


  1. Все дороги ведут в Рим?

    В типичном сценарии краулер собирает с пройденной страницы ссылки и далее следует по ним. Чтобы не ходить по кругу, пройденные адреса необходимо запоминать и хранить...

    читать дальше
  2. В ложбине белого орешника

    Длина веб-адреса не имеет значения — если верить стандарту RFC-3986. Зато очень четко прописано, что можно, а что нельзя включать в URL.

    читать дальше
  3. По горячим следам

    Все умеют делать скриншоты руками. Можно ли научить этому паука — чтобы он, наткнувшись на какой-то интересный ресурс, сохранил его скриншот? Для достижения цели придется выйти за рамки привычной питоновской экосистемы...

    читать дальше
  4. Проект Goldminer

    Предположим, вам нужны постоянно обновляющиеся отчеты по текущим котировкам драгоценных металлов или курсы валют. Goldminer (в переводе с английского "золотоискатель") позволяет это сделать.

    читать дальше
  5. Структура проекта

    Создаем проект для библиотеки crawlersinfo. Каждый новый проект я создаю по одному и тому же шаблону. Сгенерировать "болванку" проекта, совместимого с setuptools и pip, помогает утилита paster

    читать дальше
  6. Зачем пауку восемь ног?

    Каждая отдельная задача, выполняемая веб-краулером, предполагает задержку: ожидание ответа сервера, паузу между запросами, время на сохранение данных... Перечисленные задачи лучше выполнять параллельно. Здесь начинается цикл статей, посвященных многозадачности.

    читать дальше
  7. Тронутые плесенью страницы

    Как бы ни менялись с годами веб-интерфейсы, основная схема навигации в информационном океане остается неизменной: от списка к элементам. Соответственно, скрапер, чья цель — собрать всю имеющуюся информацию с сайта или его раздела, почти всегда работает по одному и тому же алгоритму... Каталоги почти никогда не ограничены одной страницей. Чтобы обойти все страницы, краулер почти всегда двигается "сверху вниз".

    читать дальше

Page 1 / 2 »

social

Яндекс.Метрика