Другие заметки


  1. По горячим следам

    Все умеют делать скриншоты руками. Можно ли научить этому паука — чтобы он, наткнувшись на какой-то интересный ресурс, сохранил его скриншот? Для достижения цели придется выйти за рамки привычной питоновской экосистемы...

    читать дальше
  2. Проект Goldminer

    Предположим, вам нужны постоянно обновляющиеся отчеты по текущим котировкам драгоценных металлов или курсы валют. Goldminer (в переводе с английского "золотоискатель") позволяет это сделать.

    читать дальше
  3. Структура проекта

    Создаем проект для библиотеки crawlersinfo. Каждый новый проект я создаю по одному и тому же шаблону. Сгенерировать "болванку" проекта, совместимого с setuptools и pip, помогает утилита paster

    читать дальше
  4. Зачем пауку восемь ног?

    Каждая отдельная задача, выполняемая веб-краулером, предполагает задержку: ожидание ответа сервера, паузу между запросами, время на сохранение данных... Перечисленные задачи лучше выполнять параллельно. Здесь начинается цикл статей, посвященных многозадачности.

    читать дальше
  5. Тронутые плесенью страницы

    Как бы ни менялись с годами веб-интерфейсы, основная схема навигации в информационном океане остается неизменной: от списка к элементам. Соответственно, скрапер, чья цель — собрать всю имеющуюся информацию с сайта или его раздела, почти всегда работает по одному и тому же алгоритму... Каталоги почти никогда не ограничены одной страницей. Чтобы обойти все страницы, краулер почти всегда двигается "сверху вниз".

    читать дальше
  6. От сессии до сессии

    При работе с одним и тем же сайтом нет смысла задавать одни и те же настройки при каждом запросе. В заметке рассказывается, как средствами библиотеки Requests создавать постоянную сессию. В конце подробно рассматриваются полезные свойства объекта requests.Response.

    читать дальше
  7. Кто стучится в дверь ко мне?

    Заголовки HTTP-запроса — это инструкции серверу. С их помощью клиент уточняет свои предпочтения. Библиотека Requests дает возможность гибко их настраивать.

    читать дальше
  8. Работа над ошибками

    Чтобы веб-краулер работал надежно, необходимо учитывать самые разные нештатные ситуации. Нет никакой гарантии, что при обращении к сайту сетевое соединение не оборвется, страница не переехала, сервер не пребывает в коме. Здесь представлены приемы обработки подобных ситуаций.

    читать дальше

Page 1 / 2 »

social

Яндекс.Метрика