1. Назову себя Гантенбайном...

    Наша задача — добиться того, чтобы при инициализации очередного "паука" его название (значение заголовка User-Agent) не совпадало с предыдущим. При этом должна быть возможность указывать, нужен ли нам мобильный браузер или обычный.

    читать дальше
  2. Добавим беспорядка

    Как подсказывает здравый смысл, первый признак робота — он все делает правильно и равномерно: ходит, разговаривает и... выдерживает одинаковые паузы между запросами. Функция, представленная здесь, позволяет внести в поведение краулера долю хаоса: она погружает программу в сон разной длительности в пределах заданного диапазона.

    читать дальше
  3. От сессии до сессии

    При работе с одним и тем же сайтом нет смысла задавать одни и те же настройки при каждом запросе. В заметке рассказывается, как средствами библиотеки Requests создавать постоянную сессию. В конце подробно рассматриваются полезные свойства объекта requests.Response.

    читать дальше
  4. Кто стучится в дверь ко мне?

    Заголовки HTTP-запроса — это инструкции серверу. С их помощью клиент уточняет свои предпочтения. Библиотека Requests дает возможность гибко их настраивать.

    читать дальше
  5. Работа над ошибками

    Чтобы веб-краулер работал надежно, необходимо учитывать самые разные нештатные ситуации. Нет никакой гарантии, что при обращении к сайту сетевое соединение не оборвется, страница не переехала, сервер не пребывает в коме. Здесь представлены приемы обработки подобных ситуаций.

    читать дальше

« Page 2 / 2

social

Яндекс.Метрика