Другие заметки


  1. Все дороги ведут в Рим?

    В типичном сценарии краулер собирает с пройденной страницы ссылки и далее следует по ним. Чтобы не ходить по кругу, пройденные адреса необходимо запоминать и хранить...

    читать дальше
  2. В ложбине белого орешника

    Длина веб-адреса не имеет значения — если верить стандарту RFC-3986. Зато очень четко прописано, что можно, а что нельзя включать в URL.

    читать дальше
  3. Назову себя Гантенбайном...

    Наша задача — добиться того, чтобы при инициализации очередного "паука" его название (значение заголовка User-Agent) не совпадало с предыдущим. При этом должна быть возможность указывать, нужен ли нам мобильный браузер или обычный.

    читать дальше
  4. Добавим беспорядка

    Как подсказывает здравый смысл, первый признак робота — он все делает правильно и равномерно: ходит, разговаривает и... выдерживает одинаковые паузы между запросами. Функция, представленная здесь, позволяет внести в поведение краулера долю хаоса: она погружает программу в сон разной длительности в пределах заданного диапазона.

    читать дальше

social

Яндекс.Метрика