Обо мне

Spider

Меня зовут Сергей Крушинский. Программирование веб-краулеров давно входит в число моих любимых жанров. Иногда это хобби, иногда — основная работа. В рамках одного из последних проектов моей обязанностью был сбор данных с широкого круга Интернет-ресурсов, таких как:

Главным добываемым "сырьем" были отели и отзывы о них — число последних достигало десятков и сотен тысяч. В число других сфер входили разнообразные услуги, фильмы, книги, мобильные телефоны, видео-конференции — всего не перечислишь...

В большинстве сценариев программа должна был имитировать поведение живого человека и сайт не должен был догадаться, что имеет дело с роботом. Техникам, позволяющим этого добиться, будут посвящены отдельные заметки. Поскольку требовалось собирать максимальное число данных в сжатые сроки, использовались распределенные алгоритмы. О способах параллельного сбора данных в этих заметках также обязательно пойдет речь.

В процессе этой работы было сделано много открытий, которыми я и собираюсь поделиться на этом сайте.

social

Яндекс.Метрика