Поиск данных

ePochta Lead Extractor способен находить однотипные страницы на сайте и извлекать из них данные. Взяв за основу структуру одной типичной страницы, функция "Поиск данных" дает возможность найти подобные веб-страницы на сайте и извлечь из них нужную информацию.

Для начала работы с данной функцией пользователю необходимо определиться с сайтом, в рамках которого будет проводиться поиск однотипных страниц, и со страницей, которая выступит в качестве типичной при поиске. Функция запускается соответствующей кнопкой в меню программы "Поиск данных".

В открывшемся окне введите URL типичной страницы и нажмите "Enter" для ее загрузки в программу.

Основным действием является выбор и определение элементов на веб-странице, параметры которых будут учитываться как "типичные" во время анализа страниц сайта и поиска идентичных или похожих. Наведите мышкой на элемент страницы, который нужно сохранить. Выбранная область подсветиться синим цветом. Кликните по элементу и введите для него уникальное название. Выберите необходимое количество элементов, повторяя операцию. Именно совпадение структуры выбранных элементов на различных страницах сайта будет считаться признаком "типичности" и "похожести" веб-страниц.

 

Настройки поиска данных

Для настройки поиска данных нажмите кнопку "Еще..." (справа от адресной строки) и в открывшейся вкладке установите необходимые значения настроек для повышения эффективности работы программы.

Аутентификация — в случае, если сайт требует авторизации, активируйте пункт "Аутентификация" в настройках функции "Поиск данных", загрузите страницу, введите логин и пароль для доступа на сайт и нажмите "Сохранить". Программа "запомнит" данные авторизации и при повторной загрузке сайта авторизация будет выполняться автоматически, не препятствовать поиску однотипных страниц.

Количество процессов — значение по умолчанию равно 5. Если у вас современный компьютер и быстрое Интернет-соединение, то вы можете увеличить число процессов, в противном случае скорость работы программы может упасть.

Определение домена — поиск однотипных страниц производится программой в рамках одного доменного имени. Пользователь может настраивать глубину поиска до 5-ти уровней включительно.

URL фильтр — применяется для ускорения процесса поиска и включает в себя следующие критерии фильтрации:

Допустимое процентное соотношение устанавливается для определения, какие страницы будут считаться типичными: с полным или частичным совпадением структуры элементов. Учитывается процентное соотношение:

Все найденные данные могут быть экспортированы с помощью Мастера Экспорта в в буфер обмена, текстовый файл, MS Office, Open Office, CSV файл.

 

Дополнительные разделы:

Начало работы с ePochta Lead Extractor
Другие продукты для рассылок
Регистрация программы
© AtomPark Software Inc. 2003 - 2013.