Поиск данных

Data mining

Количество процессов — значение по умолчанию равно 5. Если у вас современный компьютер и быстрое Интернет-соединение, то вы можете увеличить число процессов, в противном случае скорость работы программы может упасть.

Определение домена — поиск однотипных страниц производится программой в рамках одного доменного имени. Пользователь может настраивать глубину поиска до 5-ти уровней включительно.

Допустимое процентное соотношение устанавливается для определения, какие страницы будут считаться типичными: с полным или частичным совпадением структуры элементов. Учитывается процентное соотношение:

  • общего количества всех элементов на странице — значением по умолчанию принято 100%
  • количество найденных из указанных элементов на странице — значением по умолчанию принято 70%. Это подразумевает, что на страница может быть классифицирована, как типичная, даже при неполном совпадении структуры выбранных элементов.
  • изменения в названии html классов — значением по умолчанию принято 0%, что означает недопустимость каких-либо изменений в html классах выбранных элементов. Например, если элемент, который вы назвали, как "заголовок", в html формате имеет класс <class="top_title">, то при поиске типичных страниц программа будет выделять элемент "заголовок" только с указанным классом. В случае, если значение процентного соотношения увеличить, то можно принимать страницу, элемент "заголовок" которой имеет класс <class="top_title_red">, за типичную.
  • смещения элемента в html структуре дерева — значением по умолчанию принято 0%, что не допускает никаких смещений относительно структуры элементов страницы-образца. Если вы хотите извлекать также URL страниц, которые имеют незначительные смещения - следует увеличить значение процентного соотношения.

 

Дополнительные разделы

Начало работы с ePochta Extractor
Регистрация программы
Техническая поддержка