Что делать, если ePochta Extractor извлекает мало email адресов по ключевым запросам?
Случается, что в процессе поиска программа извлекает недостаточное количество адресов по ключевым запросам. В таком случае следует поработать над эффективностью работы программы и настроить дополнительные параметры.
Рассмотрим несколько способов улучшения поиска и экономии вашего времени.
Способ 1. Пропуск доменов
Если вы выбрали поиск по ключевому слову, программа сканирует все-все-все вебсайты, которые соответствуют поисковому запросу.
Ускорить процесс извлечения информации поможет функция пропуска домена.
Суть функции – пропускать сайты, на страницах которых программа не нашла ни одного email адреса. Подобные домены считаются неперспективными, на них только тратится время и ресурсы программы, чего можно избежать, активировав опцию.
По умолчанию функция пропуска домена не активна. Вы можете запустить её действие в дополнительных настройках программы. Так как нельзя сразу знать, продуктивный ли домен, то следует все-таки предоставить возможность экстрактору изучить внутренние страницы сайта. То обязательное, что нужно сделать – ограничить число страниц, после изучения которых домен будет пропускаться, если ни одного контакта не извлечено.
Наша компания заботится о своих клиентах, поэтому мы решили провести исследование для выбора наиболее эффективного способа поиска email адресов, который не будет отнимать у вас много времени. Для этого использовался поиск по ключевым словам «верховая езда школа киев». Выставив в настройках «пропускать домен, если не было найдено адресов на 20 страницах», мы получили следующий результат:
Такой способ занял достаточное количество времени и нашел ни много ни мало 2017 контактов.Способ 2. Выбор типа поиска
Еще один из простых способов повлиять на скорость и эффективность сбора адресов – выбор типа поиска. ePochta Extractor предусматривает «Ускоренный поиск» и «Детальный поиск»:
при «Ускоренном поиске» программа работает быстрее, но извлеченная база email содержит меньшее количество адресов
«Детальный поиск» увеличивает количество извлеченных email адресов, но снижает скорость работы
Маленькая деталь, которая незаметна, но важна – таймаут между запросами к одному домену. Сервера не любят слишком частые запросы и могут их отклонять, поэтому полезной практикой будет указывать таймаут.
Мы указали от 5 до 5 секунд и получили такой результат:
При поиске таким способом было потрачено на полчаса меньше времени, но при этом адресов было найдено больше – 2547.Способ 3. Игнорирование скрытых адресов
Программе ePochta Extractor видны как открытые email адреса на сайте, так и те контакты, которые скрыты в коде. Правда здесь, как с айсбергом, вас может ждать подвох: скрытые адреса зачастую являются спам-ловушками. И если ваше письмо попадет на такой адрес – ваш контакт отправителя будет записан в черный список и определен как спамер.
А такой расклад дел никому не нужен, ведь правда? Есть выход? Есть. Нужно указать программе игнорировать подобные скрытые адреса. По умолчанию, эта функция не активна, что позволяет программе собирать все доступные контакты с сайта. Вам нужно зайти в меню «Настройки» и активировать игнорирование скрытых адресов. Программа будет самостоятельно их определять и оставлять не тронутыми в коде станиц сайта.
В ходе исследования мы оставили все прошлые настройки и добавили «игнорировать скрытые адреса». Такой поиск занял 3 часа и нашел 3135 адресов. Это способ, при котором база email адресов включает в себя наибольшее количество извлеченных контактов.
Способ 4. Ограничение поиска
Речь пойдет об ограничении глубины просмотра сайтов программой.
Допустим, вы указали один сайт, на котором ePochta Extarctor должна найти все доступные контакты. Сайт состоит из нескольких десятков страниц. И вот программа «ныряет» все глубже и глубже в сайт, выискивая адреса. Субдомены… подкаталоги… внутренние страницы… внешние ссылки… Программа проходит десятки уровней вебстраниц. А если используете поиск по ключевому слову, не сосредотачиваясь на конкретных веб-ресурсах?
В таком случае программа позволяет устанавливать глубину просмотра. Например, при поиске контактов на сайте yellowpages.com вы не соберете много адресов непосредственно на сайте. Тем не менее, он имеет много внешних ссылок на компании с их контактами. В таком случае, рекомендуем установить ограничение просмотра – «все сайты», а глубину просмотра сайта – не более 1-3 страницы, чтобы не уходить далеко от основного ресурса поиска.
Для нашего исследования мы сохранили предыдущие настройки и добавили «не открывать более 3 страниц с одного сайта». Полученный результат можно смело назвать «экспресс-поиском», так как он занял всего 11 минут и принес нам 286 контактов.
Способ 5. Обработка JavaScript
ePochta Extractor – специализированная программа, которая извлекает email адреса из html источника страницы, из кода, а не из визуального и красиво оформленного текста, который видит посетитель сайта при загрузке страницы.
Бывают моменты, когда электронные адреса находятся в Java скрипте. Такие контакты программа не увидит и не найдет, если ей в этом не помочь и не активировать функцию «Обрабатывать javascript». Да, программа начнет извлекать немного больше адресов, поиск будет проходить медленнее. Если вы работаете на результат, а не на скорость, тогда вам будет очень полезна эта возможность программы.
Помимо Javascript, пользователи придумали подменять стандартные и общепринятые символы синтаксиса электронных адресов («@») на символы «AT» и «DOT», маскируя email адреса. Как правило, данные зашифровываются, чтобы скрыть их от программ для сбора контактов. Правда от ePochta Extractor не скроешься: программа умеет распознавать замаскированные email.
Например, экстрактор найдет и извлечет «bill[AT]gmail.com», «kate at hotmail.com», «olga_AT_mysite_DOT_com» совместно со стандартными адресами.
По умолчанию, в программе уже собраны наиболее распространенные символы замены. Если вы знаете символы, которых еще нет в списке Extractor – можете добавить их самостоятельно, «обучая» программу находить максимальное количество замаскированных контактов.
Оставив все настройки прежними и выставив «обрабатывать javascript», мы провели поиск, который занял почти 17 минут и нашел всего 94 контакта.
Исходя из исследования, можно сделать вывод что наиболее эффективным, но недостаточно быстрым способом является №3 «Игнорирование скрытых адресов». Хотя для хорошей базы адресов, которую предоставляет ePochta Extractor, 3 часа это совсем не много. Все, что от вас нужно – выставить настройки, далее программа сделает все сама. Но если вы все же ограничены во времени и не нуждаетесь в большом количестве адресов, целесообразно будет использовать способ ограничения поиска.
Как видите, программа ePochta Extractor богата настройками, ориентированными на потребности пользователя. Она может работать быстрее или усерднее, находить спрятанные контакты и игнорировать неперспективные домены. Это всё и еще многие другие функции программы работают на улучшения поиска электронных адресов. Вспомните о нашей программе, если у вас вдруг возникнет мысль купить базу email. ePochta Extractor сэкономит ваше время и деньги, собрав список актуальных контактов по ключевым запросам.
P.S. Обратите внимание, что в нашей статье речь шла именно о поиске email адресов по ключевым запросам. Поиск напрямую с сайта индивидуален и будет описан в другой статье.