Введение
Каждый хрумовод так или иначе задается вопросом - как почистить свои базы от всякого рода мусора, например экспайред доменов.
Нет смысла гонять проект по таким доменам, это не принесёт абсолютно никакого результата, а лишь отнимет большое количество времени, т.к. таких доменов очень много.
Для очистки баз от таких ссылок, мы можем использовать сторонний софт, а можем воспользоваться инструментами самого Xrumer. Тем более что это не займёт какого то отдельного времени, потому что выявлять такие ресурсы мы будем прямо в процессе прогона.
Называется этот инструмент АвтоГраббинг. О нём и будет данный пост.
Принцип действия
Рассмотрим конкретный пример - автоГраббинг просроченных и припаркованных доменов.
Сначала вручную отбираем такие домены. Проще всего это сделать открыв несколько ссылок из фаила отчетов Others.txt в папке с логами хрумера.

Составляем простой шаблон по которому хрумер будет парсить информацию

В котором например
Превращается в
То есть ту часть которую мы хотим сграббить заменяем на [...] а по бокам у нас уникальные признаки.
Проще говоря информация которая повторяется на нескольких страницах перед и после той информацией которую мы хотим спарсить/сграббить.
Переходим в раздел Настройки > Автограббинг

Добавляем шаблон/ы в настройки системы автограббинга

Запускаем прогон как обычно.
Через какое то время в папке ...\Logs\название проекта\база\ появится фаил xgrabbed.txt

Он будет содержать маску(шаблон) и результат строкой ниже.
Как приноровитесь, советую включить чекбокс Не сохранять в xgrabbed.txt название маски чтобы в итоге получить только ссылки(результат парсинга).
АвтоГраббинг почт
Рассмотрим самые распространённые маски для грабинга почт:
<a href='mailto:[...]'
<a href=mailto:[...]
АвтоГраббинг номеров телефонов
Рассмотрим самые распространённые маски для грабинга телефонов:
<a href='tel:[...]'
<a href=tel:[...]
АвтоГраббинг сайтов с определённым видом капчи
Recaptcha (поиск производить с отключенной галкой - не сохранять в xgrabbed название маски):
Hcaptcha (поиск производить с отключенной галкой - не сохранять в xgrabbed название маски):
hcaptcha.com/[...]/api.js
hCaptcha.com/[...]/api.js
На проверке
keycaptcha (поиск производить с отключенной галкой - не сохранять в xgrabbed название маски):
solvemedia (поиск производить с отключенной галкой - не сохранять в xgrabbed название маски):
АвтоГраббинг Разные Сервисы
cloudflare.com (поиск производить с отключенной галкой - не сохранять в xgrabbed название маски):
Yandex.Metrika (поиск производить с отключенной галкой - не сохранять в xgrabbed название маски):
Что ещё можно граббить
Ещё несколько идей что можно забирать в процессе прогона:
<h1>[...]</h1>
<img src="[...]"
Заключение
Потратив какое то время на создание масок, мы можем получить список потенциально мусорных ссылок, которые потом будет легко удалить со всех наших баз, тем самым экономя в будущем большое количество времени.
Можно легко спарсить почты, телефоны и другую информацию.
Я очень жалею о том что не раскрыл потенциал данного инструмента раньше. Советую всем освоить автограббинг, ведь это очень просто, а кпд просто несоизмерим по сравнению с затраченным временем.
Отлично!
ОтветитьУдалитьОтправить комментарий