no-style

Xrumer АвтоГраббинг


Введение

Каждый хрумовод так или иначе задается вопросом - как почистить свои базы от всякого рода мусора, например экспайред доменов.

Нет смысла гонять проект по таким доменам, это не принесёт абсолютно никакого результата, а лишь отнимет большое количество времени, т.к. таких доменов очень много.

Для очистки баз от таких ссылок, мы можем использовать сторонний софт, а можем воспользоваться инструментами самого Xrumer. Тем более что это не займёт какого то отдельного времени, потому что выявлять такие ресурсы мы будем прямо в процессе прогона.

Называется этот инструмент АвтоГраббинг. О нём и будет данный пост.







Принцип действия

Рассмотрим конкретный пример - автоГраббинг просроченных и припаркованных доменов.

Сначала вручную отбираем такие домены. Проще всего это сделать открыв несколько ссылок из фаила отчетов Others.txt в папке с логами хрумера.


xrumer autograbbing



Составляем простой шаблон по которому хрумер будет парсить информацию


xrumer autograbbing 2

В котором например

<h1 class="b-parking__header-title">mrmilk.ru</h1>

Превращается в

<h1 class="b-parking__header-title">[...]</h1>

То есть ту часть которую мы хотим сграббить заменяем на [...] а по бокам у нас уникальные признаки.

Проще говоря информация которая повторяется на нескольких страницах перед и после той информацией которую мы хотим спарсить/сграббить.

левая_часть[...]правая_часть



Переходим в раздел Настройки > Автограббинг


xrumer autograbbing 3



Добавляем шаблон/ы в настройки системы автограббинга


xrumer autograbbing 4

Запускаем прогон как обычно.

Через какое то время в папке ...\Logs\название проекта\база\ появится фаил xgrabbed.txt


xrumer autograbbing 5

Он будет содержать маску(шаблон) и результат строкой ниже.

Как приноровитесь, советую включить чекбокс Не сохранять в xgrabbed.txt название маски чтобы в итоге получить только ссылки(результат парсинга).







АвтоГраббинг почт

Рассмотрим самые распространённые маски для грабинга почт:

<a href="mailto:[...]"
<a href='mailto:[...]'
<a href=mailto:[...]






АвтоГраббинг номеров телефонов

Рассмотрим самые распространённые маски для грабинга телефонов:

<a href="tel:[...]"
<a href='tel:[...]'
<a href=tel:[...]






АвтоГраббинг сайтов с определённым видом капчи

Recaptcha (поиск производить с отключенной галкой - не сохранять в xgrabbed название маски):

https://www.google.com/recaptcha/api[...]js


Hcaptcha (поиск производить с отключенной галкой - не сохранять в xgrabbed название маски):

class="h-captcha"[...]data-sitekey=
hcaptcha.com/[...]/api.js
hCaptcha.com/[...]/api.js


На проверке

keycaptcha (поиск производить с отключенной галкой - не сохранять в xgrabbed название маски):

/captchas/keycaptcha/verify[...]php


solvemedia (поиск производить с отключенной галкой - не сохранять в xgrabbed название маски):

/captchas/solvemedia/verify[...]php






АвтоГраббинг Разные Сервисы

cloudflare.com (поиск производить с отключенной галкой - не сохранять в xgrabbed название маски):

https://challenges.cloudflare.com/[...]/api.js


Yandex.Metrika (поиск производить с отключенной галкой - не сохранять в xgrabbed название маски):

mc.yandex.ru/metrika/tag[...]js






Что ещё можно граббить

Ещё несколько идей что можно забирать в процессе прогона:

<title>[...]</title>
<h1>[...]</h1>
<img src="[...]"






Заключение

Потратив какое то время на создание масок, мы можем получить список потенциально мусорных ссылок, которые потом будет легко удалить со всех наших баз, тем самым экономя в будущем большое количество времени.

Можно легко спарсить почты, телефоны и другую информацию.

Я очень жалею о том что не раскрыл потенциал данного инструмента раньше. Советую всем освоить автограббинг, ведь это очень просто, а кпд просто несоизмерим по сравнению с затраченным временем.

1 Комментарии

Отправить комментарий