Чистим мегабазы для хрумера при помощи TextPipe pro

Xrumer Base Clean with TextPipe pro
Мне регулярно приходится обновлять свои базы и поддерживать их в актуальном состоянии. На это уходит много времени, а время как мы все знаем это деньги. Хотя и прикупил себе на днях GSA Platform Identifier, который заметно облегчает процесс сортировки и поиска пробивных движков, но по прежнему приходится выполнять много ручной работы. В данном посте я коснусь темы аж 2008 года, которая не перестает быть актуальной и по сей день. Сегодня мы поговорим о чистке больших баз при помощи Text Pipe pro.


Необходимые требования

Берем для опытов какую нибудь базу побольше. Я взял сыруху на 1 кк ссылок которую парсил 2-3 дня назад. Ещё нам понадобится сама TextPipe Pro и сайт regexr.com на котором очень удобно составлять регулярки.

Вся суть сводится к тому чтобы сначала найти ненужные ссылки, которые хрумом не пробьются.

Скорее всего это будут популярные web 2.0 сервисы, к которым нужен отдельный подход или мод. Или по каким то причинам данные ресы тормозят прогон потому что перенасыщены рекапчей, кейкапчей, лагают, притворяются нерабочими и т.д


$ads={1}

Так вот сначала мы по простейшим признакам выпаршиваем из базы такие ресы в отдельную базу. Затем делаем под них универсальную регулярку, проверяем её, если все ок то используем. Сразу скажу - процесс довольно трудоемкий, однако, сэкономит очень много времени в дальнейшем.

Открываем Text Pipe pro и добавляем нашу базу для обработки.

Выбираем в фильтрах Extract > Extract lines not matching (inverse grep) то есть извлечь все строки не подходящие к следующим рег. экспам:


TextPipe Pro inverse grep

И первым у нас будет blogspot, который мы удалим при помощи такого рег. экспа:

.*\.blogspot(\.com|\.ru|\.se|\.de|\.ro|\.jp|\.dk|\.fr|\.pt|\.cz|\.nl|\.in|\.ca|\.kr|\.ae|\.hu|\.tw|\.ch|\.fi|\.lt|\.be|\.gr|\.it|\.mx|\.sk|\.hk|\.sg|\.ie|\.cl|\.my|\.no|\.co|\.co\.|\.com\.|\.pe|\.rs|\.si|\.hr|\.es|\.qa|\.al).*


Следом у нас будут web2.0 сервисы и блоги - вордпрессы, лайвджорналы, tumblr, weebly и т.д.:

.*(\.wordpress|\.livejournal|\.tumblr|\.weebly|\.pinterest|\.reddit|\.blog)\.com.*


Хостинги картинок(не могу представить каким образом они попадают в базу, но они нам не нужны)

.*(\.photobucket|\.deviantart).com\/.*


Бесплатные хостинги. Бурж хосты, добавлю чуть позже:

.*(\.wix|\.000webhost|\.110mb|\.16mb|\.125mb|\.100freemb)\.com.*


Отдельного внимания заслуживает ucoz(список пока неполный):

.*\.ucoz(\.com|\.com\.|\.ru|\.net|\.org|\.org\.ua|\.kz|\.ua|\.es|\.lv|\.co\.|\.de|\.ae|\.hu|\.ro|\.pl|\.fr).*


Ещё ucoz:

.*(\.clan\.su|\.my1\.ru|\.3dn\.ru|\.moy\.su|\.do\.am|\.at\.ua).*


Ссылки на отправку почты:

(http:|https:)\/\/mailto:.*


Весь список еще неполный и будет периодически обновляться.


TextPipe Pro clean result

Наглядный пример использования данного метода, показывает сколько можно экономить времени отсекая ненужные сайты и сервисы. 223 mb ресурсов мы отсекли буквально за 5 минут, а сколько времени у нас бы занял чек этих ресурсов.

Могу сказать что как то чекал подряд много юкоза, без прокси. И он резал скорость чека на столько что где то 300к-600к ссылок чекалось часов 11.


$ads={2}

Комментарии