Чистим мегабазы для хрумера при помощи TextPipe pro

февраля 10, 2016 0 Comments

Xrumer Base Clean with TextPipe pro
Мне регулярно приходится обновлять свои базы и поддерживать их в актуальном состоянии. На это уходит много времени, а время как мы все знаем это деньги. Хотя и прикупил себе на днях GSA PI, который заметно облегчает процесс сортировки и поиска пробивных движков, но по прежнему приходится выполнять много ручной работы. В данном посте я решил от реанимировать тему 2008 года, которая не перестает быть актуальной и по сей день. Сегодня мы поговорим о чистке больших баз при помощи Text Pipe pro.




Берем для опытов какую нибудь базу побольше. Я взял сыруху на 1кк которую парсил 2-3 дня назад. Ещё нам понадобится сама TextPipe Pro и сайт regexr.com (на нем очень удобно составлять регулярки). Вся суть сводится к тому чтобы сначала найти ненужные урлы, которые хрумом не пробьются, то есть скорее всего это популярные 2.0 сервисы, к которым нужен отдельный подход и мод или по каким то причинам данные ресы тормозят прогон потому что овернасыщенны рекапчей, кейкапчей, лагают и т.д

Так вот сначала мы по простейшим признакам выпаршиваем из базы такие ресы, в отдельную, а потом делаем под них универсальную регулярку и проверяем её, если все ок то используем. Сразу скажу - процесс довольно трудоемкий, однако, сэкономит в перспективе очень много времени в дальнейшем.

Открываем TextPipe и добавляем нашу базу для обработки.

Выбираем в фильтрах Extract > Extract lines not matching (inverse grep) то есть извлечь все строки не подходящие к следующим рег. экспам:

И первым у нас будет blogspot, который мы удалим при помощи такого рег. экспа:
.*\.blogspot(\.com|\.ru|\.se|\.de|\.ro|\.jp|\.dk|\.fr|\.pt|\.cz|\.nl|\.in|\.ca|\.kr|\.ae|\.hu|\.tw|\.ch|\.fi|\.lt|\.be|\.gr|\.it|\.mx|\.sk|\.hk|\.sg|\.ie|\.cl|\.my|\.no|\.co|\.co\.|\.com\.|\.pe|\.rs|\.si|\.hr|\.es|\.qa|\.al).*



Следом у нас будут web2.0 сервисы и блоги - вордпрессы, лайвджорналы, tumblr, weebly и т.д.:
.*(\.wordpress|\.livejournal|\.tumblr|\.weebly|\.pinterest|\.reddit|\.blog)\.com.*


Хостинги картинок(не могу представить каким образом они попадают в базу, но они нам не нужны)
.*(\.photobucket|\.deviantart).com\/.*


Бесплатные хостинги: narod.ru и бурж хосты, добавлю чуть позже
.*(\.wix|\.000webhost|\.110mb|\.16mb|\.125mb|\.100freemb)\.com.*


Отдельного внимания заслуживает ucoz(список пока не полный):
.*\.ucoz(\.com|\.com\.|\.ru|\.net|\.org|\.org\.ua|\.kz|\.ua|\.es|\.lv|\.co\.|\.de|\.ae|\.hu|\.ro|\.pl|\.fr).*


Ещё ucoz:
.*(\.clan\.su|\.my1\.ru|\.3dn\.ru|\.moy\.su|\.do\.am|\.at\.ua).*


Ссылки на отправку почты:
(http:|https:)\/\/mailto:.*


Весь список еще не полный и будет переодически обновлятся.



Наглядный пример использования данного метода, показывает сколько можно экономить времени отсекая не нужные сайты и сервисы. 223 mb ресурсов мы отсекли буквально за 5 минут, а сколько времени у нас бы занял чек этих ресурсов. Могу сказать что как то чекал подряд много юкоса, без прокси и юкоз резал скорость чека на столько что где то 300к-600к ссылок чекалось часов 11.

0 коммент.: