Чистим мегабазы для хрумера при помощи TextPipe pro

Мне регулярно приходится обновлять свои базы и поддерживать их в актуальном состоянии. На это уходит много времени, а время как мы все знаем это деньги. Хотя и прикупил себе на днях GSA Platform Identifier, который заметно облегчает процесс сортировки и поиска пробивных движков, но по прежнему приходится выполнять много ручной работы. В данном посте я коснусь темы аж 2008 года, которая не перестает быть актуальной и по сей день. Сегодня мы поговорим о чистке больших баз при помощи Text Pipe pro.

Необходимые требования

Берем для опытов какую нибудь базу побольше. Я взял сыруху на 1 кк ссылок которую парсил 2-3 дня назад. Ещё нам понадобится сама TextPipe Pro и сайт regexr.com на котором очень удобно составлять регулярки.

Вся суть сводится к тому чтобы сначала найти ненужные ссылки, которые хрумом не пробьются.

Скорее всего это будут популярные web 2.0 сервисы, к которым нужен отдельный подход или мод. Или по каким то причинам данные ресы тормозят прогон потому что перенасыщены рекапчей, кейкапчей, лагают, притворяются нерабочими и т.д

Так вот сначала мы по простейшим признакам выпаршиваем из базы такие ресы в отдельную базу. Затем делаем под них универсальную регулярку, проверяем её, если все ок то используем. Сразу скажу - процесс довольно трудоемкий, однако, сэкономит очень много времени в дальнейшем.

Открываем Text Pipe pro и добавляем нашу базу для обработки.

Выбираем в фильтрах Extract > Extract lines not matching (inverse grep) то есть извлечь все строки не подходящие к следующим рег. экспам:

И первым у нас будет blogspot, который мы удалим при помощи такого рег. экспа:

.*\.blogspot(\.com|\.ru|\.se|\.de|\.ro|\.jp|\.dk|\.fr|\.pt|\.cz|\.nl|\.in|\.ca|\.kr|\.ae|\.hu|\.tw|\.ch|\.fi|\.lt|\.be|\.gr|\.it|\.mx|\.sk|\.hk|\.sg|\.ie|\.cl|\.my|\.no|\.co|\.co\.|\.com\.|\.pe|\.rs|\.si|\.hr|\.es|\.qa|\.al).*

Следом у нас будут web2.0 сервисы и блоги - вордпрессы, лайвджорналы, tumblr, weebly и т.д.:

Хостинги картинок(не могу представить каким образом они попадают в базу, но они нам не нужны)

.*(\.photobucket|\.deviantart).com\/.*

Бесплатные хостинги. Бурж хосты, добавлю чуть позже:

.*(\.wix|\.000webhost|\.110mb|\.16mb|\.125mb|\.100freemb)\.com.*

Отдельного внимания заслуживает ucoz(список пока неполный):

.*\.ucoz(\.com|\.com\.|\.ru|\.net|\.org|\.org\.ua|\.kz|\.ua|\.es|\.lv|\.co\.|\.de|\.ae|\.hu|\.ro|\.pl|\.fr).*

Ещё ucoz:

Ссылки на отправку почты:

(http:|https:)\/\/mailto:.*

Весь список еще неполный и будет периодически обновляться.

Наглядный пример использования данного метода, показывает сколько можно экономить времени отсекая ненужные сайты и сервисы. 223 mb ресурсов мы отсекли буквально за 5 минут, а сколько времени у нас бы занял чек этих ресурсов.

Могу сказать что как то чекал подряд много юкоза, без прокси. И он резал скорость чека на столько что где то 300к-600к ссылок чекалось часов 11.

Traff / Seo / Etc

no-style

Чистим мегабазы для хрумера при помощи TextPipe pro

Необходимые требования

1 Комментарии

Отправить комментарий

Форма для связи

Traff / Seo / Etc

no-style

Чистим мегабазы для хрумера при помощи TextPipe pro

Необходимые требования

Ещё по теме

1 Комментарии

Отправить комментарий

Форма для связи