Парсер прокси листов на GET запросах

июля 26, 2017 , , 0 Comments

Парсер публичных прокси листов на GET запросах
Чтобы набрать хороший список соксов из публичных прокси листов нужно хорошо потрудится. Со временем я пришёл к тому что софт который чекает и парсит соксы да и вообще проксю обладает рядом недостатков. Шаблон которым я делюсь в посте призван оптимизировать работу по поиску проксей и соксов из базы паблик прокси листов.


Нафига мне этот шаблон?


Начнём с того что большинство софта не умеет чистить дубли проксей. Это приводит к тому что вы теряете время чекая одни и те же прокси, которые встретились одновременно сразу в нескольких паблик листах.
А если и умеет, то эта процедура нехило может отъедать ресурсы вашего компа/сервера в зависимости от того на сколько большая у вас база.

Я встречал ещё софт который весь процесс парсинга производит через браузер Internet Explorer, вообще не понимаю создателей таких парсеров - зачем? Когда есть гет запросы)))

Чтобы оптимизировать часть процесса поиска проксей был написан данный шаблон, который во многопотоке GET запросами проходит всю базу с прокси листами и выпаршивает регуляркой проксю в фаил proxys.txt.

Остаётся только убрать дубли из полученного фаила и можно заряжать всё в свой проксичекер. По моему опыту: когда я в последний раз после парсинга удалил дубли - у меня вышло около 3кк уникальной прокси. Представьте сколько времени бы занял чек такой базы имея дубли, не говоря уже о том что база в 3кк чекается довольно долго.

Как работает шаблон


Когда скачаете, закидываем в фаил url-list.txt все проксилисты которые у вас есть.

Смотрите сколько строк у вас и пишете в самом зенно постере столько же строк в графу "сколько делать" и запускаете в столько потоков сколько вам нужно.

В процессе парсинга внутри папки шаблона появится фаил proxys.txt с результатом.

Как завершите парсинг удалите дубли (я это делаю KeyWordKeeper'ом он лежит тоже в папке).

Так же я добавил фаил Filters-bad-urls.txt в нём содержатся мусорные адреса прокси листов, которые часто попадают в базу но не содержат прокси. Можно тем же KeyWordKeeper'ом сделать выборку из базы листов, поместив в исключения урлы из бэд урлс.

Ссылка на скачивание шаблона: https://yadi.sk/d/DOrCm2-13LRVbA

0 коммент.: