Парсер прокси листов на GET запросах

Парсер публичных прокси листов на GET запросах
Чтобы набрать хороший список соксов из публичных прокси листов нужно хорошо потрудится. Со временем я пришёл к тому что софт который чекает и парсит соксы да и вообще проксю обладает рядом недостатков. Шаблон которым я делюсь в посте призван оптимизировать работу по поиску проксей и соксов из базы паблик прокси листов.


Зачем мне этот шаблон?

Большинство софта не умеет чистить дубли проксей. Это приводит к тому, что вы теряете время, когда проверяете(чекаете) одни и те же прокси, которые были одновременно сразу в нескольких источниках(паблик прокси листах).

Бывает так, что софт умеет чистить дубли проксей, однако, эта процедура может нехило отъедать ресурсы вашего компа/сервера в зависимости от того насколько большая у вас база.

Я встречал ещё софт который весь процесс парсинга производит через браузер Internet Explorer, вообще не понимаю создателей таких парсеров - зачем? Когда есть гет запросы)))

Чтобы оптимизировать часть процесса поиска проксей был написан данный шаблон, который во многопотоке GET запросами проходит всю базу с прокси листами и выпаршивает регуляркой всю найденную проксю в фаил proxys.txt

Остаётся только убрать дубли прокси из полученного фаила и можно заряжать всё в свой проксичекер. По моему опыту: когда я в последний раз после парсинга удалил дубли - у меня вышло около 3 кк уникальной прокси. Представьте сколько времени бы занял чек такой базы имея дубли, не говоря уже о том что база в 3 кк чекается довольно долго.


$ads={1}

Как работает шаблон

Скачиваем, распаковываем в нужную папку фаилы шаблона. Закидываем в фаил url-list.txt все проксилисты которые у вас есть.

Смотрим сколько у нас строк и пишем в самом зенно постере столько же строк в графу "сколько делать". Запускаем в столько потоков сколько нам нужно.

В процессе парсинга внутри папки шаблона появится фаил proxys.txt с результатом.

Как завершите парсинг удалите дубли. Я это делаю KeyWordKeeper'ом он тоже лежит в архиве.

Также я добавил фаил Filters-bad-urls.txt в нём содержатся мусорные адреса прокси листов, которые часто попадают в базу но не содержат прокси. Можно тем же KeyWordKeeper'ом сделать выборку из базы листов, поместив в исключения урлы из бэд урлс.


Ссылка на скачивание шаблона: https://yadi.sk/d/DOrCm2-13LRVbA



Каких результатов можно достичь

Если делать все правильно, то можно спокойно набрать 5-10 к живых соксов. Обратите внимание именно соксов, а не http прокси, в этом можно убедиться посмотрев скрин ниже. Все прокси уникальные, не повторяются, на многих открыты интересные порты.

результат проверки socks4 и socks5 прокси

Не забывайте сохранять результаты чека. Они вам пригодятся, когда понадобится быстро получить много живых прокси. У меня в виду особенности работы софта, вся живая прокся сохраняется в 3 отдельных фаила:

  • all-alive-http-proxy.txt
  • all-alive-socks4.txt
  • all-alive-socks5.txt

Время от времени я чищу фаилы от дублей. И когда нужно очень быстро получаю много живых проксей, чекая только эти фаилы.


$ads={2}

2 Комментарии

Отправить комментарий