GitHubじゃ!Pythonじゃ!

GitHubからPython関係の優良リポジトリを探したかったのじゃー、でも英語は出来ないから日本語で読むのじゃー、英語社会世知辛いのじゃー

SpiderClub

haipproxy – 無料の可用性の高いIPプロキシプール

投稿日:

💖 無料の高可用IPプロキシプール、ScrapyとRedisのPowerd https://spiderclub.github.io/haipproxy/

HAipproxy

README | 中文マニュアル

本项目募集IP资源IP资产资源IP资源资源IP资源。

特徴

  • 高速捲取代理IP
  • IP剪取和提取精細
  • IP来源丰富
  • 優秀なIP教育機関、並行開発が必要
  • 支持分布式部署
  • 架構構成
  • MIT授権协议

クイックスタート

注意、代理店からリリース列席中下ダウンロード、 マスターコードの代用不承認稳定运行

机器部署

服务端

  • Python3とRedisをインストールしてください。

  • config / settings.pyREDIS_HOSTREDIS_PASSWORD等のパラメータを設定してください。

  • インストールスクリプト– スプラッシュ 、并修改装文config / settings.py中的SPLASH_URL

  • 安室倶楽部

    pip install -r requirements.txt

  • 徴動治療作業員 、包括代理IP采取器と校務器

    python crawler_booter.py – 利用クローラ

    python crawler_booter.py – 利用確認ツール

  • IP时间调整度校务

    python scheduler_booter.py – 利用クローラ

    python scheduler_booter.py – 利用確認ツール

顧客宅口

近日中断しても同性问题、そういうものを取っているものは中立的な代理人IP列haipproxy 。haipproxyは代理的な方法を使用してweb apiアプリケーションを提供し、提供するのは顧客のために提供しています。的イカ二級代理

python顧客棟の設計例

from client.py_cli import ProxyFetcher
args = dict(host='127.0.0.1', port=6379, password='123456', db=0)
# 这里`zhihu`的意思是,去和`zhihu`相关的代理ip校验队列中获取ip
# 这么做的原因是同一个代理IP对不同网站代理效果不同
fetcher = ProxyFetcher('zhihu', strategy='greedy', redis_args=args)
# 获取一个可用代理
print(fetcher.get_proxy())
# 获取可用代理列表
print(fetcher.get_proxies()) # or print(fetcher.pool)

より具体的な例を見て/ zhihu

イカ作成代二代代理

  • パッケージング、パッケージング、パッケージング、パッケージング、パッケージング

    sudo apt-get installイカ

    sudo sed -iの/ http_access deny all / http_access allow all / g ‘

    sudo cp /etc/squid/squid.conf /etc/squid/squid.conf.backup

    sudoサービスイカ起動

  • SQUID_BIN_PATH、 SQUID_CONF_PATHSQUID_TEMPLATE_PATHコンフィグレーション

  • 机能squid conf正しい時間更新程序

    sudo python squid_update.py

  • ‘squid_host:3128’のためにPythonを使用するように指定してください

    import requests
    proxies = {'https': 'http://127.0.0.1:3128'}
    resp = requests.get('https://httpbin.org/ip', proxies=proxies)
    print(resp.text)
    

ドッカー部署

  • 安いドッカー

  • 安心ドッカー – 作成

    ピップインストール-Uドッカー作成

  • 修正設定中中SPLASH_URL REDIS_HOSTパラメータ

    SPLASH_URL = 'http://splash:8050'
    REDIS_HOST = 'redis'
    
  • ドッカーを使用して各自のアプリケーションを構築する

    ドッカー – 構成

それはあなたのために使用することができます。

注意事项

  • 本物の高度な要求Redis、除外消息通信および数の救出は、IPの校正および任務の決定の使用を使用してRedisの中の多種数の構成。それは必要ですRedis、
  • GFWの基本的な考え方は、 GFWの基本的な機能であり、ルールのタスク task_queueとSPIDER_GFW_TASKとSPIDER_AJAX_GFW_TASKの権限をenableプロパティの設定をenableます。爬虫類型common ajax

    python crawler_booter.py – 一般的なajaxをクローズする

  • 同位代理IP、不同网站的代理效果可能大不相同。IP校验器

工作流程

开发者文档

あなたのために、 haipproxyために、 haipproxyためにhaipproxy捜してください。

效果测试

他のモデル模型部署haipproxy测试代码 、以来了標目请求站点、每日万成功成功求求求计果果、取取

願求量 时间 时时 IP賦活策 顧客宅口
0 2018/03/03 22:03 0 貪欲 py_cli
10000 2018/03/03 11:03 1時間 貪欲 py_cli
20000 2018/03/04 00:08 2時間 貪欲 py_cli
30000 2018/03/04 01:02 3時間 貪欲 py_cli
40000 2018/03/04 02:15 4時間 貪欲 py_cli
50000 2018/03/04 03:03 5時間 貪欲 py_cli
60000 2018/03/04 05:18 7時間 貪欲 py_cli
70000 2018/03/04 07:11 9時間 貪欲 py_cli
80000 2018/03/04 08:43 11時間 貪欲 py_cli

1w/hourあたりの要求量は、 5k/hour当たり5k/hour 。降下可能な結果は、 (2)知っている校舎は、 Init Queue中にあるので、IP空き地があります。 IPの空の欠点;(3) greedy模倣の使用IP:高品質の代理IPの不備IP会议调整。IPの空の欠点。

あなたは知的財産権を保護していますか?あなたは知的財産権を保有していますか?

测试代码見例/ zhihu

如何贡献

  • 欢迎给项目提新機能
  • PRの問題またはPRの問題
  • 代理IP校验筛選的措置仍有优化的空间、歓迎大家交流討議
  • 歓迎された享楽

同クラスのアイテム

本物のGithubの上の开発的な个人复造代理的な现在、感谢他の机关、付录不达分後。

ダンプロキシー

proxyspider

ProxyPool

proxy_pool

ProxyPool

IPProxyTool

IPProxyPool

proxy_list

proxy_pool







-SpiderClub
-, , , , , , ,

執筆者: