Github: https://github.com/SpiderClub/haipproxy
HAipproxy
本项目募集IP资源IP资产资源IP资源资源IP资源。
特徴
- 高速捲取代理IP
- IP剪取和提取精細
- IP来源丰富
- 優秀なIP教育機関、並行開発が必要
- 支持分布式部署
- 架構構成
- MIT授権协议
クイックスタート
注意、代理店からリリース列席中下ダウンロード、 マスターコードの代用不承認稳定运行
机器部署
服务端
-
Python3とRedisをインストールしてください。
-
config / settings.py中
REDIS_HOST
、REDIS_PASSWORD
等のパラメータを設定してください。 -
インストールスクリプト– スプラッシュ 、并修改装文config / settings.py中的
SPLASH_URL
-
安室倶楽部
pip install -r requirements.txt
-
徴動治療作業員 、包括代理IP采取器と校務器
python crawler_booter.py – 利用クローラ
python crawler_booter.py – 利用確認ツール
-
IP时间调整度校务
python scheduler_booter.py – 利用クローラ
python scheduler_booter.py – 利用確認ツール
顧客宅口
近日中断しても同性问题、そういうものを取っているものは中立的な代理人IP列haipproxy
。haipproxyは代理的な方法を使用してweb api
アプリケーションを提供し、提供するのは顧客のために提供しています。的イカ二級代理
python顧客棟の設計例
from client.py_cli import ProxyFetcher
args = dict(host='127.0.0.1', port=6379, password='123456', db=0)
# 这里`zhihu`的意思是,去和`zhihu`相关的代理ip校验队列中获取ip
# 这么做的原因是同一个代理IP对不同网站代理效果不同
fetcher = ProxyFetcher('zhihu', strategy='greedy', redis_args=args)
# 获取一个可用代理
print(fetcher.get_proxy())
# 获取可用代理列表
print(fetcher.get_proxies()) # or print(fetcher.pool)
より具体的な例を見て/ zhihu
イカ作成代二代代理
-
パッケージング、パッケージング、パッケージング、パッケージング、パッケージング
sudo apt-get installイカ
sudo sed -iの/ http_access deny all / http_access allow all / g ‘
sudo cp /etc/squid/squid.conf /etc/squid/squid.conf.backup
sudoサービスイカ起動
-
SQUID_BIN_PATH、
SQUID_CONF_PATH
、SQUID_TEMPLATE_PATH
コンフィグレーション -
机能
squid conf
正しい時間更新程序sudo python squid_update.py
-
‘squid_host:3128’のためにPythonを使用するように指定してください
import requests proxies = {'https': 'http://127.0.0.1:3128'} resp = requests.get('https://httpbin.org/ip', proxies=proxies) print(resp.text)
ドッカー部署
-
安いドッカー
-
安心ドッカー – 作成
ピップインストール-Uドッカー作成
-
修正設定中中
SPLASH_URL
REDIS_HOST
パラメータSPLASH_URL = 'http://splash:8050' REDIS_HOST = 'redis'
-
ドッカーを使用して各自のアプリケーションを構築する
ドッカー – 構成
それはあなたのために使用することができます。
注意事项
- 本物の高度な要求Redis、除外消息通信および数の救出は、IPの校正および任務の決定の使用を使用してRedisの中の多種数の構成。それは必要ですRedis、
- GFWの基本的な考え方は、 GFWの基本的な機能であり、ルールのタスク
task_queue
とSPIDER_GFW_TASKとSPIDER_AJAX_GFW_TASKの権限をenable
プロパティの設定をenable
ます。爬虫類型common
ajax
python crawler_booter.py – 一般的なajaxをクローズする
- 同位代理IP、不同网站的代理效果可能大不相同。IP校验器
工作流程
开发者文档
あなたのために、 haipproxy
ために、 haipproxy
ためにhaipproxy
捜してください。
效果测试
他のモデル模型部署haipproxy
和测试代码 、以来了標目请求站点、每日万成功成功求求求计果果、取取
願求量 | 时间 | 时时 | IP賦活策 | 顧客宅口 |
---|---|---|---|---|
0 | 2018/03/03 22:03 | 0 | 貪欲 | py_cli |
10000 | 2018/03/03 11:03 | 1時間 | 貪欲 | py_cli |
20000 | 2018/03/04 00:08 | 2時間 | 貪欲 | py_cli |
30000 | 2018/03/04 01:02 | 3時間 | 貪欲 | py_cli |
40000 | 2018/03/04 02:15 | 4時間 | 貪欲 | py_cli |
50000 | 2018/03/04 03:03 | 5時間 | 貪欲 | py_cli |
60000 | 2018/03/04 05:18 | 7時間 | 貪欲 | py_cli |
70000 | 2018/03/04 07:11 | 9時間 | 貪欲 | py_cli |
80000 | 2018/03/04 08:43 | 11時間 | 貪欲 | py_cli |
1w/hour
あたりの要求量は、 5k/hour
当たり5k/hour
。降下可能な結果は、 (2)知っている校舎は、 Init Queue
中にあるので、IP空き地があります。 IPの空の欠点;(3) greedy
模倣の使用IP:高品質の代理IPの不備IP会议调整。IPの空の欠点。
あなたは知的財産権を保護していますか?あなたは知的財産権を保有していますか?
测试代码見例/ zhihu
如何贡献
- 欢迎给项目提新機能
- PRの問題またはPRの問題
- 代理IP校验筛選的措置仍有优化的空间、歓迎大家交流討議
- 歓迎された享楽
同クラスのアイテム
本物のGithubの上の开発的な个人复造代理的な现在、感谢他の机关、付录不达分後。