GitHubじゃ!Pythonじゃ!

GitHubからPython関係の優良リポジトリを探したかったのじゃー、でも英語は出来ないから日本語で読むのじゃー、英語社会世知辛いのじゃー

jhao104

proxy_pool – Python爬虫代理IP池(プロキシプール)

投稿日:

Python爬虫代理IP池(プロキシプール)

爬虫類IP代理池

______                        ______             _
| ___ \_                      | ___ \           | |
| |_/ / \__ __   __  _ __   _ | |_/ /___   ___  | |
|  __/|  _// _ \ \ \/ /| | | ||  __// _ \ / _ \ | |
| |   | | | (_) | >  < \ |_| || |  | (_) | (_) || |___
\_|   |_|  \___/ /_/\_\ \__  |\_|   \___/ \___/ \_____\
                       __ / /
                      /___ /
介在物
  • 支持版本:

  • 测试地址: http ://123.207.35.36:5010(单机勿压。感謝)

ダウンロード安眠

  • ダウンロードソース码:
git clone git@github.com:jhao104/proxy_pool.git

或者直接到https://github.com/jhao104/proxy_pool 下载zip文件
  • 安装欠赖:
pip install -r requirements.txt
  • Config.iniの配置:
# Config.ini 为项目配置文件
# 配置DB
type = SSDB       # 如果使用SSDB或redis数据库,均配置为SSDB
host = localhost  # db host
port = 8888       # db port
name = proxy      # 默认配置

# 配置 ProxyGetter
freeProxyFirst  = 1  # 这里是启动的抓取函数,可在ProxyGetter/getFreeProxy.py 扩展
freeProxySecond = 1
....

# 配置 HOST (api服务)
ip = 127.0.0.1       # 监听ip,0.0.0.0开启外网访问
port = 5010          # 监听端口
# 上面配置启动后,代理api地址为 http://127.0.0.1:5010
  • 启动:
# 如果你的依赖已经安全完成并且具备运行条件,可以直接在Run下运行main.py
# 到Run目录下:
>>>python main.py

# 如果运行成功你应该看到有4个main.py进程

# 你也可以分别运行他们,
# 依次到Api下启动ProxyApi.py,Schedule下启动ProxyRefreshSchedule.py和ProxyValidSchedule.py即可.

使用

IPアドレスを入力すると、IPアドレスを取得することができます

也可以通api访问http://127.0.0.1:5010查看。

  • Api
API 方法 説明 arg
/ 取得する api介绍 なし
/取得する 取得する 机机取一一代代理 なし
/すべて取得 取得する 預取所有代理 なし
/ get_status 取得する 查看代理数量 なし
/削除 取得する 删除代理 プロキシ=ホスト:IP
  • 爬虫使用

どのようにして使用することができますか?

import requests

def get_proxy():
    return requests.get("http://127.0.0.1:5010/get/").content

def delete_proxy(proxy):
    requests.get("http://127.0.0.1:5010/delete/?proxy={}".format(proxy))

# your spider code

def getHtml():
    # ....
    retry_count = 5
    proxy = get_proxy()
    while retry_count > 0:
        try:
            html = requests.get('https://www.example.com', proxies={"http": "http://{}".format(proxy)})
            # 使用代理访问
            return html
        except Exception:
            retry_count -= 1
    # 出错5次, 删除代理池中代理
    delete_proxy(proxy)
    return None

扩展代理

免除することができますが、免除することはできません。

追加する新しい代理取手方法など:

  • 1、GetFreeProxyクラスの中でGetTreeのメソッドを呼び出すと、そのメソッドが生成されます。
class GetFreeProxy(object):
    # ....

    # 你自己的方法
    @staticmethod
    def freeProxyCustom():  # 命名不和已有重复即可

        # 通过某网站或者某接口或某数据库获取代理 任意你喜欢的姿势都行
        # 假设你拿到了一个代理列表
        proxies = ["139.129.166.68:3128", "139.129.166.61:3128", ...]
        for proxy in proxies:
            yield proxy
        # 确保每个proxy都是 host:ip正确的格式就行
  • 2、好好後后、修改Config.iniファイル中[ProxyGetter]项:

Config.ini [ProxyGetter]追加する独自の方法的な方法を名字:

[ProxyGetter]
;register the proxy getter function
freeProxyFirst  = 0  # 如果要取消某个方法,将其删除或赋为0即可
....
freeProxyCustom  = 1  # 确保名字和你添加方法名字一致

ProxyRefreshSchedule 、1つの代理を引き継ぎ、下に次の握取時に自動的に矛盾する習慣を定義する方法です。

问题反

任務问题问题中问题中、账号可以去我的博客中留言。

你的反馈会让目变得更加完美。

贡献代码

本物件は基本的な通貨代理建造物であり、不当特有財産(当然、不限益特特好的思想)。

本物は依然として不完全であり、バグまたは有能な新機能は、バグ(または新機能)を記述し、再確認してください。

貢献者の孤独奉成:

@kangnwh | @ bobobo80 | @halleywj | @newlyedward | @ wang-ye | @gladmo | @nberniyyangmh | @PythonYXY | ジェジュンウォニウ | @netAir | @scil | @tangrela

リリースノート

リリースノート







-jhao104
-, , , , , , ,

執筆者: