GitHubじゃ!Pythonじゃ!

GitHubからPython関係の優良リポジトリを探したかったのじゃー、でも英語は出来ないから日本語で読むのじゃー、英語社会世知辛いのじゃー

douban

dpark – PythonのMapReduceのフレームワークであるSparkのPythonクローン

投稿日:

PythonのMapReduceのフレームワークであるSparkのPythonクローン

DPark

DParkは、反復計算をサポートするMapReduce(R)類似のコンピューティングフレームワークであるSparkのPythonクローンです。

単語カウントの例( wc.py ):

from dpark import DparkContext
ctx = DparkContext()
file = ctx.textFile("/tmp/words.txt")
words = file.flatMap(lambda x:x.split()).map(lambda x:(x,1))
wc = words.reduceByKey(lambda x,y:x+y).collectAsMap()
print wc

このスクリプトは、異なるコマンドライン引数を使用するだけで、変更せずにローカルまたはMesosクラスタ上で実行できます。

$ python wc.py
$ python wc.py -m process
$ python wc.py -m host[:port]

その他の使用例については、examples /を参照してください。

その他のドキュメント(中国語): https : //github.com/jackfengji/test_pro/wiki

DParkは、Mesos 0.9以上で動作します。

$MESOS_MASTER環境変数が設定されている場合は、ショートカットを使用して、MesosでDParkを実行することができます。

$ python wc.py -m mesos

$MESOS_MASTERは、以下のような$MESOS_MASTERマスターの任意のスキームです。

$ export MESOS_MASTER=zk://zk1:2181,zk2:2181,zk3:2181/mesos_master

シャッフルを高速化するには、 DPARK_WORK_DIR (デフォルトは/tmp/dpark )のデータにアクセスするために、ポート5055にNginxをデプロイする必要があります。

server {
        listen 5055;
        server_name localhost;
        root /tmp/dpark/;
}

メーリングリスト: dpark-users@googlegroups.comhttp://groups.google.com/group/dpark-users







-douban

執筆者: