GitHubじゃ!Pythonじゃ!

GitHubからPython関係の優良リポジトリを探したかったのじゃー、でも英語は出来ないから日本語で読むのじゃー、英語社会世知辛いのじゃー

iterative

dvc – ⚡️ あなたのデータサイエンスプロジェクトを再現できるように整理してください

投稿日:

⚡️ あなたのデータサイエンスプロジェクトを再現できるように整理してください 。https://dvc.org

ウェブサイト文書議論ブログTwitterチュートリアル

データサイエンスバージョンコントロールまたはDVCは、データサイエンスプロジェクトのオープンソースツールです。 これは、データ科学者がGitのようなコマンドの単純な形式でコードとデータを一緒に管理するのに役立ちます。

始める

ステップ コマンド
コードとデータを一緒に追跡する
$ git add train.py
$ dvc add images.zip

コマンドでコードとデータを接続する
$ dvc run -d images.zip -o images/ unzip -q images.zip
$ dvc run -d images/ -d train.py -o model.p python train.py

変更と再現
$ vi train.py
$ dvc repro model.p.dvc

シェアコード
$ git add .
$ git commit -m 'The baseline model'
$ git push

データとMLモデルを共有する
$ dvc remote add myremote s3://mybucket/image_cnn
$ dvc core.remote myremote
$ dvc push

詳細については、次のリンクをクリックしてください。

インストール

pip 、Homebrew、またはOS固有のパッケージを使用してインストールできます。

pip install dvc

パッケージ

Windows、Linux、Mac用の自己完結型パッケージが利用できます。 最新バージョンのパッケージは、GitHubのリリースページで見つけることができます

自作

brew install iterative/homebrew-dvc/dvc

または:

brew cask install iterative/homebrew-dvc/dvc

関連技術

  1. Git-annex – DVCは、大規模なファイル(Gitリポジトリには表示したくない)のコンテンツをローカルのKey-Valueストアに保存し、実際のファイルをコピーする代わりにファイルのハードリンク/シンボリックリンクを使用するという考えを使用します。
  2. Git-LFS – DVCはあらゆるリモートストレージ(S3、Google Cloud、Azure、SSHなど)と互換性があります。 DVCは、チェックアウト時のコピー操作を避けるために、大きなデータファイルの方がはるかに効率的になるように、再リンクまたはハードリンクを利用します。
  3. Makefile(そしてそれはアナログです)。 DVCは依存関係(DAG)を追跡します。
  4. ワークフロー管理システム DVCは、機械学習実験を管理するために特別に設計されたワークフロー管理システムです。 DVCはGitの上に構築されています。

DVCはGitと互換性があり、コードと依存関係グラフ(DAG)を格納しますが、データファイルのキャッシュは格納しません。 データファイルを保存および共有するにはDVCは、クラウド(S3、Azure、Google Cloudなど)または社内ネットワークストレージ(SSHなど)を使用してリモートをサポートします。

DVCのしくみ

貢献する

貢献は歓迎です! 詳細については、当社の寄付ガイドをご覧ください。

著作権

このプロジェクトはApacheライセンスバージョン2.0で配布されています(プロジェクトルートのLICENSEファイルを参照)。

このプロジェクトのプルリクエストを提出することにより、Apacheライセンスバージョン2.0での貢献をこのプロジェクトにライセンスすることに同意したことになります。







-iterative
-, , , , , , ,

執筆者:

iterative

dvc – ⚡️ あなたのデータサイエンスプロジェクトを再現できるように整理してください

投稿日:

(さらに…)







-iterative
-, , , , , , ,

執筆者: