GitHubじゃ!Pythonじゃ!

GitHubからPython関係の優良リポジトリを探したかったのじゃー、でも英語は出来ないから日本語で読むのじゃー、英語社会世知辛いのじゃー

zalandoresearch

fashion-mnist – MNISTのようなファッション製品データベース。 基準 👉

投稿日:

MNISTのようなファッション製品データベース。 基準 👉 http://fashion-mnist.s3-website.eu-ce…

ファッションMNIST

目次

Fashion-MNISTは、 Zalandoの記事画像のデータセットで、トレーニングセットには60,000の例があり、テストセットには10​​,000の例が含まれています。 各例は、10クラスからのラベルに関連付けられた28×28のグレースケール画像です。 Fashion-MNISTは、機械学習アルゴリズムのベンチマーキングのためのオリジナルのMNISTデータセットの直接的な置き換えとして機能する予定です。 それは、同じイメージサイズと構造の分割とテストを共有します。

データがどのように見えるかの例を示します( 各クラスは3行を取ります )。

なぜ我々はファッションMNISTを作ったのですか?

元のMNISTデータセットには手書き数字が多数含まれています。 AI / ML /データサイエンスコミュニティのメンバーは、このデータセットを愛用し、アルゴリズムを検証するためのベンチマークとして使用します。 事実、MNISTはしばしば研究者が試みる最初のデータセットです。 「それがMNISTで動作しないと、まったく動作しない」と彼らは言った。 「まあ、それがMNISTで動作するのであれば、それはまだ他人には失敗するかもしれない」

深刻な機械学習の研究者へ

真剣に、私たちはMNISTの交換について話しています。 ここにいくつかの良い理由があります:

データを取得する

多くのMLライブラリには既にFashion-MNISTデータ/ APIが含まれています。試してみてください!

ダイレクトリンクを使用してデータセットをダウンロードすることができます。 データは元のMNISTデータ と同じフォーマットで保存されます

コンテンツ サイズ リンク MD5チェックサム
train-images-idx3-ubyte.gz トレーニングセット画像 60,000 26メガバイト ダウンロード 8d4fb7e6c68d591d4c3dfef9ec88bf0d
train-labels-idx1-ubyte.gz トレーニングセットラベル 60,000 29キロバイト ダウンロード 25c81989df183df01b3e8a0aad5dffbe
t10k-images-idx3-ubyte.gz テストセット画像 10,000 4.3メガバイト ダウンロード bef4ecab320f06d8554ea6380940ec79
t10k-labels-idx1-ubyte.gz テストセットラベル 10,000 5.1キロバイト ダウンロード bb300cfdad3c16e7a12a480ee83cd310

あるいは、このGitHubリポジトリを複製することもできます。 データセットはdata/fashion下に表示されdata/fashion このレポには、ベンチマークと視覚化のためのスクリプトも含まれています。

git clone git@github.com:zalandoresearch/fashion-mnist.git

ラベル

各トレーニングおよびテストの例は、次のいずれかのラベルに割り当てられています。

ラベル 説明
0 Tシャツ/トップ
1 ズボン
2 路肩に寄せて下さい
3 ドレス
4 コート
5 サンダル
6 シャツ
7 スニーカー
8 バッグ
9 アンクルブーツ

使用法

Pythonでデータを読み込む( NumPyが必要)

このリポジトリでutils/mnist_readerを使用してutils/mnist_reader

import mnist_reader
X_train, y_train = mnist_reader.load_mnist('data/fashion', kind='train')
X_test, y_test = mnist_reader.load_mnist('data/fashion', kind='t10k')

Tensorflowを使用したデータのロード

データダウンロードしてdata/fashion配置してください。 それ以外の場合、 Tensorflowは元のMNISTをダウンロードして使用します。

from tensorflow.examples.tutorials.mnist import input_data
data = input_data.read_data_sets('data/fashion')

data.train.next_batch(BATCH_SIZE)

Tensorflow(マスターバージョン)は、ソースurlをread_data_sets渡すことをサポートしています。 あなたは以下を使うことができます:

data = input_data.read_data_sets('data/fashion', source_url='http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/')

他の機械学習ライブラリを使用したデータの読み込み

今日まで、以下のライブラリはFashion-MNISTをビルトインのデータセットとして含んでいます。 したがって、自分でFashion-MNISTをダウンロードする必要はありません。 APIに従うだけで、あなたは準備が整いました。

Fashion-MNISTデータセットへのサポートを向上させ、他のオープンソースマシン学習パッケージにプルリクエストを行うことは大歓迎です。

他の言語でデータを読み込む

Machine Learningコミュニティの最も一般的なデータセットの1つであるMNISTは、人々にさまざまな言語のローダーを実装するよう促してきました。 これらのローダーをFashion-MNISTデータセットとともに使用することもできます。 (注:最初に解凍する必要があるかもしれません)。現在、これらのローダーすべてをFashion-MNISTでテストしていません。

基準

私たちは、さまざまなパラメータを持つ129の分類子(深い学習なし)をカバーするscikit-learn基づいた自動ベンチマークシステムを構築しました。 ここで結果を見つけてください

benchmark/runner.py実行して結果を再現することができbenchmark/runner.py このDockerfileの構築と展開をお勧めします。

あなたはベンチマークを提出することを歓迎します。 新しい問題を作成するだけで、結果をここにリストアップします。 それを行う前に、このリストにまだ表示さていないことを確認してください。 詳細については、 寄稿者のガイドラインをご覧ください。

以下の表は、提出されたベンチマークを収集したものです。 これらの結果をまだテストしていないこと注意しください。 提出者によって提供されたコードを使用して結果を検証することは大歓迎です。 エポックの数、バッチサイズなどによってテスト精度が異なる場合があります。この表を修正するには、新しい問題を作成してください。

クラシファイア 前処理 ファッションテストの精度 MNIST試験精度 提出者 コード
2最大プール(Keras)を使用したレイヤーのコンバージョン なし 0.876 カシフ・ラスル 🔗
2最大コンプレッション(Tensorflow)> 300エポックのレイヤーをコンバートする なし 0.916 Tensorflowの文書 🔗
最大プールとELUの有効化を備えた2層のコンバージョン(PyTorch) なし 0.903 @AbhirajHinge 🔗
2つのコンバレイ層ネット 正規化、ランダム水平フリップ、ランダム垂直フリップ、ランダム変換、ランダム回転。 0.919 0.971 Kyriakos Efthymiadis 🔗
2 Conv Layersネット<100Kパラメータ なし 0.925 0.992 @hardmaru 🔗
2コンバージョンレイヤー113Kパラメータ 正規化 0.922 0.993 Abel G. 🔗
3つのFC 1.8Mパラメータを持つ2つのConvレイヤ 正規化 0.932 0.994 @ Xfan1025 🔗
2つのFC 500Kパラメータを持つレイヤ2コンバージョン 増強、バッチ標準化 0.934 0.994 @cmasch 🔗
2層のコンバージョン+最大プール+高密度+ BN なし 0.934 @ khanguyen1207 🔗
3つのコンバレイ層と2つのFC なし 0.907 @CenkBircanoğlu 🔗
3コンバレイヤ+プール+ BN なし 0.903 0.994 @メフアナブハンゲ 🔗
3コンバイン+プールと2 FC +ドロップアウト なし 0.926 @Umberto Griffo 🔗
オプションのショートカットを備えたCNN、高密度の接続性 標準化+拡張+ランダム消去 0.947 @ケニビッチ 🔗
GRU + SVM なし 0.888 0.965 @AFAGalap 🔗
GRU + SVM(ドロップアウトあり) なし 0.897 0.988 @AFAGalap 🔗
WRN40-4 8.9Mパラメータ 標準的な前処理(平均/標準偏差/除算)と拡大(ランダム作物/水平反転) 0.967 @ajbrock 🔗 🔗
DenseNet-BC 768Kパラメータ 標準的な前処理(平均/標準偏差/除算)と拡大(ランダム作物/水平反転) 0.954 @ajbrock 🔗 🔗
モバイルネット 増強(水平フリップ) 0.950 @苏剑林 🔗
ResNet18 正規化、ランダム水平フリップ、ランダム垂直フリップ、ランダム変換、ランダム回転。 0.949 0.979 Kyriakos Efthymiadis 🔗
クロスエントロピー損失を伴うGoogleNet なし 0.937 @CenkBircanoğlu 🔗
トリプレット損失を伴うAlexNet なし 0.899 @CenkBircanoğlu 🔗
循環学習率200エポックのSqueezeNet なし 0.900 @ snakers4 🔗
ワイドリスネットによるデュアルパスネットワーク28-10 標準的な前処理(平均/標準偏差/除算)と拡大(ランダム作物/水平反転) 0.957 @Queequeg 🔗
VGG16 26Mパラメータ なし 0.935 @QuantumLiu 🔗 🔗
WRN-28-10 標準的な前処理(平均/標準偏差/除算)と拡大(ランダム作物/水平反転) 0.959 @ zhunzhong07 🔗
WRN-28-10 +ランダム消去 標準的な前処理(平均/標準偏差/除算)と拡大(ランダム作物/水平反転) 0.963 @ zhunzhong07 🔗
人間のパフォーマンス ファッションの専門知識を持たない人間の群集による評価。 無作為抽出されたテスト画像1000個、画像当たり3個のラベル、過半数のラベル付け。 0.835 レオ
カプセルネットワーク8Mパラメータ 最大2ピクセルと水平フリップでの正規化とシフト 0.936 @ XifengGuo 🔗
HOG + SVM 0.926 @subalde 🔗
XgBoost ピクセル値を平均= 0.0にスケーリングし、var = 1.0 0.898 0.958 @ anktplwl91 🔗
デンサー 0.953 0.997 @fillassuncao 🔗 🔗

ファッション・MNISTの他の探究

ファッション-MNIST(Google Scholar)

生成的敵対的ネットワーク(GAN)

クラスタリング

ビデオチュートリアル

Yufeng G @ Google Cloudによるファッションを学ぶ機械学習

Yufeng G @ Google CloudによるKaggleカーネルの紹介

Mu Li @ Amazon AIによる动手学深度学习

Apache MXNetでのバケーション練習(Deep Learning) – 金武鉉(AWSソリューションズセンター)

視覚化

Fashion-MNIST(左)と元のMNIST(右)のt-SNE

Fashion-MNIST(左)と元のMNIST(右)のPCA

Fashion-MNIST(左)と元のMNIST(右)のUMAP

貢献する

貢献にご関心をお寄せいただきありがとうございます! 関係する多くの方法があります。 寄稿者のガイドラインから始めて、特定の作業についてこれらの未解決の問題を確認してください。

接触

データセットについて議論するには、

引用ファッション-MNIST

科学出版物でFashion-MNISTを使用している場合は、次の論文を参考にしてください。

ファッションMNIST:ベンチマーキング学習アルゴリズムのための新規画像データセットファッションMNIST:ベンチマーキング学習アルゴリズムのための新規画像データセット。 Han Xiao、Kashif Rasul、Roland Vollgraf。 arXiv:1708.07747

Biblatexエントリー:

@online{xiao2017/online,
  author       = {Han Xiao and Kashif Rasul and Roland Vollgraf},
  title        = {Fashion-MNIST: a Novel Image Dataset for Benchmarking Machine Learning Algorithms},
  date         = {2017-08-28},
  year         = {2017},
  eprintclass  = {cs.LG},
  eprinttype   = {arXiv},
  eprint       = {cs.LG/1708.07747},
}

誰がファッション-MNISTを引用していますか?

ライセンス

MITライセンス(MIT)Copyright©[2017] Zalando SE、 https: //tech.zalando.com

本ソフトウェアおよび関連するドキュメンテーションファイル(以下「本ソフトウェア」といいます)のコピーを取得した者は、本ソフトウェアを制限なく使用、複製、改変、マージする権利を含むがこれに限定されるものではなく、本ソフトウェアのコピーを発行、配布、サブライセンス許諾、および/または販売すること、および本ソフトウェアが提供されている人に、以下の条件に従うことを許可すること。

上記の著作権表示およびこの許可通知は、本ソフトウェアのすべてのコピーまたは実質的な部分に含まれるものとします。

本ソフトウェアは、商品性、特定の目的への適合性および非侵害性の保証を含むが、明示的または黙示的ないかなる保証もなく、現状のまま提供されます。 作者または著作権者は、いかなる場合も、本ソフトウェアまたはその使用に関連して発生したものであっても、その使用に起因するものであっても、契約違反、その他の損害賠償その他の損害賠償の責任は負わないものとします。ソフトウェア。







-zalandoresearch
-, , , , , , , , , ,

執筆者: