GitHubじゃ!Pythonじゃ!

GitHubからPython関係の優良リポジトリを探したかったのじゃー、でも英語は出来ないから日本語で読むのじゃー、英語社会世知辛いのじゃー

pandas-profiling

pandas-profiling – pandas DataFrameオブジェクトからHTMLプロファイリングレポートを作成する

投稿日:

pandas DataFrameオブジェクトからHTMLプロファイリングレポートを作成する

パンダプロファイリング

DataFrameからプロファイルレポートを生成します。 df.describe()関数は素晴らしいですが、深刻な探索的データ分析のための少し基本的です。

各列に対して、次の統計情報(列タイプに関連する場合)がインタラクティブHTMLレポートに表示されます。

  • Essentials :タイプ、一意の値、欠損値
  • 最小値、Q1、中央値、Q3、最大値、範囲、四分位範囲などの数量統計
  • 平均、モード、標準偏差、合計、絶対偏差の中央値、変動係数、尖度、歪度などの記述統計量
  • 最も頻繁な値
  • ヒストグラム
  • 相関の高い変数、スピアマンとピアソン行列の相関関係

デモ

ライブデモを見るには、 ここをクリックしてください。

インストール

ピップを使って

実行してpipパッケージマネージャを使用してインストールできます

pip install pandas-profiling

コンダを使う

実行することによってcondaパッケージマネージャを使用してインストールできます

conda install pandas-profiling

ソースから

レポを複製するか、このページで[Download ZIP]を押すことで、ソースコードをダウンロードしてください。 適切なディレクトリに移動して実行してインストールする

python setup.py install

使用法

プロファイルレポートはHTML5とCSS3で書かれています。つまり、パンダプロファイリングには最新のブラウザが必要です。

ジュピターノート(旧IPython)

Jupiterノートブックを使用してインタラクティブにレポートを作成することをお勧めします。

あなたのpandas DataFrameにロードすることから始めましょう。

import pandas as pd
import pandas_profiling

df=pd.read_csv("/myfilepath/myfile.csv", parse_dates=True, encoding='UTF-8')

Jupyterノートブックでレポートを表示するには、次のコマンドを実行します。

pandas_profiling.ProfileReport(df)

相関が高いために拒否された変数のリストを検索するには:

profile = pandas_profiling.ProfileReport(df)
rejected_variables = profile.get_rejected_variables(threshold=0.9)

HTMLレポートファイルを生成する場合は、 ProfileReportをオブジェクトに保存し、 to_file()関数を使用します。

profile = pandas_profiling.ProfileReport(df)
profile.to_file(outputfile="/tmp/myoutputfile.html")

Python

pandasによってすぐに読み取れる標準形式のCSVファイルについては、 profile_csv.pyスクリプトを使用できます。 走る

python profile_csv.py -h

オプションと引数については、

高度な使い方

生成されたレポートを適合させるために一連のオプションを利用できます。

  • binsint ):ヒストグラムのビン数(デフォルトは10)。
  • 相関設定:
    • check_correlationboolean ):相関をチェックするかどうか(デフォルトはTrue
    • correlation_thresholdfloat ):変数のペアが相関するかどうかを判断するためのしきい値(デフォルトでは0.9)。
    • correlation_overrideslist ):関連付けられているため拒否されない変数名(デフォルトではNone )。
    • check_recodedboolean ):記録された相関をチェックするかどうかを指定します(デフォルトはFalse )。 これは高価な計算であるため、小さなデータセットに対して有効にすることができます。
  • pool_sizeint ):スレッドプール内のワーカーの数。 デフォルトはCPUの数に等しい。

依存関係

  • インターネット接続。 パンダプロファイリングでは、ブートストラップとJQueryライブラリをダウンロードするためのインターネット接続が必要です。 私はこれを将来変更するかもしれません、あなたがそれを後でもっと早く望むかどうかを教えてください。
  • Python(> = 2.7)
  • パンダ(> = 0.19)
  • matplotlib(> = 1.4)
  • 6つ(> = 1.9)







-pandas-profiling
-, , , , , , , ,

執筆者: