GitHubじゃ!Pythonじゃ!

GitHubからPython関係の優良リポジトリを探したかったのじゃー、でも英語は出来ないから日本語で読むのじゃー、英語社会世知辛いのじゃー

explosion

spaCy – 💫 PythonとCythonを使用した工業用の自然言語処理(NLP)

投稿日:

💫 PythonとCythonを使用した工業用の自然言語処理(NLP) https://spacy.io

spaCy:産業用NLP

spaCyは、PythonとCythonの高度な自然言語処理のためのライブラリです。 最新の研究を基に構築され、本物の製品に使用されるように設計されました。 spaCyには、 事前に訓練された統計モデルと単語ベクトルが付属しています 。現在、 20以上の言語のトークン化をサポートしています これは、世界で最も速い構文パーサー 、タギング、構文解析、 名前付きエンティティ認識 、容易な深い学習統合のための畳み込みニューラルネットワークモデルを特長としています。 商用オープンソースソフトウェアで、MITライセンスの下で公開されています。

💫 バージョン2.0がリリースされました! ここで新しい機能をチェックしてください。

📖 ドキュメンテーション

spaCy 101 spaCyの新しい? ここにあなたが知る必要があるすべてがあります!
使用ガイド spaCyの使い方とその使い方
v2.0の新機能 新機能、後方互換性、移行ガイド
APIリファレンス spaCyのAPIの詳細なリファレンス。
モデル spaCyの統計言語モデルをダウンロードしてください。
リソース ライブラリ、拡張、デモ、書籍、コース。
変更ログ 変更とバージョン履歴
寄稿 spaCyプロジェクトとコードベースに貢献する方法。

💬 質問する場所

spaCyプロジェクトは@honnibal@inesによって管理されています。 個別のサポートはメールではできませんのでご了承ください。 私たちはまた、一般的に共有されていると助けがより価値があると信じており、より多くの人々がその利益を得ることができます。

バグレポート GitHub Issue Tracker
使用に関する質問 StackOverflowGitter ChatRedditユーザーグループ
一般的なディスカッション Gitter ChatRedditユーザーグループ

特徴

  • 世界で最も速い構文構文解析ツール
  • 名前付きエンティティ認識
  • 非破壊的トークン化
  • 20以上の言語のサポート
  • 事前訓練された統計モデルと単語ベクトル
  • 簡単な深い学習の統合
  • 品詞タグ付け
  • ラベル付き依存関係解析
  • 構文駆動型セグメンテーション
  • シンタックスとNERのためのビジュアライザ内蔵
  • 便利な文字列 – ハッシュマッピング
  • numpyデータ配列にエクスポート
  • 効率的なバイナリシリアル化
  • 簡単なモデルのパッケージ化と展開
  • 最先端のスピード
  • 堅牢で厳密に評価された精度

📖 詳細は、 事実、数字、ベンチマークを 参照してください

spaCyのインストール

詳しいインストール手順については、 マニュアルを参照してください。

オペレーティング·システム macOS / OS X、Linux、Windows(Cygwin、MinGW、Visual Studio)
Pythonバージョン CPython 2.7,3.4+。 64ビットのみ。
パッケージマネージャー pip (ソースパッケージのみ)、 condaconda-forge経由)

ピップ

pipを使用すると、現在spaCyリリースはソースパッケージとしてのみ利用可能です。

pip install spacy

pipを使用する場合は、システム環境を変更しないように仮想環境にパッケージをインストールすることをお勧めします。

venv .env
source .env/bin/activate
pip install spacy

コンダ

私たちの偉大なコミュニティのおかげで、私たちは最終的にcondaサポートを再追加しました。 conda-forge spaCyをインストールできるようになりconda-forge

conda config --add channels conda-forge
conda install spacy

ビルドレシピと設定を含むフィードストックについては、 このリポジトリをチェックアウトしてください。 レシピとセットアップへの改善とプルリクエストは常に高く評価されています。

spaCyの更新

spaCyの一部のアップデートでは、新しい統計モデルをダウンロードする必要があります。 spaCy v2.0以降を使用している場合は、 validateコマンドを使用して、インストールされているモデルが互換性があるかどうかを確認し、互換性がない場合は、更新方法の詳細を印刷できます。

pip install -U spacy
python -m spacy validate

独自のモデルを訓練した場合は、トレーニングとランタイム入力が一致している必要があります。 spaCyを更新した後、新しいバージョンでモデル学習することをおすすめします

📖 spaCy 1.xからspaCy 2.xへのアップグレードの詳細については、 移行ガイドを 参照して ください

モデルをダウンロードする

v1.7.0以降、spaCyのモデルはPythonパッケージとしてインストールできます これは他のモジュールと同様に、アプリケーションのコンポーネントであることを意味します。 モデルは、spaCyのdownloadコマンドを使用してインストールすることも、ピップをパスまたはURLに指定することによって手動でインストールすることもできます。

利用可能なモデル 詳細なモデルの説明、精度の数値、ベンチマーク。
モデルのドキュメント 詳細な使用方法。
# out-of-the-box: download best-matching default model
python -m spacy download en

# download best-matching version of specific model for your spaCy installation
python -m spacy download en_core_web_lg

# pip install .tar.gz archive from path or URL
pip install /Users/you/en_core_web_sm-2.0.0.tar.gz

モデルの読み込みと使用

モデルをロードするには、モデルのショートカット・リンクでspacy.load()を使用します。

import spacy
nlp = spacy.load('en')
doc = nlp(u'This is a sentence.')

pip経由でモデルをインストールした場合は、モデルを直接importてからload()メソッドを呼び出すこともできます。

import spacy
import en_core_web_sm

nlp = en_core_web_sm.load()
doc = nlp(u'This is a sentence.')

📖 詳細と例については、 モデルのドキュメントを参照 してください

古いバージョンのサポート

古いバージョン( v1.6.0以下)を使用している場合でも、 python -m spacy.en.download allまたはpython -m spacy.de.download allを使用してspaCy内から古いモデルをダウンロードしてインストールできます。 .tar.gzアーカイブもv1.6.0リリースに付属しています。 モデルを手動でダウンロードしてインストールするには、アーカイブを解凍し、含まれているディレクトリをspacy/dataにドロップし、 spacy.load('en')またはspacy.load('de')spacy.load('en')てモデルをロードします。

ソースからコンパイルする

spaCyをインストールするもう1つの方法は、 GitHubリポジトリを複製し、ソースからビルドすることです。 これは、コードベースを変更する場合の一般的な方法です。 ヘッダファイル、コンパイラ、 pipvirtualenvgitがインストールされたPythonディストリビューションからなる開発環境があることを確認する必要があります。 コンパイラの部分は最も難しいです。 それを行う方法はシステムによって異なります。 詳細については、Ubuntu、OS X、Windowsの注記を参照してください。

# make sure you are using recent pip/virtualenv versions
python -m pip install -U pip venv
git clone https://github.com/explosion/spaCy
cd spaCy

venv .env
source .env/bin/activate
export PYTHONPATH=`pwd`
pip install -r requirements.txt
python setup.py build_ext --inplace

requirements.txtは pip経由の通常のインストールと比較して、Cythonなどの開発者の依存関係を追加インストールします。 詳細と手順については、ソースからspaCyコンパイルし、 クイックスタートウィジェットを使用してプラットフォームとPythonのバージョンに適したコマンドを入手する方法のドキュメントを参照してください。

上記の冗長コマンドの代わりに、次のFabricコマンドを使用することもできます。 すべてのコマンドは、仮想環境がディレクトリ.envあることを前提としています。 別のディレクトリを使用している場合は、 VENV_DIR=".custom-env" fab clean makeなどの環境変数VENV_DIRで変更できます。

fab env 仮想環境を作成し、仮想環境が存在する場合は削除します。
fab make ソースをコンパイルします。
fab clean 生成されたC ++を含むコンパイル済みのオブジェクトを削除します。
fab test 基本的なテストを実行し、最初の失敗後に中止します。

Ubuntu

apt-getシステムレベルの依存関係をインストールapt-get

sudo apt-get install build-essential python-dev git

macOS / OS X

いわゆる「コマンドラインツール」を含む、 XCodeの最新バージョンをインストールします。 macOSとOS XはPythonとgitがプリインストールされています。

Windows

Pythonインタプリタをコンパイルするために使用されたバージョンと一致するVisual Studio Express以上のバージョンをインストールします。 公式ディストリビューションの場合は、VS 2008(Python 2.7)、VS 2010(Python 3.4)、VS 2015(Python 3.5)です。

テストを実行する

spaCyには、 豊富なテストスイートが付属しています まず、spaCyがインストールされている場所を確認します。

python -c "import os; import spacy; print(os.path.dirname(spacy.__file__))"

その後、そのディレクトリでpytestを実行します。 flags --vectors 、– --slow 、– --modelはオプションで、追加テストを有効にします。

# make sure you are using recent pytest version
python -m pip install -U pytest
python -m pytest <spacy-directory>







-explosion
-, , , , , , , , , , , , ,

執筆者: