GitHubじゃ!Pythonじゃ!

GitHubからPython関係の優良リポジトリを探したかったのじゃー、でも英語は出来ないから日本語で読むのじゃー、英語社会世知辛いのじゃー

RaRe-Technologies

gensim – 人間のトピックモデリング

投稿日:

人間のトピックモデリング

gensim – Pythonでのトピックモデリング

Gensimは、 トピックコーディング、 文書索引付け 、および大規模なコーパスによる類似検索のためのPythonライブラリです。 ターゲットオーディエンスは、 自然言語処理 (NLP)および情報検索 (IR)コミュニティです。

特徴

  • すべてのアルゴリズムは、コーパスのサイズに応じてメモリに依存しません(RAMよりも大きな入力を処理できる、ストリームされた、コアから出ない)
  • 直感的なインターフェイス
    • 独自の入力コーパス/データストリーム(簡単なストリーミングAPI)を簡単にプラグインできます
    • 他のベクトル空間アルゴリズム(簡単な変換API)で簡単に拡張できます
  • オンライン潜在意味解析(LSA / LSI / SVD)潜在ディリクレ割り当て(LDA)ランダムプロジェクション(RP)階層ディリクレプロセス(HDP)またはワード2ベーシックディープラーニングなどの一般的なアルゴリズムの効率的なマルチコア実装。
  • 分散コンピューティング潜在的セマンティック分析潜在的ディリクレ割り当てをコンピュータクラスタ上で実行できます。
  • 豊富なドキュメントとJupyter Notebookチュートリアル

この機能リストがあなたの頭を傷つけたままになっている場合は、最初にWikipediaのVector Space Model教師なしのドキュメント分析について詳しく読むことができます。

サポート

githubの潜在的なバグを報告してください。 問題を提起する前に、「 Contribution Guide」を参照してください。

自由回答または研究課題がある場合:

インストール

このソフトウェアは、科学計算用の2つのPythonパッケージであるNumPyとScipyに依存しています。 gensimをインストールする前にそれらをインストールしておく必要があります。

NumPyをインストールする前に、高速BLASライブラリをインストールすることもお勧めします。 これはオプションですが、 ATLASOpenBLASなどの最適化されたBLASを使用することで、パフォーマンスが1桁向上します。 OS Xでは、NumPyが自動的に付属のBLASをピックアップするので、特別な操作は必要ありません。

gensimをインストールする簡単な方法は次のとおりです。

pip install -U gensim

代わりに、 ソースtar.gzパッケージをダウンロードして解凍した場合は、 次のコマンドを実行します。

python setup.py test
python setup.py install

インストールの代替モード(root権限、開発インストール、オプションのインストール機能なし)については、 ドキュメントを参照してください。

このバージョンは、Python 2.7,3.5、および3.6でテストされています。 Gensimのgithub repoは、コミット・プッシュ・アンド・プル・リクエストをコミットするたびに自動的にテストするためTravis CIにフックされています Python 2.6,3.3、および3.4​​のサポートはgensim 1.0.0で廃止されました。 Python 2.6,3.3、または3.4を使用する必要がある場合は、gensim 0.13.4をインストールしてください。 Python 2.5のサポートは、gensim 0.10.0で廃止されました。 Python 2.5を使用する必要がある場合はgensim 0.9.1をインストールしてください)。

どのようにgensimは非常に高速でメモリ効率が良いですか? Pythonは純粋なPythonではなく、Pythonは遅くて貪欲ではありませんか?

多くの科学的アルゴリズムは、大規模な行列演算の観点から表現することができます(上記のBLASの注記を参照)。 Gensimは、NumPyへの依存性を利用して、これらの低レベルのBLASライブラリを活用しています。 上級者向けのコードは純粋なPythonですが、実際には高度に最適化されたFortran / Cをマルチスレッド化(BLASがそのように構成されている場合)を含めて実行します。

メモリを使用するgensimは、ストリーム処理されたデータ処理のために、Pythonの組み込みジェネレータとイテレータを大量に使用します。 メモリ効率はgensimの設計目標の1つであり、後から考慮しなければならないものではなく、gensimの中心的な機能です。

ドキュメンテーション


アダプター

ロゴ URL 説明
RaRe Technologies rare-technologies.com 機械学習とNLPのコンサルティングとトレーニング。 Gensimのクリエイターとメンテナー
心の目 mindseye.com 法的文書の類似点
タレントペアー talentpair.com ハイタッチ募集を推進するデータサイエンス
テイルウィンド Tailwindapp.com Pinterestに興味深く関連するコンテンツを投稿する
Issuu Issuu.com GensimのLDAモジュールは、各アップロードされたパブリケーションで実行している分析の中核を成すものであり、それが何をすべきかを把握しています。
スポーツオーソリティ sportsauthority.com 顧客アンケートとソーシャルメディアソースのテキストマイニング
検索メトリック searchmetrics.com 検索エンジン最適化におけるエンティティの曖昧さ回避に使用されるGensim word2vec
シスコのセキュリティ cisco.com 大規模な不正行為の検出
12Kリサーチ 12k.co メディア記事の類似性分析の文書化
国立衛生研究所 ギター/ニホッパ word2vecによる助成金および出版物の処理
Codeq LLC codeq.com word2vecによる文書分類
質量認識 masscognition.com 消費者テキストデータと一般テキストデータのトピック分析サービス
スティルウォータースーパーコンピューティング stillwater-sc.com word2vecとのドキュメントの理解と関連付け
チャンネル4 channel4.com 推奨エンジン
アマゾン amazon.com ドキュメントの類似性
SiteGroundホスティング siteground.com word2vec、WMD、LDAなどのさまざまな埋め込みモデルと類似点を使用するアンサンブル検索エンジン。
Ju州 www.juju.com 不明確な関連仕事の提案を提供する。
NLPub nlpub.org word2vecを含む分布セマンティックモデル。
キャピタルワン www.capitalone.com 顧客苦情調査のトピックモデリング

gensimを引用する

学術論文と論文にgensimを引用するときは、このBibTeXエントリーを使用してください:

@inproceedings{rehurek_lrec,
      title = {{Software Framework for Topic Modelling with Large Corpora}},
      author = {Radim {\v R}eh{\r u}{\v r}ek and Petr Sojka},
      booktitle = {{Proceedings of the LREC 2010 Workshop on New
           Challenges for NLP Frameworks}},
      pages = {45--50},
      year = 2010,
      month = May,
      day = 22,
      publisher = {ELRA},
      address = {Valletta, Malta},
      note={\url{http://is.muni.cz/publication/884893/en}},
      language={English}
}







-RaRe-Technologies
-, , , , , , , , , , , , , , ,

執筆者: