GitHubじゃ!Pythonじゃ!

GitHubからPython関係の優良リポジトリを探したかったのじゃー、でも英語は出来ないから日本語で読むのじゃー、英語社会世知辛いのじゃー

clips

pattern – スクラップ、自然言語処理、機械学習、ネットワーク解析、ビジュアライゼーションのためのツールを備えたPython用Webマイニングモジュール

投稿日:

スクラップ、自然言語処理、機械学習、ネットワーク解析、ビジュアライゼーションのためのツールを備えたPython用Webマイニングモジュール http://www.clips.ua.ac.be/pages/pattern

パターン

PatternはPython用のWebマイニングモジュールです。 それはのためのツールがあります:

  • データマイニング:Webサービス(Google、Twitter、Wikipedia)、Webクローラー、HTML DOMパーサー
  • 自然言語処理:品詞タグ付け、nグラム検索、センチメント分析、WordNet
  • 機械学習:ベクトル空間モデル、クラスタリング、分類(KNN、SVM、パーセプトロン)
  • ネットワーク分析:グラフの中心性と視覚化。

これはよく文書化されており、350以上の単体テストで徹底的にテストされ、50以上のサンプルがバンドルされています。 ソースコードはBSDでライセンスされており、 http: //www.clips.ua.ac.be/pages/patternから入手できます

この例では、Python 3を使用してTwitterから採掘された形容詞の分類子を訓練しています。まず、ハッシュタグ#winまたは#failを含むツイートが収集されます。 たとえば、 「$ 20は、今日の甘い小さな老人の恋人です。 #win」です。 品詞タグの単語が解析され、形容詞のみが保持されます。 それぞれのつぶやきは、 WINまたはFAILとラベル付けされた形容詞→カウント項目の辞書であるベクトルに変換されます。 クラシファイアはベクトルを使用して、他のつぶやきがWINように見えるか、 FAILように見えるかを学習します。

from pattern.web import Twitter
from pattern.en import tag
from pattern.vector import KNN, count

twitter, knn = Twitter(), KNN()

for i in range(1, 3):
    for tweet in twitter.search('#win OR #fail', start=i, count=100):
        s = tweet.text.lower()
        p = '#win' in s and 'WIN' or 'FAIL'
        v = tag(s)
        v = [word for word, pos in v if pos == 'JJ'] # JJ = adjective
        v = count(v) # {'sweet': 1}
        if v:
            knn.train(v, type=p)

print(knn.classify('sweet potato burger'))
print(knn.classify('stupid autocorrect'))

インストール

Patternは、Python 2.7とPython 3.6+をサポートしています。 Python 3バージョンは現在、 developmentブランチでのみ利用可能です。 パターンをインストールしてすべてのスクリプトで使用できるようにするには、ダウンロードを解凍し、コマンドラインから次の操作を行います。

cd pattern-2.6
python setup.py install

pipがあれば、 PyPIリポジトリから自動的にダウンロードしてインストールすることができます

pip install pattern

上のいずれにも該当しない場合は、Pythonに次の3つの方法でモジュールを認識させることができます。

  • あなたのスクリプトと同じフォルダにパターンフォルダを置きます。
  • パターンフォルダをモジュール用の標準​​的な場所に置き、すべてのスクリプトで使用できるようにします。
    • c:\python26\Lib\site-packages\ (Windows)、
    • /Library/Python/2.6/site-packages/ OS X)、
    • /usr/lib/python2.6/site-packages/ )。
  • モジュールをインポートする前に、スクリプト内のsys.pathにモジュールの場所を追加します。
MODULE = '/users/tom/desktop/pattern'
import sys; if MODULE not in sys.path: sys.path.append(MODULE)
from pattern.en import parsetree

ドキュメンテーション

マニュアルおよび例については、 ユーザーマニュアルを参照してください。 デベロッパーの方は、 デベロッパーのドキュメントをご覧ください。

バージョン

2.6

ライセンス

BSDについては、 LICENSE.txtを参照してください。

参照

De Smedt、T.、Daelemans、W.(2012)。 Pythonのパターン。 Journal of Machine Learning Research 、13、2031-2035。

寄稿

ソースコードはGitHubでホストされ、寄稿や寄付が歓迎されます。 開発者のドキュメントをご覧ください。 あなたの作品にパターンを使用する場合は、参考文献を引用してください。

バンドルされた依存関係

パターンは、以下のデータセット、アルゴリズム、およびPythonパッケージにバンドルされています。

  • Brill tagger 、Eric Brill
  • オランダの Jillen GeertzenのためのBrill tagger
  • German 、Gerold Schneider&Martin VolkのためのBrillタガー
  • Wikicorpus(Samuel Reese&Gemma Boledaら)で訓練されたスペイン語のBrill tagger
  • Lefff(BenoîtSagot&LionelClémentet al。)の訓練を受けたフランス人のためのBrill tagger
  • イタリア語のためのBrill tagger、 Wiktionaryから掘られた
  • 英語の多元化 、ダミアン・コンウェイ
  • スペイン語の動詞変奏曲 、Fred Jehle
  • フランス語動詞の使用法 、Bob Salita
  • グラフJavaScriptフレームワーク 、Aslak Hellesoy&Dave Hoover
  • LIBSVM 、Chih-Chung Chang、Chih-Jen Lin
  • LIBLINEAR 、Rong-En Fan他
  • NetworkXの中心性 、Aric Hagberg、Dan Schult&Pieter Swart
  • スペル訂正者 、Peter Norvig

謝辞

著者:

貢献者(年代順):

  • フレデリク・デ・ブレイザー
  • ジェイソンウィーナー
  • ダニエル・フリーゼン
  • ジェーレンゲーツヘン
  • トーマス・クロムズ
  • ケンウィリアムズ
  • Peteris Erins
  • Rajesh Nair
  • F.デ・スメット
  • RadimŘehůřek
  • トム・ロレド
  • ジョン・デボビス
  • トーマス・シレオ
  • ジェロルドシュナイダー
  • マーティンボルク
  • サミュエル・ジョセフ
  • シュプハンシュミシュラ
  • ロバートエルウェル
  • フレッド・ジュール
  • アントワーヌ・マジエール+ fabelier.org
  • Rémide Zoeten + closealert.nl
  • ケネスコック
  • ジェンス・グリボラ
  • ファビオマルフィア
  • スティーブンロリア
  • コリン・モーター+ tevizz.com
  • ピーターブル
  • マウリツィオ・サンバティ
  • ダンフー
  • サルヴァトーレディディオ
  • ヴィンセントヴァンアッシュ
  • フレデリック・エルワート







-clips
-, , , , , , ,

執筆者:

clips

pattern – スクラップ、自然言語処理、機械学習、ネットワーク解析、ビジュアライゼーションのためのツールを備えたPython用Webマイニングモジュール

投稿日:

(さらに…)







-clips
-, , , , , , ,

執筆者: