GitHubじゃ!Pythonじゃ!

GitHubからPython関係の優良リポジトリを探したかったのじゃー、でも英語は出来ないから日本語で読むのじゃー、英語社会世知辛いのじゃー

dedupeio

dedupe – 🆔 正確でスケーラブルなファジーマッチング、重複排除とエンティティ解決を行うためのPythonライブラリ

投稿日:

🆔 正確でスケーラブルなファジーマッチング、重複排除とエンティティ解決を行うためのPythonライブラリ。

Dedupe Pythonライブラリ

dedupeは、機械学習を使用してファジーマッチング、重複排除、およびエンティティ解決を構造化データに対して迅速に実行するPythonライブラリです。

重複があなたを助けるでしょう:

  • 名前と住所のスプレッドシートから重複したエントリ削除する
  • 一意の顧客IDがなくても、注文履歴を持つ顧客情報を持つリストを別の顧客情報にリンクする
  • キャンペーン寄稿のデータベースを取って、レコードごとに若干異なる名前が付けられていても、同じ人が作ったもの把握する

重複排除は人間の訓練データを取り入れ、非常に大規模なデータベースであっても、類似のレコードを迅速かつ自動的に見つけるために、データセットの最良のルールを策定します。

重要なリンク

重複排除を使用して構築されたツール

Dedupe.io

重複排除のための重複除外機能を備えたフルサービスのWebサービス。 使いやすいインターフェースを提供し、クラスターのレビューと自動化、高度なレコード結合、継続的なマッチング、API統合を提供します。 製品ページ公開ブログ記事を 参照してください

csvdedupe

CSVファイルの重複排除とリンクのためのコマンドラインツール。 Source Knight-Mozilla OpenNewsで読むことができます。

インストール

重複排除を使用する

重複排除機能のみを使用する場合は、以下の方法でインストールしてください。

pip install "numpy>=1.9"
pip install dedupe

重複排除のAPIに精通し、プロジェクトを開始してください。 インスピレーションが必要ですか? いくつかの例を見てみましょう。

重複排除の開発

仮想化された開発環境では、 virtualenvvirtualenvwrapperを使用することをお勧めします。 virtualenvの設定方法を読んでください

virtualenvwrapperを設定したら、

mkvirtualenv dedupe
git clone git://github.com/dedupeio/dedupe.git
cd dedupe
pip install "numpy>=1.9"
pip install -r requirements.txt
cython src/*.pyx
pip install -e .

これらのテストに合格すると、すべてが正しくインストールされているはずです。

pytest

その後、重複排除に取り組むときはいつでも、

workon dedupe

テスト

コア重複除外機能のユニットテスト

pytest

Bilenkoの研究からの標準データセットを使ったテスト

重複排除の使用

python tests/canonical.py

レコードリンケージの使用

python tests/canonical_matching.py

チーム

  • フォレストグレッグ、DataMade
  • Derek Eder、DataMade

クレジット

DedupeはMikhail Yuryevich BilenkoのPh.Dに基づいています。 論文: 学習可能な類似関数とそれらのレコード連鎖とクラスタリングへの応用

エラー/バグ

直感的に動作しないものがあれば、バグであり、報告されるべきです。 ここに報告する

パッチ/プルリクエストに関する注意

  • プロジェクトをフォークします。
  • 機能の追加やバグ修正を行います。
  • 私たちにプルリクエストを送ってください。 トピックブランチのボーナスポイント。

著作権

著作権(c)2017 Forest GreggとDerek Eder。 MITライセンスの下でリリースされました。

この配布物の第三者の著作権は、該当する場合は記載されています。

引用Dedupe

学術研究でDedupeを使用する場合は、次の引用をしてください。

グレッグ、フォレスト、デレクエダー。 2017年。 https://github.com/dedupeio/dedupe







-dedupeio
-, , , ,

執筆者: