GitHubじゃ!Pythonじゃ!

GitHubからPython関係の優良リポジトリを探したかったのじゃー、でも英語は出来ないから日本語で読むのじゃー、英語社会世知辛いのじゃー

Embedding

Chinese-Word-Vectors – 100 +中国語の単語のベクトル

投稿日:

100 +中国語の単語のベクトル

中国語単語ベクトル中文词向量

このプロジェクトは、さまざまな表現 (高密度で疎である)、 文脈の特徴 (単語、ngram、文字など)、およびコーパスで訓練された100以上の中国語の単語ベクトル(埋め込み)を提供します。 異なる特性を有する予め訓練されたベクトルを容易に入手し、それらを下流の作業に使用することができる。

さらに、中国語の類推的な推論データセットCA8と評価ツールキットを提供して、ユーザがそれらの単語ベクトルの品質を評価する。

参照

これらの埋め込みとCA8データセットを使用する場合は、論文を引用してください。

ACL 2018で承認されたシェン・リー、ザー・ザオ、レンフェン・フー、ウィンシー・リー、タオ・リウ、暁陽・デュー、 中国の形態学的および意味論的な類推に関する類推。

@article{shen2018analogical,
  title={Analogical Reasoning on Chinese Morphological and Semantic Relations},
  author={Shen, Li and Zhe, Zhao and Renfen, Hu and Wensi, Li and Tao, Liu and Xiaoyong, Du},
  journal={arXiv preprint arXiv:1805.06504},
  year={2018}
}

フォーマット

あらかじめ訓練されたベクトルファイルはテキスト形式です。 各行には単語とそのベクトルが含まれています。 各値はスペースで区切られています。 最初の行にはメタ情報が記録されます。最初の数字はファイル内の単語数を示し、2番目の数字はディメンションサイズを示します。

密な単語ベクトル(SGNSで訓練された)のほかに、我々はまた、疎ベクトル(PPMIで訓練された)を提供する。 それらはliblinearと同じフォーマットであり、 “:”の前の数字は次元インデックスを示し、 “:”の後の数字は値を示します。

事前に訓練された中国語の単語ベクトル

基本設定

ウィンドウサイズ ダイナミックウィンドウ サブサンプリング 低周波ワード 反復 ネガティブサンプリング*
5 はい 1e-5 10 5 5

* SGNSのみ。

さまざまなドメイン

さまざまな表現、文脈の特徴、およびコーパスで訓練された中国語の単語ベクトル。

Word2vec / Negative Sampling付きスキップグラム(SGNS)
コーパス コンテキスト機能
ワード Word + Ngram ワード+キャラクター 単語+文字+ Ngram
百道百科百百百科 300d 300d 300d 300d
Wikipedia_zh中文维基百科 300d 300d 300d 300d
人民日報 300d 300d 300d 300d
Sogou News搜狗新闻 300d 300d 300d 300d
財務ニュース金融新聞 300d 300d 300d 300d
Zhihu_QAの既知の質問 300d 300d 300d 300d
Weibo微博 300d 300d 300d 300d
文学作品 300d 300d 300d 300d
4つのセクションで完全な図書館
四库全書*
300d 300d NAN NAN
混合大規模综合 300d 300d 300d 300d
ポジティブ・ポイントワイド相互情報(PPMI)
コーパス コンテキスト機能
ワード Word + Ngram ワード+キャラクター 単語+文字+ Ngram
百道百科百百百科 300d 300d 300d 300d
Wikipedia_zh中文维基百科 300d 300d 300d 300d
人民日報 300d 300d 300d 300d
Sogou News搜狗新闻 300d 300d 300d 300d
財務ニュース金融新聞 300d 300d 300d 300d
Zhihu_QAの既知の質問 300d 300d 300d 300d
Weibo微博 300d 300d 300d 300d
文学作品 300d 300d 300d 300d
4つのセクションで完全な図書館
四库全書*
300d 300d NAN NAN
混合大規模综合 300d 300d 300d 300d

* Hanziのほとんどは古代中国語の単語であるため、文字の埋め込みが提供されています。

さまざまな共起情報

異なる共起統計量に基づいて単語ベクトルを解放する。 ターゲットベクトルとコンテキストベクトルは、いくつかの関連論文で入力ベクトルと出力ベクトルと呼ばれることがよくあります。

この部分では、単語を超えた任意の言語単位のベクトルを得ることができます。 例えば、文字ベクトルは単語文字の文脈ベクトル内にある。

すべてのベクターはBaidu EncyclopediaのSGNSによって訓練されています。

特徴 共起タイプ ターゲットワードベクトル コンテキスト・ワード・ベクトル
ワード ワード→ワード 300d 300d
Ngram Word→Ngram(1-2) 300d 300d
ワード→Ngram(1-3) 300d 300d
Ngram(1-2)→Ngram(1-2) 300d 300d
キャラクター ワード→キャラクター(1) 300d 300d
単語→文字(1-2) 300d 300d
ワード→文字(1-4) 300d 300d
ラジカル ラジカル 300d 300d
ポジション ワード→ワード(左/右) 300d 300d
単語→単語(距離) 300d 300d
グローバル 単語→テキスト 300d 300d
構文的特徴 Word→POS 300d 300d
Word→依存関係 300d 300d

表現

既存の単語表現方法は、 高密度かつ疎な再表現の2つのクラスのうちの1つに分類される。 SGNSモデル(word2vecツールキットのモデル)とPPMIモデルは、それぞれこの2つのクラスの典型的なメソッドです。 SGNSモデルは、浅いニューラルネットワークを通して、低次元の実(密)ベクトルを訓練する。 これは、神経埋め込み法とも呼ばれます。 PPMIモデルは、PPMI(positive-pointwise-mutual-information)重み付け方式によって重み付けされた疎なバッグオブフィーチャ表現です。

コンテキスト機能

WordNgramCharacterの 3つの文脈特徴が単語埋め込み文献によく使用されています。 ほとんどの単語表現方法は、基本的に単語 – 単語共起統計を利用する。すなわち、単語を文脈特徴(単語特徴)として使用する。 言語モデルの問題に触発され、私たちはngramの特徴を文脈に導入します。 単語単語と単語ngramの共起統計は両方ともトレーニングに使用されます(ngram機能) 中国語の場合、文字(Hanzi)はしばしば強いセマンティクスを伝える。 この目的のために、我々は、単語ベクトルを学習するために単語単語と単語文字共起統計を使用することを検討する。 文字レベルngramの長さは1から4までです(文字の特徴)

単語、nグラム、文字以外にも、単語ベクトルの性質に大きな影響を与える特徴があります。 たとえば、テキスト全体をコンテキストフィーチャとして使用すると、トピック情報がワードベクトルに追加される可能性があります。 文脈特徴として依存性解析を使用することは、構文上の制約を単語ベクトルに追加することができる。 このプロジェクトでは、17種類の共起タイプが考慮されています。

コーパス

私たちは、さまざまな分野にわたってコーパスを収集するために尽力しました。 すべてのテキストデータは、htmlタグとxmlタグを削除することによって前処理されます。 プレーンテキストのみが保持され、 HanLP(v_1.5.3)が単語のセグメンテーションに使用されます。 詳細な情報は次のとおりです。

コーパス サイズ トークン 語彙サイズ 説明
百道百科事典
百度百科
4.1G 745M 5422K からの中国百科事典データ
https://baike.baidu.com/
Wikipedia_zh
中文维基百科
1.3G 223M 2129K からの中国語Wikipediaデータ
https://dumps.wikimedia.org/
人民日報
人民日報
3.9G 668M 1664K People’s Daily(1946-2017)のニュースデータ
http://data.people.com.cn/
Sogou News
搜狗新闻
3.7G 649M 1226K Sogouラボで提供されるニュースデータ
http://www.sogou.com/labs/
ファイナンシャルニュース
金融新聞
6.2G 1055万 2785K 複数のニュースサイトから集められた財務情報
Zhihu_QA
知的问答
2.1G 384M 1117K からの中国QAデータ
https://www.zhihu.com/
ウェイボ
微博
0.73G 136M 850K NLPIR Labが提供する中国のマイクロブログデータ
http://www.nlpir.org/download/weibo.7z
文献
文学作品
0.93G 177M 702K 8599近代中国文学作品
混合大
综合
22.6G 4037M 10653K 上記のコーパスをマージして大きなコーパスを構築します。
4つのセクションで完全な図書館
四库書
1.5G 714M 21.8K 中国近代化の文章の最大のコレクション。

低頻度の単語を含むすべての単語が関係しています。

ツールキット

すべての単語ベクトルはngram2vecツールキットによって訓練されます。 Ngram2vecツールキットは、任意のコンテキスト機能とモデルがサポートされているword2vecfasttextツールキットのスーパーセットです。

中国語の似たようなベンチマーク

単語ベクトルの質は、しばしば類推質問タスクによって評価される。 このプロジェクトでは、2つのベンチマークが評価のために活用されています。 最初のものはCAで翻訳されています。最も多くの類推の質問は英語のベンチマークから直接翻訳されています。 CA翻訳は多くの中国語の単語埋め込み論文で広く使用されていますが、3つの意味論的な質問の質問のみを含み、134の中国語の単語をカバーします。 対照的に、CA8は特に中国語のために設計されています。 それには、17813の類似質問が含まれており、包括的な形態学的関係と意味論的関係をカバーしています。 CAで翻訳されたCA8とその詳細な説明は、 testsetsフォルダにあります。

評価ツールキット

我々は、 評価フォルダに評価ツールキットを提示する。

密ベクトルを評価するには、次のコードを実行します。

$ python ana_eval_dense.py -v <vector.txt> -a CA8/morphological.txt
$ python ana_eval_dense.py -v <vector.txt> -a CA8/semantic.txt

スパースベクトルを評価するには、次のコードを実行します。

$ python ana_eval_sparse.py -v <vector.txt> -a CA8/morphological.txt
$ python ana_eval_sparse.py -v <vector.txt> -a CA8/semantic.txt







-Embedding
-, , , , ,

執筆者: