GitHubじゃ!Pythonじゃ!

GitHubからPython関係の優良リポジトリを探したかったのじゃー、でも英語は出来ないから日本語で読むのじゃー、英語社会世知辛いのじゃー

miso-belica

sumy – テキスト文書とHTMLページの自動要約のためのモジュール

投稿日:

テキスト文書とHTMLページの自動要約のためのモジュール。 https://pypi.python.org/pypi/sumy

自動テキストサマライザ

HTMLページやプレーンテキストから要約を抽出するためのシンプルなライブラリとコマンドラインユーティリティ。 このパッケージには、テキスト要約のための簡単な評価フレームワークも含まれています。 実装された集計方法:

他にいくつかの要約があります:

インストール

Python 2.7 / 3.3 +とpipWindowsLinux )がインストールされていることを確認してください。 単純に実行する(優先する方法):

$ [sudo] pip install sumy

または新バージョン用:

$ [sudo] pip install git+git://github.com/miso-belica/sumy.git

使用法

Sumyには、文書を素早く要約するためのコマンドラインユーティリティが含まれています。

$ sumy lex-rank --length=10 --url=http://en.wikipedia.org/wiki/Automatic_summarization # what's summarization?
$ sumy luhn --language=czech --url=http://www.zdrojak.cz/clanky/automaticke-zabezpeceni/
$ sumy edmundson --language=czech --length=3% --url=http://cs.wikipedia.org/wiki/Bitva_u_Lipan
$ sumy --help # for more info

いくつかの集計方法のさまざまな評価方法は、以下のコマンドで実行できます。

$ sumy_eval lex-rank reference_summary.txt --url=http://en.wikipedia.org/wiki/Automatic_summarization
$ sumy_eval lsa reference_summary.txt --language=czech --url=http://www.zdrojak.cz/clanky/automaticke-zabezpeceni/
$ sumy_eval edmundson reference_summary.txt --language=czech --url=http://cs.wikipedia.org/wiki/Bitva_u_Lipan
$ sumy_eval --help # for more info

Python API

または、プロジェクト内のライブラリのようにsumyを使用することもできます。

# -*- coding: utf-8 -*-

from __future__ import absolute_import
from __future__ import division, print_function, unicode_literals

from sumy.parsers.html import HtmlParser
from sumy.parsers.plaintext import PlaintextParser
from sumy.nlp.tokenizers import Tokenizer
from sumy.summarizers.lsa import LsaSummarizer as Summarizer
from sumy.nlp.stemmers import Stemmer
from sumy.utils import get_stop_words


LANGUAGE = "czech"
SENTENCES_COUNT = 10


if __name__ == "__main__":
    url = "http://www.zsstritezuct.estranky.cz/clanky/predmety/cteni/jak-naucit-dite-spravne-cist.html"
    parser = HtmlParser.from_url(url, Tokenizer(LANGUAGE))
    # or for plain text files
    # parser = PlaintextParser.from_file("document.txt", Tokenizer(LANGUAGE))
    stemmer = Stemmer(LANGUAGE)

    summarizer = Summarizer(stemmer)
    summarizer.stop_words = get_stop_words(LANGUAGE)

    for sentence in summarizer(parser.document, SENTENCES_COUNT):
        print(sentence)

貢献する

Python 2.7または3.3以降がインストールされていることを確認してください。 次に、必要なすべての依存関係をインストールします。

$ pip install -U pytest pytest-cov -e .

あなたはを介してテストを実行することができます

$ pytest







-miso-belica
-, , , , , , , , , ,

執筆者: