GitHubじゃ!Pythonじゃ!

GitHubからPython関係の優良リポジトリを探したかったのじゃー、でも英語は出来ないから日本語で読むのじゃー、英語社会世知辛いのじゃー

xiyouMc

WebHubBot – Python + Scrapy + MongoDBです。 1日に500万データ!!! 💥 世界最大のウェブサイト

投稿日:

Python + Scrapy + MongoDBです。 1日に500万データ!!! 💥 世界最大のウェブサイト。

免責事項:このプロジェクトは、Scrapy Spider FrameworkとMongoDBデータベースを研究することを目的としており、商業目的またはその他の個人的目的に使用することはできません。 不適切に使用された場合、個人が負うことになります。

  • このプロジェクトは、主に世界最大のサイトであるウェブサイトのクロールに使用されます。 そうすることで、それはビデオタイトル、期間、mp4リンク、カバーURLと直接ウェブサイトのURLを取得します。
  • このプロジェクトはPornHub.comを簡単にクロールしますが、シンプルな構造です。
  • このプロジェクトでは、個人のネットワークに応じて、1日あたり最大5ミリオンのウェブサイトの動画をクロールできます。 私の遅いバンドのために、私の結果は比較的遅いです。
  • クローラは一度に10個のスレッドを要求し、これにより上記の速度を達成することができます。 ネットワークのパフォーマンスが向上している場合は、1日に多くのスレッドを要求し、より多くの動画をクロールすることができます。 特定の設定については、[pre-boot configuration]を参照してください。

環境、建築

言語:Python2.7

環境:MacOS、4G RAM

データベース:MongoDB

  • 主に、爬虫類の骨組みを使用しています。
  • クッキープールとUAプールから抽出してランダムにスパイダーに参加する。
  • Start_requestsはウェブサイトの分類に基づいて5つのリクエストを開始し、5つのカテゴリを同時にクロールします。
  • ページングクロールデータをサポートし、キューに参加します。

使用方法

プレブート構成

  • MongoDBをインストールし、設定なしで起動する
  • Pythonに依存するモジュールをインストールする:Scrapy、pymongo、要求またはpip install -r requirements.txt
  • インターバル時間、スレッド数など必要に応じて設定を変更します。

起動

  • cd WebHub
  • python quickstart.py

スクリーンショットを実行する

データベースの説明

データを保持するデータベースのテーブルはPhResです。 フィールドの説明は次のとおりです。

PhResテーブル:

video_title:     The title of the video, and as a unique.
link_url:        Video jump to Website`s link
image_url:       Video cover link
video_duration:  The length of the video, in seconds
quality_480p:    Video 480p mp4 download address

中国語

  • 微人公衆号、学习Python开发







-xiyouMc
-, ,

執筆者: