What is data scraping?

Data scraping is a technique where a computer program extracts data from the output of another program. A common form of this is web scraping.

What are the different types of web scraping?

Web scraping can be used for many purposes, including: Content scraping: An attacker pulls a website's content to replicate it on their own site; Price scraping: A competitor scrapes pricing data to gain an advantage by undercutting prices; Contact scraping: A bot gathers contact details like email addresses and phone numbers from websites to be used for spam, robo calls, or malicious social engineering.

What is the difference between data scraping and web crawling?

Web crawling is the process used by large search engines to index Internet content, and crawler bots are generally transparent about their purpose. Data scraping, on the other hand, is typically designed to extract specific data from a particular website.

How do websites get scraped?

The process typically involves three steps. First, a scraper bot sends an HTTP GET request to a website. Second, when the website responds, the scraper parses the HTML document to find a specific pattern of data. Finally, the extracted data is converted into a specific format designed by the bot's author.

How can data scraping be mitigated?

Several strategies can limit exposure to data scraping. These include rate-limiting requests to block abnormally fast traffic from a single IP address, regularly modifying a website's HTML markup to disrupt simple scrapers, and using challenges like CAPTCHAs for high-volume requesters.

Can web scraping be stopped completely?

Using an advanced bot management solution can help websites eliminate access for scraper bots. Cloudflare Bot Management, for example, uses machine learning and behavioral analysis to identify and stop malicious scraping activity.

データスクレイピングとは？

攻撃者は意図された速度より速くデータにアクセスするためにWebスクレイピングツールを使用することがあります。この結果データの不正使用につながる可能性があります。

学習目的

この記事を読み終えると、以下のことができるようになります。

データスクレイピングを定義する
Webスクレイピングの目的を説明する
データスクレイピングを緩和する方法を理解する
データスクレイピングとデータクローリングを区別する

さらに詳しく知りたいとお考えですか？

是非、Cloudflareが毎月お届けする「theNET」を購読して、インターネットで最も人気のある洞察をまとめた情報を入手してください！

記事のリンクをコピーする

Cloudflareでクレデンシャルスタッフィングやコンテンツスクレイピングなどのボット攻撃を防御する

有害なボットを止める

データスクレイピングとは？

データスクレイピングは、最も一般的な形態では、コンピュータプログラムが別のプログラムにより生成された出力からデータを抽出するテクニックを指します。データスクレイピングは、一般にWebスクレイピング（Webサイトから価値ある情報を抽出するためにアプリケーションを使用する過程）で明白となります。

Webスクレイピングにはどのようなタイプがありますか？Webサイトのデータスクレイピングを行う理由とは？

スクレイパーボットは次のような多くの目的のために設計されます。

コンテンツスクレイピング - コンテンツに依存する特定の製品またはサービスの独自の利点を再現するために、Webサイトのコンテンツが抽出されます。たとえば、レストランのレビューサイトを例に挙げてみましょう。競合他社はすべてのレビューをスクレイピングし、自分のWebサイトでコンテンツを再現してコンテンツがオリジナルであるかのように装って（そしてメリットを享受する）可能性があります。
価格スクレイピング - 価格データをスクレイピングすることにより、競合他社に関する情報を集約できます。結果として、価格スクレイピングを仕掛けた側に独特の利点をもたらし、競合他社を下回る価格を設定することでビジネスを獲得できます。
連絡先情報スクレイピング - 多くのWebサイトには、メールアドレスと電話番号が平文で含まれています。オンライン従業員ディレクトリなどのページをスクレイピングすることで、スクレイパーは一括メーリングリスト、ロボコール、または悪意のあるソーシャルエンジニアリングの試みで使用される連絡先の詳細を集約できます。これは、スパマーと詐欺師の両方が新しい標的を見つけるために使用する主要な方法の1つです。

データスクレイピングとデータクローリングの違いは？

クロールとは、Googlebotなどのロボットクローラーをネットワークに送信してインターネットコンテンツのインデックスを作成するときに、Googleなどの大規模な検索エンジンが実行するプロセスのことです。一方、スクレイピングは通常、特定のWebサイトからデータを抽出するために特別に構成されています。

スクレイパーボットとWebクローラーボットの行動における3つの違いを次に示します。

	誠実さ/透明性	高度な操作	robots.txtを尊重する
スクレイパーボット	Webブラウザを装ってスクレイパーをブロックしようとします。	制限された情報にアクセスするために、フォームへの入力などの高度なアクションを実行できます。	通常、robots.txtを無視します。つまり、Webサイト所有者の希望に反して、明示的にコンテンツを引き寄せることができるということです。
クローラーボット	自らの目的を示し、クローラーが本来とは異なる機能を持つとWebサイトに誤認させようとはしません。	Webサイトの制限された部分へのアクセスは試行しません。	robots.txtを尊重します。つまり、どのデータを解析しWebサイトのどのエリアを回避すべきか、Webサイトの所有者の希望に合わせることができます。

Webサイトのスクレイピングの方法とは？

Webスクレイピングのプロセスはかなり単純ですが、実装は複雑になる場合があります。このプロセスを3つのステップにまとめることができます。

最初に、情報を取得するために使用されるコード（スクレイパーボット）は、特定のWebサイトにHTTP GETリクエストを送信します。
Webサイトが応答すると、スクレイパーはHTMLドキュメントの特定のデータパターンを解析します。
データが抽出されたら、スクレイパーボットの作成者が設計した特定のフォーマットにデータ変換されます。

通常、企業は独自のコンテンツが不正な目的でダウンロードされ再利用されることを望まないため、消費可能なAPIやその他容易にアクセス可能なリソースを通じてすべてのデータを公開しないように努めることがあります。それに対して、スクレイパーボットはアクセスを限定しようとする試みをくぐり抜けてWebサイトのデータを得ようとします。その結果、Webスクレイピングボットとさまざまなコンテンツ保護戦略との間でいたちごっこが始まり、互いに相手の裏をかこうとします。

Webスクレイピングを軽減する方法とは？

スマートなスクレイピング戦略にはスマートな軽減戦略が必要です。データスクレイピングの被害を抑える方法には、次のようなものがあります。

レート制限リクエスト - Webサイト上の一連のページを人間の訪問者がクリックする場合、Webサイトの操作速度はほぼ予測可能です。たとえば、1秒当たり100のWebページを閲覧できる人間はいません。それに対して、コンピュータは人間よりもはるかに高速にリクエストを送信でき、初心者のデータスクレイパーは、スロットルなしのスクレイピング技術を使用して、Webサイト全体を非常に高速にスクレイピングしようとする場合があります。あるIPアドレスから一定の時間枠に送ることができるリクエストの最大数をレート制限することで、Webサイトは不正な要求から保護することができ、その時間枠内で発生するデータスクレイピングの量を制限することができます。
HTMLマークアップを定期的に変更する - データスクレイピングボットは、Webサイトのコンテンツを効果的に横断し、データを解析するために、一貫したフォーマットに依存しています。このワークフローを中断する1つの方法は、HTMLマークアップの要素を定期的に変更することです。HTML要素を入れ子にすること（すなわちマークアップのその他局面を変えること）によって、シンプルなデータスクレイピングを妨害できます。たとえば、一部のWebサイトは、Webページが表示されるたびに何らかの形でコンテンツ保護の修正をランダムに適用します。また、長期的なデータスクレイピングを防止するために、数週間ごとにフロントエンドを更新する場合もあります。
大量リクエストに対するチャレンジの使用 - コンテンツスクレイパーの動作を遅らせるもう1つの有用な手段は、コンピュータが応答するのが難しいような問題をWebサイト訪問者に対して要求することです。人間は合理的に問題を解くことができますが、「ヘッドレスブラウザ」*には応答できない可能性が高く、ほとんどの問題に対して一貫性を持って応答できないと言えます。
画像のようなメディアオブジェクトの内部にコンテンツを埋め込むことは、それほど一般的ではない対策方法の1つです。コンテンツが文字列として存在しないため、画像ファイルからデータを光学式文字認識（OCR）で抽出する必要があり、コンテンツのコピーがはるかに複雑になります。

*ヘッドレスブラウザは、ChromeやFirefoxのようなWebブラウザの一種ですが、デフォルトでは視覚的なユーザーインターフェースを持たないため、通常のWebブラウザよりもはるかに高速に動作します。コマンドラインのレベルで作動することによって、ヘッドレスブラウザは、Webアプリケーション全体を表示しないようにすることができます。データスクレイパーは、ヘッドレスブラウザを使用してデータをより迅速に要求するボットを作成します。スクレイピングされる各ページを閲覧する人がいないためです。

Webスクレイピングはどのように完全に阻止できますか？

Webスクレイピングを完全に阻止することを保証する唯一の方法は、Webサイトにコンテンツを一切掲載しないことです。しかしながら、高度なボット管理ソリューションを使用することで、Webサイトがスクレイパーボットのアクセスを除去するよう支援できる可能性があります。

Cloudflareによるスクレイピング攻撃防御

Cloudflare Bot Managementは、機械学習と行動分析を使用し、悪意のあるスクレイピングアクティビティを特定し、独自のコンテンツを保護し、ボットがWebプロパティを悪用するのを防ぎます。同様に、Super Bot Fight Modeは、より小規模な組織が、スクレイパーやその他の悪意のあるボットの活動から防御できるように設計されており、ボットトラフィックをより詳細に可視化できます。

よくある質問

データスクレイピングとは？

データスクレイピングとは、別のプログラムが出力したデータをコンピュータプログラムが抽出する手法のことで、代表的な例として、Webスクレイピングがあります。

Webスクレイピングにはどのようなタイプがありますか？

Webスクレイピングの目的はさまざまで、攻撃者がWebサイトのコンテンツを抽出して自分のサイトに複製する「コンテンツスクレイピング」、競合他社が価格データをスクレイピングして価格競争で優位に立とうとする「価格スクレイピング」、スパム・ロボコール・ソーシャルエンジニアリング活動に利用する目的でボットがWebサイトからメールアドレスや電話番号などの連絡先情報を収集する「連絡先スクレイピング」などがあります。

データスクレイピングとWebクローリングの違いは？

Webクローリングは、大規模検索エンジンがインターネット上のコンテンツをインデックス化する目的で行うもので、通常、クローラーボットはその目的を明確にしています。一方、データスクレイピングは通常、特定のWebサイトから特定のデータを抽出する目的で行われます。

Webサイトがスクレイピングされる仕組みは？

スクレイピングは通常、3つの手順で行われます。まず、スクレイパーボットがWebサイトにHTTPのGETリクエストを送信します。次に、スクレイパーはWebサイトの応答であるHTMLドキュメントを解析し、特定のデータパターンを見つけます。最後に、抽出されたデータはボットの作成者が設計した特定の形式に変換されます。

データスクレイピングの被害を抑える方法は？

データスクレイピングの被害を抑えるためには、いくつかの対策があります。1つのIPアドレスからの大量のトラフィックがある場合にブロックする「レート制限」を導入する、単純なスクレイパーを妨害するためにWebサイトのHTML構造を定期的に変更する、大量のリクエストを送信するリクエストに対するCAPTCHAのようなチャレンジを要求するなどが挙げられます。

Webスクレイピングを完全に阻止することは可能ですか？

高度なボット管理ソリューションを使用することで、Webサイトがスクレイパーボットのアクセスを除去するよう支援できる可能性があります。例えば、CloudflareのBot Managementは、機械学習と行動分析を利用して、悪意のあるスクレイピング活動を特定し、阻止します。

利用開始

ボットについて

ボット攻撃

ボット管理

用語集

ラーニングセンターナビゲーション