前回、難しいプログラムを書かなくても、初心者が容易に「ウェブスクレイピング」をできるツールがあることをご紹介しました。
今回は、改めてウェブスクレイピングがなぜ重要か? どのような場面に活用すべきなのか、というポイントを解説いたします。
今回も、プログラミングの知識は不要。ツールとExcel関数だけを用いて、
必要な情報収集を完了させる方法をみてみましょう。
なお、昨今スクレイピングを悪用した不正な情報取得などが数多く報道されています。
せるワザはスクレイピング技術の不正使用には断固反対致します。
もともと他社が製作したウェブサイトの著作権は製作者に帰属します。スクレイピングが有効とされるのは、著作権法上の例外規定「情報解析のための複製、または翻案」(他者データを解析して自分の資料、主張をまとめる)の場合のみとなります。また、サイト利用規約にて「スクレイピング禁止」が明示されているサイトへのスクレイピング行為も違法となりますので、実行前には必ず対象ウェブサイトの利用規約などをご確認ください。
なぜウェブスクレイピングが重要?
一般に「日本のインターネット元年」と言われている1995年から、25年以上が経過しました。この約25年間に、ウェブ上には、日本語で記されたものだけでも、とてつもなく膨大な情報量が上げられるようになりました。
そのデータ量は、とても一個人や一法人の人力検索でまかないきれないボリュームのため、文字通り”機械的”に全量収集してくることが必要となるのです。
具体例でみてみましょう。前回ご紹介したウェブスクレイピング・ツール Octoparse の会員画面にログインすると、下記のような内部ブラウザ・トップ画面が表示されます。
おなじみのAmazonやTwitterなどのロゴがならんでいますが、これは「テンプレート・モード」といいます。ユーザーがよく情報収集するウェブサイトのスクレイピング手順をテンプレート化して、検索条件さえ設定すれば、簡単にサイトから該当する情報を引っぱってくる仕組みです。
ここでは、たとえばあなたが今「転職」をお考えだとします。
(あくまでも、”たとえば”のお話です。)
Octoparseの会員トップ画面から、リクナビNEXTのアイコンを押下。パラメータ(転職案件の条件)を「プログラミング」と指定し、情報収集を開始します。
いやあ、待たされましたね。データ件数410件。実行時間1時間2分24秒。今の職場で、上司の目を盗んで業務用パソコンで検索していたら、一発でバレてしまう所要時間ですね。
ずっとパソコンの画面に張り付いているのは時間のムダなので、ツールに勝手に検索させておいて、自分は他に必要な業務を続ける、というのがスクレイピング中の正しい(?)作法です。
この410件を、手動で全て検索抽出しようとしたら、1時間などでは到底終えることのできない膨大な作業になってしまいます。転職情報でも、お引越しの物件情報やオンライン・ストアの商品情報でも、およそネット上で気になる内容の検索結果分量は、個人の”人力”で処理可能なボリュームをはるかに超えてしまっているのが現状です。
それが、情報収集にあたりスクレイピングを活用しなければならない重要な意義なのです。
Excel関数で簡単にスクリーニング
さて、目の前のExcelに410件もの転職情報が収集されました。「年俸:600万円~920万円」なんていう案件もありますよ。全部眺めて、新しい自分を夢見るのも楽しいですが、全ての案件に応募することなどできません。
「求めている人材」列の文字列から、自分が探している応募案件をスクリーニング(ふるいわけ)します。
上記エクセルのB2セルに
=COUNTIF(E2,"*VBA*")
と入力して、下部全行に数式コピーをします。
(検索条件を”*VBA*”とアスタリスク(ワイルドカード)付きとすることで、「求めている人材」文字列の中から、「VBA」が含まれている案件のみを抽出します。「求めている人材」列に条件付き書式をつけてみても同じ検索結果となります。)
いかがでしょうか? 410件のなかから、自分が目指すべき10件が絞り込めました。あとは果敢に応募チャレンジして、新しい自分をゲットするのみですね。検討を祈ります。
まとめ
情報収集は機械任せで! スクリーニングにはExcelが大活躍
ウェブが世界の大海、あなたが魚(情報)を追い求める漁師だとして、海はあまりに広く、大きく、有用なもの、毒を持ったもの、判別しきれないほどの魚群があります。船乗り自身が、1本釣りで上げられる量には限界があるので、大型まき網漁船で一気に魚(情報)を巻き取ってしまいましょう、というのが基本的なウェブスクレイピングの考え方です。
一度釣り上げてしまえば、あとはExcelという大変便利な調理器具があるので、釣った魚(情報)をいかようにも自分好みに調理することができます。
今後、ビジネスの各場面で、ウェブから情報収集をしなければならなくなる場面は、ますます増えていきます。ぜひ機械の力を借りて、工数を簡略化したり、収集できる情報量をアップさせる方策をご検討ください。
また、今回は広く出回っている「プログラミング不要」のスクレイピング・ツールを用いましたが、仕事に直結するウェブ情報の中には、一般的なツールをカスタマイズするだけでは、どうしてもうまく収集できない構造になっているサイトも数多く存在します。
そのような場合にも、VBA、Python、PHPなどのプログラミング言語を用いて、独自にスクレイピング・プログラムを開発することで解決できることが多々あります。もし、どうしてもウェブ上から自社データに取り込みたい情報をお持ちでお悩みの方がいらっしゃったら、まずはスクレイピングの専門家に一度相談してみてください。きっと良い解決の糸口が見つかりますよ。