2018年7月2日月曜日

ExcelVBAでクローリング

もうじき、私が書かせていただいたExcelVBA本をある出版社さまより出版していただくことになっております。

ExcelVBAでクローラーを開発するための本です。
クローラーは最近の流行りのようでして、巷には多くの優秀なクローラー本があふれております。それら既存の本とは一線を画すため、プログラミング言語として非プログラマーでもふれる機会がもっとも多いと思われるExcelVBAを選択しました。

ExcelVBAを使ってインターネット上からWebデータをかき集めてくるには、ExcelVBAからInternet Explorerを操作するのがもっともかんたんです。このWebデータをかき集めてくることを「クローリング」といい、クローリングするプログラムのことを「クローラー」と言います。
第一部では、まずはExcelVBAを使ってさまざまなHTMLオブジェクト(たとえばテキストボックスやチェックボックスなど)を操作する方法を説明します。
また、インターネット上で取得可能なデータは、HTMLで書かれたテキストファイルだけではありません。CSVファイルやXMLファイル、ExcelブックやWordドキュメント、PDFファイルなど、さまざまです。本書では、これらHTMLファイル以外のファイルをExcelVBAから読み込む方法についても説明します。

第二部では、クローリングによって収集したWebデータを解析する方法を紹介します。クローリングによって収集したWebデータを解析することを「スクレイピング」と言います。
本書では、クローリングによって収集したテキストデータを、「マルコフ連鎖」によって文章要約したり、「ベイズ推定」よってスパムメールかどうかを判別するための方法を説明します。
少々数学的要素が強く、私自身、この執筆のために統計学の入門書を何冊か読みました。40なかばになると、なかなか新しい知識を身につけることは難しいことを再度実感しましたが、とてもよいサンプルプログラムを書くことができました。この苦心作のサンプルプログラムは、すべてある出版社さまのWebサイトからダウンロードできるようになるはずです。

とても良い本が書けたと思います。出版日が決まりましたら、再度お知らせいたします。

1 件のコメント:

  1. 11/10に購入しました。
    私が知りたかったことを体系的に整理された貴重な一冊です。

    返信削除