以下のPDFデータ(月例経済報告主要経済指標)を活用して、新しい資料や提案書を作成するとしたら、どうやってこの数値を読みこみますか?
根性? 転記?
そろそろ、そういうのやめましょうよ。
表が1枚だけだったら、数分の作業かもしれませんが、10枚あれば作業時間は10倍ですよ!! 今回は、2022年2月のPower Automate Desktop(PAD)アップデートから使えるようになった「PDFから表を抽出する」機能について説明します。
PDFの表を、コピペ(コピー&ペースト)でExcelに転記するのは困難
ちなみに、上の表は「画像化」されていないので、PDF表示ソフトウエアで、各文字をドラッグすることができます。
しかし、それをコピーして、直接Excelに貼っても、構造がぐちゃぐちゃになってしまいます。
「元の資料を復元する」にはほど遠い結果です。
この課題を解決するために、以前から「PDF書類をMS office(Excel/Word/PowerPointなど)上に復元する」有償ソフトウエアは、いくつもリリースされていました。しかし、2022年2月のPADアップデートにより、Windows10,11標準無償ソフトであるPADを使っても、PDFの「表」が”そのまま”Excel転記できるようになったのです。
ポイントは、この2022年2月アップデートで実装されたPADの新機能、ColumnHeadersRowプロパティです。ざっくり言うと、表(テーブル)形式の”列方向の見出し”を、1つの変数として持てるようになった、ということです。
そこで、このColumnHeadersRowプロパティを利用して、PDF表をExcelブックに読みこんでみましょう。
1.元のPDF表(テーブル)をPADへ読みこんで、ExtractedPDFTables変数に格納します。
2.Excelを起動します。
3.For eachループで、表(テーブル)の行数分だけ、DataTable(表の数値)をExcelワークシートに書きこみます。
4. 3.と同時に、For each内にDataTable.ColumnHeadersRow(表見出し)を書きこむアクションを追加しておきます。
↑こうなりました。
官公庁統計資料PDF特有の汚れたデータなので、セル結合やマイナス表記がうまくワークシート上に反映されない不具合は残りますが、単なるコピペよりは、はるかに表としての復元度合いが高まっています。
PDFのメンバー表をOutlook/グループウエア連絡先へ取りこむのにも便利
この機能を応用すれば、メンバー表や住所録を、他ソフトウエアなどで活用できるようにもなります。例えば、PDFでしか配布されていない以下の住所録(ダミーです)。
同じPADフローで表(テーブル)をExcelに読みこんでみたところ、こうなりました。
PDF書類では、ただながめることしかできなかった連絡先が、Excelデータ化されることで、csvなどで他ソフトウエア連携に活用できる情報になりますね。
まとめ
有償ソフトウエア領域だったPDF表(テーブル)のExcel読みこみも、PADでできるようになりました!
社内ではMS officeソフトで作成された資料をやり取りすることが多くても、社外との連絡やオープンデータ検索では、PDFだけを入手できるケースがほとんどです。これらPDF資料も、活用してはじめて有益なデータとなりますので、編集しやすいように、どんどんExcelに取りこみましょう。
PDF資料の読みこみには、以前は有償ソフトウエアを用意する必要がありましたが、現在は、かなりの部分を、無償PADで代用できます。ColumnHeadersRowプロパティの使い方もおぼえて、PDF表(テーブル)データを、活きた数値に変換しちゃいましょう!!