【第2回】PDFの再利用はとても大変


今回はPDF形式のデータから、必要となるデータを抽出し、データを再利用するにはとても手間がかかるという点について具体的に見ていきます(PDF形式のデータをOCR処理をするという方法もあるのですが、読み込み精度が100%ではないことが多いので、見直し作業に手間がかかることが多い)。
データ利用に手間がかかることを理解していただければ、データ利用者に使い勝手が良い形式で官公庁からデータが公開されるようになるのではと期待しているからです。実際に、PDFデータから数値抽出等の作業を行ったかただとその大変さがわかると思いますが、この作業をなさったことがない人には、作業の大変さがわかりにくい内容です。
そこで、その大変さを具体的にイメージできるように、今回は前回積み残しになっていた

1 データがコピー・アンド・ペーストできない場合がある(再利用しにくい)
2 コピー・アンド・ペーストができても、データの再利用には手直しが必要である

この2点について見ていきたいと思います。
  

もともとデータがコピーできない場合

まずはPDFデータがもともとコピーできない場合について見ていきます。具体例として鳥取県選挙管理委員会が公開しているデータについてみていきます。下図がそのデータの一部です。実際に下記アドレスに移動していただければ幸いです。

【図1:都道府県別投票結果】

*https://www.pref.tottori.lg.jp/secure/1093768/H28saninsenkiroku3.pdf
鳥取県選挙管理委員会 第一編 参議院議員通常選挙 P22より

この表はPDF形式で公開されているものです。しかし、この都道府県別投票結果をコピーしようとすると、コピーすることができません。前回お話しましたコピーができないPDF形式です。この表にある数値を全部入力しようとすると、時間が必要ですし、入力ミス等があるかないかを確認する必要があります。OCRという文字読取装置を利用すればよいという意見もあるでしょうが、罫線があるOCR処理は誤入力等があることがあり手直しに時間がかかる表形式の一つです。この表を見る限り、入力済の電子データがあると推察されます。もし、電子データがある場合には各種データの部分をExcel形式、CSV形式で公開していただければ、データの再利用がしやすくなります。この選挙データは総務省のホームページからコピー・アンド・ペーストができる状態のデータが公開されているので、それをパソコンに取り込めば対処することができます。

しかし、データの公開主体が積極的にExcel,CSV形式で公開してくれれば、他のウェブサイトに移動することなくデータ処理をすることができます。 

コピーはできるが表レイアウトが崩れる場合

次に、コピーはできるが他のアプリケーションに貼り付けるとレイアウトが崩れる場合についてみていきます。このデータは平成26年12月14日執行衆議院議員総選挙・最高裁判所裁判官国民審査結果調 P3からのものです。

【図2:衆議院の解散及び選挙執行期日等】

https://www.e-stat.go.jp/stat-search/files?page=1&layout=datalist&toukei=00200235&tstat=000001085477&cycle=0&result_page=1&second=1&second2=1&tclass1val=0

この表のデータを再利用しようとして表全体を選択、コピーします。そして、テキストファイル等に貼り付けをすると下図のようになります

【図3:コピペした結果】

表のレイアウトが崩れてしまい、データの再利用をしようとすると手直しが必要になることがわかります。このようにPDF形式で公開されているデータを再利用しようとすると手間がかかることがわかります。官公庁が公開しているデータは信頼性が高いこともあり多くの個人、法人等が利用します。そのような個人、法人等がデータの再利用をするために別々にこのような手間のかかる作業をしていることを想像すると、どれほどの時間が浪費されているのか見当もつきません。

国、地方公共団体等の公的機関が公開するデータは、個人、法人が業務研究学習に利用しやすい形式で提供するのが役割であると考えます。したがって、PDF形式のデータを作成する電子データがある場合には、個人、法人等が利活用しやすいExcel形式、CSV形式で提供をしたほうがいいでしょう。
 

PDF形式も問題だが、それ以上の問題は擬似神Excel問題

前回、今回とPDF形式がデータを再利用とするファイル形式としては課題が残る形式であることをお話してきました。しかし、データ公開方式についてはさらなる大問題が控えています。それは、Excelで文書作成、Excel方眼用紙、神Excelといった、表組み大好き日本人の器用さが裏目に出ている問題です。Excel等で作成された見た目の美しい表組みは、データの再利用をしようとする時に大きな障害があります。見た目の良い表組みが、データ再利用の際には最も使い勝手の悪い形式であることについて次回以降見ていきます。

まとめ

PDF形式のデータにはコピーできるものとコピーできないものがあります。コピーできない形式のPDFはデータの再入力等の手間がかかり、公的データの利用者に負担がかかります。また、コピーが可能なPDF形式でも再利用しようとすると表組み等が崩れ、手直しが必要になることがあります。したがって、PDF形式のデータはExcel形式、CSV形式等で公開するほうが公的データの再利用がしやすく、利用者に優しい設計です。

次回は具体的に使い勝手の悪いデータ形式について見ていきます。


渡邉秀成

調査屋
1999年から公的機関、民間企業のデータベース整備、 各国政治家発言、企業経営者発言、 東日本大震災SNS、各国選挙SNS投稿、株式情報、有価証券報告書等のテキストデータ解析を行う。 国内の有権者投票行動調査は下記から。 https://datastats-election.info/

渡邉秀成の記事一覧