【第1回】ネ申Excelだけじゃない官公庁公開データの改善点


オープンデータ、ビッグデータ、未来予測等々、データに関する話題が毎日報道されるこの頃ですが、中央省庁や地方公共団体が公開している統計データを利用して、ビジネスのネタ出しや、各種調査等をなさっているかたは多いと思います。

10年前と比較するとウェブ上で入手できる公開データの種類も豊富になり、データ閲覧環境は良くなってきました。政府統計の総合窓口e-Statも2018年はじめにリニューアルされ、また地方公共団体も積極的に統計データを公開する流れです。


【出典】https://www.e-stat.go.jp/

確かに、国、地方公共団体の公開データの量は充実してきました。しかし、その公開データの数値を分析したり、資料に再活用しようとすると、思いのほか手間がかかりませんか?
もう少しデータの公開形式をかえてくれれば、仕事研究学業がはかどるのにと思うかたも多いと思います。公開データの量は充実してきたので、次は公開データの利活用のしやすさという質も充実してもらえたらありがたい。

そんな思いから、官公庁が今後このような形式でデータ公開してくれれば使い勝手が良くなるかも?というお話させていただきたいと思います。では官公庁のデータを利活用する際に何に困っているのかということについて見ていきます。

何に困っているか

中央省庁や地方公共団体がウェブ上で公開しているデータを活用する際に困るのは、

1 データの所在がわかりにくい(特に地方公共団体)
2 データを利用しようとすると、数値、本文等をコピー・アンド・ペーストができない
3 データを利用しようとすると、手直し等が大幅に必要となる

等があります。

このブログでは主に2、3のデータの利活用をする際に問題になる点に焦点を絞り、実例をあげて見ていきたいと思います。また、実例として取り上げるものは、公開データでよく見る形式だけれども、データを再利用するには手間がかかり、作業に手こずるものを中心にしました。

そして、それら取り上げた例について改変例を示しますが、こんなふうに改変してもらえれば、現場としてはデータの利活用がしやすくて助かるとと思うものを選びました。
当然、データを利活用する現場、現場で別の意見もあると思います。また、プログラム処理等でデータ整形する方法等については、あえて触れていません。プログラム処理等をせずにデータを利用できたほうが手間がかからないからです。
 

困っていることの具体例をリストアップするとこんな感じ

1 PDF形式でのデータが多すぎる(データの公開形式について)
2 PDF形式のデータが検索エンジンにかからない(データを探すのに苦労する)
3 PDF形式でコピー・アンド・ペーストができない(電子データあるのに手入力するの?)
4 どうしてそんなにセル結合が好きなの?(神Excelっぽい、バージョンいろいろ)
5 どうして便利な地方公共団体コードを使わないの?(日本には重複する自治体名がいっぱい)
6 どうして中央省庁と地方公共団体で同じ調査で別々なデータ形式なの?

等があります。

おおまかにこれらの点について、これから数回に分けてお話させていただきたいと思います。特にセル結合を利用した表組みについては、改善点を含め、多めに分量を取りたいと思います。今回はPDFファイルが多すぎる点について見ていきたいと思います。

省庁保有データの43.8%がPDF形式

内閣官房 情報通信技術(IT)総合戦略室のIT DASHBOARDによると、省庁全体で保有するデータの43.8%がPDF形式であることがわかります。保有するデータの4割以上がPDF形式の保存というのはとても多く感じます。


【出典】https://www.itdashboard.go.jp/Statistics/opendata 
内閣官房情報通信技術(IT)総合戦略室より

確かに、中央省庁や地方公共団体の統計ページ等をみるとPDF形式でデータが公開されているものが多く見られます。
PDF形式のデータは

1 WordやExcel等から印刷するような感じで誰もが簡単にファイル作成できる
2 作成したファイルをウェブに公開できる
3 公開したPDF形式はレイアウトを保存したまま印刷することができる
4 Windows、Macintosh等OSを問わず見ることができる
5 コピー制限や、プリントアウト制限等を設定することができる

といった点が特徴です。このような点が支持されて、官公庁等で多く利用されているものだと思われます。

その一方で、PDF形式はデータ活用の点から見ると

1 データがコピー・アンド・ペーストできない場合がある(再利用しにくい)
2 コピー・アンド・ペーストができても、データの再利用には手直しが必要である
3 PDF形式であるが文書・データ内容がGoogle等の検索エンジンにかからない

といった課題を抱えています。
1、2については次回にまわして、最後の3についてお話をさせていただき、1回めを終わりにしたいと思います。

検索エンジンにかからない公開データに意味はない

検索エンジンかからないPDFデータとは一体なんぞや?ということになりますが、
これは、

1 Word、Excel等のアプリケーションでデータ作成
2 データを紙媒体へプリントアウト
3 プリントアウトした印刷物をスキャニングしてPDF形式を作成
4 スキャニングしたPDFデータ(OCR処理なし)をウェブ上に公開

このような手順を踏むことで、Google等の検索エンジンにかかりにくいデータ公開が可能となります。公開しているPDFデータが原本であることを示すために、紙媒体をプリントアウトしたものをPDF化して公開しているものと考えることもできます。しかし、個人、法人等がデータの再利用をするには、スキャニングされたPDFデータを人力での入力や機械で自動的に入力をするOCR処理をする手間がかかります。OCR処理で入力作業を自動化しても、文字、数値が正確に入力されたかの確認作業が必要となります。この作業には想像以上の時間がかかります。福岡県選挙管理委員会、神奈川県選挙管理委員会は選挙結果を当初コピーできないPDF形式で公開をしていましたが、その後Excel形式で公開するようになりました。

PDF形式データからExcel形式、CSV形式での公開に変更する地方公共団体も出てきています。Word、Excel等、PDF形式を作成するための電子データがある場合には、PDF形式ではなくExcel形式、CSV形式等で公開したほうがデータの再利用はしやすい傾向にあります。

まとめ

中央省庁、地方公共団体が保有するデータにはPDF形式が多いのですが、PDFファイル形式はデータの再利用には手間がかかることが多いです。したがって、データの再利用を促進するためにはPDF形式からCSV,Excel形式等他の形式ででの公開が望まれます。
また、PDF形式を作成するもととなる電子データがある場合には、そのもと電子データを公開したほうがデータの再利用がしやすくなります。次回は、なぜPDF形式のデータは再利用しにくいのかについてお話させていただきます。


渡邉秀成

調査屋
1999年から公的機関、民間企業のデータベース整備、 各国政治家発言、企業経営者発言、 東日本大震災SNS、各国選挙SNS投稿、株式情報、有価証券報告書等のテキストデータ解析を行う。 国内の有権者投票行動調査は下記から。 https://datastats-election.info/

渡邉秀成の記事一覧