【第3回】見た目は綺麗、扱い大変な表組みたち


中央省庁や地方公共団体のデータを活用するときは、データ同士を比較、並び替え、グラフを作成等をすることが多いと思います。

作業目的を決め、パソコンに公的データを取り込み、いざデータ分析をしようと思ったら、ダウンロードしたままのデータでは並び替えすらできないということがあります。

それも少なくない割合で。

政府統計の窓口であるe-Statを活用すれば、そのような事態に遭遇することは少なくなりましたが、それでも皆無というわけにはいきません。
 そんなデータを再利用とすると手こずるデータ形式について見ていきましょう。

困った形式1 セル結合(軽症)

まずは、それほど事態はそれほど深刻ではない形式について見ていきます。症状は軽いですが、好ましい表形式ではありません。

具体的に見ていきましょう。

この表は第132回福島県統計年鑑2018 第11章 金融 130 ゆうちょ銀行預金残高 Excelファイル形式のものです。


【03_01_130ゆうちょ銀行残高 挿入】

この表はどこにでもある、見た目は普通の表のような気がします。特に不都合はないように見えます。ただ、薄みどり色に塗り分けをしてある部分に注目していただくとわかりますが、この部分はセルが結合されています。年度、流動性預金、定期性預金、合計の部分が横の列方向に6つのセルが結合されています。

そして年度、流動性預金、定期性預金、合計の部分は縦方向に3つのセルが結合されています。

確かに、人が見る場合には見やすい表形式です。

しかし、この表で合計が大きい順に並び替え等をしようとすると、並び替えをすることができません。理由は表にセル結合が利用されているからです。

セル結合は見た目が綺麗な表を作成することができますが、データの並び替えといった簡単な作業もできなくなることがあります。Excelを利用しているかたでしたら「セル結合を解除」という操作を行い、セル結合を解除する方法もありますが、データを活用する前に、ひと手間が必要となります。

そこで下図のようのセル結合を利用せずにデータ公開をしたらいかがでしょうか?

このような表の場合は最初からデータの並び替え等をすることができます。セル結合を利用せずに表形式にしたものです。


【03_02_改良例  挿入】

セル結合を解除したデータを公開することで、データ利用者がデータの並び替え等をスムーズにできるようになります。

困った形式2 ふりがな等(軽症)

官公庁が公開するデータには人名や地名にふりがながつけられていることがあります。これらふりがなのつけかたにも配慮があると、データの再利用がしやすくなります。
これから紹介する表は平成26年12月14日執行衆議院議員総選挙・最高裁判所裁判官国民審査結果調からのものです。


【03_03_同じ列に候補者氏名と実際の名前が入っている 挿入】

薄みどり色の部分をご覧いただくとわかりますが、候補者氏名と実際の名前が二段になって記載されています。
このような表の状態で候補者氏名を並び替えると、実際の名前と、候補者氏名が順序よく並ばずデータとして利用しにくくなります。解決策としては候補者氏名と実際の名前、名前とふりがな、地名とふりがなの表記を別の列にわけるという方法があります。


【03_04_候補者氏名と実際の名前を別の列に分けた 挿入】

このように候補者氏名と氏名を分けることで、データの並び替えを行っても順序がばらばらになるということは避けられます。そもそも選挙結果調べはExcel形式かCSV、テキスト形式で公開していただければ利用しやすくなるのですが。

困った形式3 半角空白・全角空白で文字幅を調整(軽症)

次に見ていくのは都道府県名、市町村名、人名等を表記する際に半角空白や全角空白を利用して文字列の幅を調整し、見栄えを良くする例です。

具体的に見ていきます。

下記の図は、平成28年社会生活基本調査の表です。


【03_05_都道府県名の文字列に半角空白が入っている 挿入】

都道府県欄をみると、各都道府県名の文字列の間に半角空白があります。半角空白があると、文字列検索をしようとしても、検索されないことがあります。このようなことがあるので、半角空白、全角空白を利用して、文字列の体裁を整えることは避けましょう。

このような場合は全角、半角空白削除等で処理をすれば、検索ができるようになるので症状としては軽いと思います。

しかし、そのような手間を掛けなくても最初からデータを利用できるのが一番です。

まとめ

データの再利用を考えた場合、
 1 セル結合は利用しない
 2 ふりがな等は別の項目を作り、そこに入力する
 3 半角空白、全角空白等を利用して文字列幅を調整しない

ということを意識するだけで、データが再利用しやすい形式になります。今回は表形式でデータの再利用に困るものではあるが、データ修正がしやすい軽症のものを中心に選びました。

次回は、いよいよセル結合等、データの再利用を困難にする重症な例を中心に見ていこうと思うのですが、国、地方公共団体が公開するデータの重症事例というのは地方公共団体コードが関連することが多いのです。

そのため、次回は地方公共団体コードについて紹介することにします。地方公共団体コードについて紹介した上で、取扱困難な表組みについて見ていきます。

次回は地方公共団体コードをなぜもっと活用しないの?という点についてお話させていただきたいと思います。


渡邉秀成

調査屋
1999年から公的機関、民間企業のデータベース整備、 各国政治家発言、企業経営者発言、 東日本大震災SNS、各国選挙SNS投稿、株式情報、有価証券報告書等のテキストデータ解析を行う。 国内の有権者投票行動調査は下記から。 https://datastats-election.info/

渡邉秀成の記事一覧