目次

  1. 機械判読可能なデータの表記方法とは
  2. 機械判読可能なデータが必要な理由
  3. データとして活用するためのチェックポイント
    1. データのファイル形式はほかのパソコンでも利用できるか
    2. 体裁を整えるため書式設定を変えていないか
    3. 1セル1データになっているか
    4. データを「⽂字列」にしていないか
    5. セルを結合していないか
    6. スペースや改⾏で体裁を整えていないか
    7. 項目名を省略していないか
    8. オブジェクトを使⽤していないか
    9. データの単位を記載しているか
    10. 機種依存⽂字を使⽤していないか
    11. 時間を表すデータは⻄暦表記
    12. データが分断されていないか

 総務省が公表した機械判読可能なデータの表記方法とは、各府省が政府統計の総合窓口(e-Stat)に掲載する統計表を作るときの統一ルールのことです。

 2021年1月以降の公表分から、各府省の準備ができ次第、順次対応していくと説明しています。

 経産省が2018年にまとめたDXレポートでは「DXの実行には、データの利活用が鍵となる。そのため、データを蓄積・処理するITシステムが、環境変化、経営・事業の変化に対し、柔軟に、かつスピーディーに対応できることが必要である」と指摘しています。

 しかし、そのDXの根幹となるデータの表記方法が統一されていないと、集計も活用もできません。そこで、政府は国民が利用できるよう公開している統計データの統一ルールを作りました。

 このルールに沿ってデータを打ち込むことで、加工せずにそのまま分析できるようになります。取引先などとデータを共有するときにも役立ちます。

 総務省の統一ルールのなかから、中小企業にも役立つ部分を抜粋して紹介します。

 まず表のデータ形式は、ほかのパソコンでも利用できるフォーマットであることが必要です。具体的には、Excelの保存形式(ファイル名の最後がxslxなど)や CSV、XML、Open Document Format(.ods)などがよいでしょう。

 Excelでは、データを数値として扱いつつ、書式設定で体裁を整えられます。ただし、書式設定で見た目を整えた後にcsvファイルにすると、思わぬ挙動を⽰すことがあるので、印刷を意識した報告書ベースの Excelなのか、データ分析に使うのかで使い分ける必要があるでしょう。

 まず、データは1セルに1つのデータだけ入っているかを確認してください。1セルに複数のデータが入っていると、計算や並べ替え、グラフにするときに別途、⼿作業やプログラムを作る手間が増えてしまいます。

修正前

全国
仕入れ額 373(2015年度)、434(2016年度)、549(2017年度)、638(2018年度)、741(2019年度)
出荷額 973(2015年度)、1234(2016年度)、1449(2017年度)、1738(2018年度)、1841(2019年度)

修正後

仕入れ額 出荷額
2015年度 373 973
2016年度 434 1234
2017年度 549 1449
2018年度 638 1738
2019年度 741 1841

 数値データに、円、¥、kg、tなどの記号や▲(マイナス)を⼊⼒すると、Excelで、数値ではなく「⽂字列」として扱われてしまうことがあります。

 文字列では関数を使って自動計算ができなくなるので注意が必要です。昇順・降順でも正確に並べ替えできなくなることがあります。

修正前

単価 生産ロット 前回との差
特殊ねじA 36.5円 1,000 ▲250
特殊ねじB 28.5円 2,000 300
特殊ねじC 11.5円 3,000 ▲200
特殊ねじD 9.5円 4,000 100
合計 0 400

修正後

単価 生産ロット 前回との差
ロット数
特殊ねじA 36.5 1000 -250
特殊ねじB 28.5 2000 300
特殊ねじC 11.5 3000 -200
特殊ねじD 9.5 4000 100
10000 -50

 ⾒やすくするための⼯夫として、千円単位を⽰す「,(カンマ)」を⼊⼒している場合も、関数によっては正確に計算できない場合があります。また、csvファイルとして出力したときも、csv はカンマでデータを区切るため、データが思ったようにそろわなくなるおそれがあるので注意が必要です。

 セルを結合してしまうと、並べ替えができない、グラフ化ができないほか、範囲選択しにくい、コピーペーストできないなどの問題が起きてしまいます。

 機械判読可能なデータとして利⽤するには、一つのデータを、横1⾏、縦1列で⼊⼒する必要があります。

修正前

管理職 従業員数(上は正社員、下はパート)
第一営業所 3 15
2

修正後

管理職数 正社員数 パート従業員数
第一営業所 3 15 2

 スペースや改⾏で体裁を整えると、データが検索しにくくなるだけでなく、複数の表を横断的に利⽤する場合にも⽀障が出ることがあります。

修正前

出荷
本数
在庫本数
津  市 4 290 7 560
四日市市 3 210 6 480
伊 勢 市 3 820 4 380
松 阪 市 4 080 7 750

修正後

出荷本数 在庫本数
津市 4290 7560
四日市市 3210 6480
伊勢市 3820 4380
松阪市 4080 7750

 たとえば、鎮静剤A、B、C……と各項目で「鎮静剤」を省略した場合、人間は推測できますが、並べ替えができないなど集計時に困ることがあります。

 鎮静剤A、鎮静剤B、鎮静剤C……と表記しておいた方が良いでしょう。

修正前

薬剤名 出荷本数 単価
鎮静剤A 429 756
B 321 648
C 384 438
D 408 775

修正後

薬剤名 出荷本数 単価
鎮静剤A 429 756
鎮静剤B 321 648
鎮静剤C 384 438
鎮静剤D 408 775

 Excelには図形、グラフ、スマートアートなど「オブジェクト」を挿入することができます。しかし、こうしたオブジェクトはプログラムでは判読できないので削除してしまいましょう。

 単位は、データ処理に必須ですが、数字と同じセルに入れてしまうと文字列として扱われ、計算できなくなります。そこで、単位が含まれる項⽬については、別セルにその項⽬の単位を⼊⼒しておくと良いでしょう。

 機種依存⽂字は、パソコン環境によっては正しく表⽰されない可能性があるので使わない方が良いでしょう。

 プログラムは、年の値の⼤⼩により認識することが多く、和暦表⽰のみではで⻄暦に変換する手間が発生します。そこで、なるべく西暦とし、和暦を使う場合は西暦を併記しましょう。

 空⽩列を入れたり、Excelの1シートに複数の表を入れたりすると、データが分断されてしまい、機械判読できない場合があります。そのため、分離はせず、表の印刷や成形を意識した不必要な空⽩セルを追加しないようにしましょう。

修正前

導入台数 増減数 仕入れ単価 仕入れ額
第一営業所 58406 11291 280 12012
第二営業所 141183 18421 350 11235
第三営業所 243283 38152 420 16128

修正後

導入台数 増減数 仕入れ単価 仕入れ額
第一営業所 58406 11291 280 12012
第二営業所 141183 18421 350 11235
第三営業所 243283 38152 420 16128