エンターテイメント!!

遊戯王好きのJavaエンジニアのブログ。バーニングソウルを会得する特訓中。

Excelは嫌いだが役に立つ?DB活用法

きっかけ

下記の記事に触発されたのと、情報処理技術者試験のDBスペシャリストを受けるにあたって書きたくなったから書いた。

tsukaeru-excel.hateblo.jp

Excelに対する考え

はっきり言うと、Office系のソフトは好きじゃない。
データをバイナリ管理しているため、差分が全然わからないんだよね。
何が変わったのか分からないから、すごくイライラすることをいっぱい感じてきた。
主に仕事で。

データを整える

DBでいうところの正規化された状態にすること。
そうすることで、分析しやすい状態になる。

データベースの鉄則

データベースとは、複数の主体で共有、利用したり、用途に応じて加工や再利用がしやすいように、一定の形式で作成、管理されたデータの集合のこと。 広義には人が紙に書いてまとめたものなどを含む場合もあるが、今日では、単にデータベースといった場合はコンピュータ上で作成、保管され、専用のソフトウェア(データベース管理システム)によって管理されるものを指すことが多い。文脈によってはデータベース管理システム(DBMS:DabaBase Management System)のことをデータベースということもある。

1行目にタイトル、2行目以降がデータ

これ鉄則。
見出しは1行目に集約させる。
グルーピングの関係で1行にできない場合は、2行にしてもいいが、分析しにくくなる。
DBも一緒。

1件1行

データが複数行に渡ることがあるが、それは分析にしくくなる。
DBだと第一正規形の状態。

空白行は不可

空白行が入るとデータが分断されていると判断され、集計・分析ができなくなる。
DBだとすべてからのレコードはありえない。
無意味なレコードは作っちゃらめぇぇぇぇ!

別の意味合いのデータ群を作る場合は、シートを分けるか、別ファイルにまとめる。

表記を揃える

表記がずれていると集計・分析するときに苦労する。
例えば、1987年09月生まれの人を抽出したいとする。
ちなみに、1987年09月は、俺の誕生月。

  • 198709
  • 1987-09
  • S62-09
  • 09-1987
  • 87-09
  • 1987-9

抽出しようにもパターンが多すぎて、抽出側が頭を使わなければいけない。

セル結合しない

セルが結合されていると、正しくデータが抽出・分析できない。
データとしてExcelを使う場合、なるべく使うべきではない。

他の補足

セルの背景色

つけてもいいけど、つけすぎ注意。
目がチカチカする。
カラフルなExcelほど見にくいものはない。
使う色は、3色くらいにしたほうがいい。

インデックス

データとは関係なくても、通し番号は必ずつける。
ポケモン図鑑でいうところの全国図鑑の番号だ。
これがあることで、一発でアクセスすることができる。

日本のデータベースの考え

意外とポケモンで養われるのではないかと思った。
ポケモン図鑑がデータベースって考えられる。
案外、データベースって考えは、IT分野の人じゃなくても受け入れられそうな気がする。