きっかけ
下記の記事に触発されたのと、情報処理技術者試験のDBスペシャリストを受けるにあたって書きたくなったから書いた。
Excelに対する考え
はっきり言うと、Office系のソフトは好きじゃない。
データをバイナリ管理しているため、差分が全然わからないんだよね。
何が変わったのか分からないから、すごくイライラすることをいっぱい感じてきた。
主に仕事で。
データを整える
DBでいうところの正規化された状態にすること。
そうすることで、分析しやすい状態になる。
データベースの鉄則
データベースとは、複数の主体で共有、利用したり、用途に応じて加工や再利用がしやすいように、一定の形式で作成、管理されたデータの集合のこと。 広義には人が紙に書いてまとめたものなどを含む場合もあるが、今日では、単にデータベースといった場合はコンピュータ上で作成、保管され、専用のソフトウェア(データベース管理システム)によって管理されるものを指すことが多い。文脈によってはデータベース管理システム(DBMS:DabaBase Management System)のことをデータベースということもある。
1行目にタイトル、2行目以降がデータ
これ鉄則。
見出しは1行目に集約させる。
グルーピングの関係で1行にできない場合は、2行にしてもいいが、分析しにくくなる。
DBも一緒。
1件1行
データが複数行に渡ることがあるが、それは分析にしくくなる。
DBだと第一正規形の状態。
空白行は不可
空白行が入るとデータが分断されていると判断され、集計・分析ができなくなる。
DBだとすべてからのレコードはありえない。
無意味なレコードは作っちゃらめぇぇぇぇ!
別の意味合いのデータ群を作る場合は、シートを分けるか、別ファイルにまとめる。
表記を揃える
表記がずれていると集計・分析するときに苦労する。
例えば、1987年09月生まれの人を抽出したいとする。
ちなみに、1987年09月は、俺の誕生月。
- 198709
- 1987-09
- S62-09
- 09-1987
- 87-09
- 1987-9
抽出しようにもパターンが多すぎて、抽出側が頭を使わなければいけない。
セル結合しない
セルが結合されていると、正しくデータが抽出・分析できない。
データとしてExcelを使う場合、なるべく使うべきではない。
他の補足
セルの背景色
つけてもいいけど、つけすぎ注意。
目がチカチカする。
カラフルなExcelほど見にくいものはない。
使う色は、3色くらいにしたほうがいい。
インデックス
データとは関係なくても、通し番号は必ずつける。
ポケモン図鑑でいうところの全国図鑑の番号だ。
これがあることで、一発でアクセスすることができる。
日本のデータベースの考え
意外とポケモンで養われるのではないかと思った。
ポケモン図鑑がデータベースって考えられる。
案外、データベースって考えは、IT分野の人じゃなくても受け入れられそうな気がする。