データ基盤を構成する要素を記載する。他のサイトにも存在する情報ではあるがデータ仮想化も含めたフルセットがシンプルに整理されたものが見つからなかったので簡単に記載しておくことにした。
データ加工機能
- ETL(例:Informatica)
- データ仮想化ミドルウェア(例:Informatica)
データ保管機能
- データレイク(例:Hadoop HDFS)
- データウェアハウス(例:Tera Data)
- データマート(例:Oracle)
- リアルタイムDB(例:Redis)
集計/分析機能
- BIサーバー(例:Tablou)
- レポートサーバー(例:Tablou)
データ保管機能にはニーズによって以下のようなデータベースが使われる。
- リレーショナルデータベース(例:Oracle)
- 特徴:トランザクション処理の正確さを重視
- NoSQLデータベース(例:MongoDB)
- 特徴:データの整合性よりも書き込み性能を優先。掲示板等の同時書き込みが重要な場合に有効。リアルタイム処理ではメモリDBも使われる。
- データウェアハウス(例:Tera Data)
- 特徴:大量データ処理の高速化を重視。DBバッファを使わないため同時実行には弱いがTeradataのような同時実行を強化した製品も存在する。
- データレイク(例:Hadoop HDFS)
- 特徴:データが超大量になるとDWHでも処理しきれない。複数サーバーにデータを分散させて並列に処理できるようにしている。複数サーバーに分散させた結果、少量データの検索でもある程度のオーバーヘッドが発生する。少量データを大量のトランザクションで扱うような用途には向かない。