データエンジニアの道具箱

Bigquery 性能検証

※下記のGithubでも公開しています。gitの方が見易い人はこちらを参照してください。 https://github.com/data2coordi/pub…

Tech blog

掲示板WEBサイトの投稿分析機能

※下記のGithubでも公開しています。gitの方が見易い人はこちらを参照してください。 https://github.com/data2coordi/pub…

Tech blog

データアクセスパスのパターン化

デザインパターンというものがある。classをデザインするときのパターンを汎化してまとめたものである。多くのデザインがこのパターンのどれかに近いもので実現でき…

Tech blog

※作成中※ ETLの並列処理(概要)

ETLは並列化することで高速化できる。しかし、並列化には多くのパターンがあり適切に選択しなれば効果が得られない。並列化のパターンとそのメリット、デメリットを記…

Tech blog

ETLのウィークポイント(システム移行)

ETLはソフトウェアのバージョンアップ、ハードウェアのリソース不足、老朽化等でシステム移行が必要となる。ETLは非常に多くのシステムと接続するためこのシステム…

Tech blog

ETLのウィークポイント(修正とテスト)

ETLは生産性が高いと言われるが必ずしもそうではない。スクラッチ開発よりも弱い部分がある。率直に言うと、ETLは新規のアプリ作成は生産性が高い。一方、以下の特…

Tech blog

ETLのサイジング:ストレージ

ETLサーバーの内部ストレージは以下のような用途で使われる。 ソート、ランク処理等での一時領域 マスターデータをDBから複製してトランザクションデータとJOI…

Tech blog

ETLのサイジング:メモリ

ETLのメモリはDBのように、アクセス頻度の高いデータをメモリに載せてディスクアクセスの頻度を削減するような使い方はしない。 ソート、ソートJOIN、Grou…

PAGE TOP