dbt や Dataform は、データの変換・加工・結合などを行うデータパイプラインの開発や運用を支援するツールです。これらのツールの導入を支援します。
dbt / Dataform 導入のメリット
dbt や Dataform を導入することで以下のメリットがあります。
テスト駆動型の開発が可能
データパイプラインを構成するモデルや変換ロジック、結合処理などのコードを、テスト駆動型で開発することができます。このため、変更や修正が必要な場合にも、テストを実行することで予期せぬエラーや不具合を未然に防ぐことができます。
テーブルの依存関係を明確にすることができる
テーブル間の依存関係を明確にすることができます。このため、依存関係に基づいて処理を行うことで、データパイプライン全体の信頼性を高めることができます。
ドキュメンテーションが自動生成される
データカタログや変換ロジックのドキュメンテーションを自動生成することができます。これにより、データパイプライン全体の可読性やメンテナンス性が向上し、開発効率の向上につながります。
事例のご紹介
業種 | 支援業務内容 |
---|---|
印刷・運送 | <印刷・運送サービス会社 様> GCPのデータ分析基盤構築/運用、AWSからGCPへのデータパイプライン開発、dbt導入支援 <主な支援業務> ■ RDS→S3→GCS→BigQuery のデータパイプライン開発 ■ dbt (データ変換ツール)の導入検証、構築 ・BigQuery上でデータ加工、クレンジング、集計用のモデル開発 ・スプレッドシートを外部テーブルとしてBigQueryへ取り込み ・データセットの権限管理 ・ユニークキーやNOT NULLの自動テストの実装 ■ trocco による Extract & Load の実装(Google Analytics を BigQueryへ転送等) ■ データカタログを自動反映する仕組みの導入 |
不動産 | <大手不動産ディベロッパー 様> BigQueryのコスト及びセキュリティガバナンス設計・構築、 Dataformを利用したデータパイプライン開発 <主な支援業務> ■ BigQueryのコスト及びセキュリティガバナンス設計・構築 ・BigQueryのクエリ使用量、ストレージ使用量を日次で算出し Looker Studio で可視化 ・BigQuery内の個人情報の有無をDLPでスキャンするバッチ処理開発 ・BigQuery、GCSの権限設定をPolicy Analyzerで抽出し権限設定を監視する仕組み導入 ■ Dataformを利用したデータパイプライン開発 ・データマート開発 ・ユニークキーやNOT NULLの自動テストの実装 ・Policy Analyzer の抽出結果から不正権限有無のテスト実装 |