Parquet

Parquetは、分析用途に向いた列指向(カラム型)のファイル形式です。テーブルの各列をまとめて保存するため、必要な列だけを読み込めます。圧縮効率も高く、データレイク上の大量データを扱う基盤で採用されることが多いでしょう。

列の取り出し(列プルーニング)や条件絞り込み(述語プッシュダウン)が効くと、スキャン量が減ってクエリが速くなります。SparkやTrino/Athenaなどの分散クエリエンジンと相性がよく、DWHの外部テーブルとしても利用されます。大量ログやイベントデータを「貯めてから集計する」ワークロードでは特に強みが出やすいです。

運用でつまずきやすいのは、スキーマ変更やファイル配置が雑になると、読み取り互換性と性能が崩れやすい点です。小さなファイルが大量に増えるとメタデータ処理が重くなるため、ファイルサイズや行グループの設計を最初に決めておくと安定します。圧縮方式やエンコード、日時やNULLの扱いはエンジン差で結果が揺れることがあるので、データ定義と変更管理をセットで整えるのが安全でしょう。

お問い合わせ

サービスに関するご質問や講演依頼など、お気軽にお問い合わせください。2営業日以内にお返事いたします。

ビジネスの成果にこだわるデータ分析支援
データ分析/活用にお困りの方はお気軽にお問い合わせください
ビジネスの成果にこだわるデータ分析支援
データ分析/活用にお困りの方は
お気軽にお問い合わせください