Parquet

Parquetは、分析用途に向いた列指向（カラム型）のファイル形式です。テーブルの各列をまとめて保存するため、必要な列だけを読み込めます。圧縮効率も高く、データレイク上の大量データを扱う基盤で採用されることが多いでしょう。

列の取り出し（列プルーニング）や条件絞り込み（述語プッシュダウン）が効くと、スキャン量が減ってクエリが速くなります。SparkやTrino/Athenaなどの分散クエリエンジンと相性がよく、DWHの外部テーブルとしても利用されます。大量ログやイベントデータを「貯めてから集計する」ワークロードでは特に強みが出やすいです。

運用でつまずきやすいのは、スキーマ変更やファイル配置が雑になると、読み取り互換性と性能が崩れやすい点です。小さなファイルが大量に増えるとメタデータ処理が重くなるため、ファイルサイズや行グループの設計を最初に決めておくと安定します。圧縮方式やエンコード、日時やNULLの扱いはエンジン差で結果が揺れることがあるので、データ定義と変更管理をセットで整えるのが安全でしょう。

Parquet

YAML

XBRL

UX

UI

お問い合わせ