Parquetは、分析用途に向いた列指向(カラム型)のファイル形式です。テーブルの各列をまとめて保存するため、必要な列だけを読み込めます。圧縮効率も高く、データレイク上の大量データを扱う基盤で採用されることが多いでしょう。
列の取り出し(列プルーニング)や条件絞り込み(述語プッシュダウン)が効くと、スキャン量が減ってクエリが速くなります。SparkやTrino/Athenaなどの分散クエリエンジンと相性がよく、DWHの外部テーブルとしても利用されます。大量ログやイベントデータを「貯めてから集計する」ワークロードでは特に強みが出やすいです。
運用でつまずきやすいのは、スキーマ変更やファイル配置が雑になると、読み取り互換性と性能が崩れやすい点です。小さなファイルが大量に増えるとメタデータ処理が重くなるため、ファイルサイズや行グループの設計を最初に決めておくと安定します。圧縮方式やエンコード、日時やNULLの扱いはエンジン差で結果が揺れることがあるので、データ定義と変更管理をセットで整えるのが安全でしょう。

