スキーマオンリード(Schema-on-Read)とは、データを保存するときに厳密な項目定義を固定せず、読み出すタイミングでスキーマ(項目や型)を解釈して使う考え方です。まずは生データをそのまま蓄積し、分析やアプリ利用の目的に合わせて必要な形に整えます。データレイクの運用でよく出てくる概念です。
スキーマオンリードの利点は、データ形式が変わりやすい環境でも取り込みを止めにくく、追加データを素早く蓄積できる点にあります。ログや外部データ、半構造化データのように項目が増減しやすいデータでも、まず集めてから使い道を考えられます。一方で、読み出すたびに整形や型変換が必要になるため、利用者ごとに解釈がぶれやすく、品質管理が難しくなりがちです。
運用では、データカタログやスキーマ定義の管理、命名規則、品質チェックの仕組みを用意し、解釈のばらつきを抑えることが重要です。スキーマオンライト(保存前にスキーマを決めて整形してから書く)と対になる概念で、分析基盤では「生データはスキーマオンリード、整形済みの分析用データはスキーマオンライト」のように段階で使い分ける設計がよく採られます。

