リファレンスデータは、業務や分析の共通基準として参照される「参照用データ」です。分類コード、地域コード、業界コード、製品カテゴリ、休日カレンダー、為替レートの基準表などが典型で、取引データやログを解釈・集計するための軸として使われます。マスターデータと近い概念ですが、リファレンスデータは「標準の一覧表」として外部規格や全社共通ルールにひも付くケースが多いでしょう。
実務では、リファレンスデータの版管理と有効期間の扱いが重要です。たとえば郵便番号や行政区分、業界分類、税率は改定が起こるため、いつの時点の基準で集計したかを再現できないと監査や説明で困ります。データ基盤では、コード値の定義、変更履歴、廃止コードの扱い、同義コードのマッピングまで含めて管理し、下流のダッシュボードやETLが静かに壊れないようにします。
運用でつまずきやすいのは、システムごとに独自コードが増えて対応表が乱立し、同じ分類なのに数字が一致しなくなることです。リファレンスデータの「正」となるソースを決め、配布方法、更新頻度、変更通知、検証手順を標準化すると、コード揺れを抑えられます。分析や機械学習でも、リファレンスデータを特徴量生成やセグメント集計に使う場合は、参照時点とバージョンを固定し、再学習や再集計で同じ結果が出る状態を保つ必要があります。

