Latencyは、処理を依頼してから結果が返るまでにかかる遅延時間のことです。ネットワーク通信、ストレージI/O、計算処理、キュー待ちなど複数の要因が積み重なり、体感の遅さやリアルタイム性の限界として表れます。
実務では平均値だけでなくp95やp99のような「遅い側の割合」を見ないと、たまに起きる詰まりを見逃しやすいです。データ基盤でも、取り込み遅延(発生から到着まで)とクエリ遅延(実行から応答まで)を分けて測り、SLOやアラート条件を定義しておくと原因切り分けが進みます。遅延を下げるほどコストや整合性のトレードオフが強くなります。許容遅延を決めてバッファ設計、並列度、キャッシュ、リトライ方針まで含めて最適化するのが現実的です。

