Hadoopは、大量データを複数台のサーバーで分散して保存・処理するためのオープンソース基盤です。代表的な構成要素として、分散ファイルシステムのHDFSや、分散処理を支えるYARNなどがあり、安価なマシンを並べてスケールさせる発想で広まりました。ログ分析やバッチ処理のように、一定量のデータをまとめて扱う用途で採用されることが多いです。
実務では、クラスタ運用が前提になるため、リソース管理、障害対応、セキュリティ設定の難易度が上がりやすい点に注意が必要でしょう。データの置き場が増えると「どのデータが正か」「誰が更新できるか」が曖昧になりやすいので、権限設計や監査ログ、変更管理を早めに整えると混乱が減ります。
近年はクラウドDWHやデータレイクサービスへ移行するケースも増えていますが、Hadoopで培った分散処理やデータ基盤運用の考え方は、今でも土台として役立つ場面があります。

