非構造化データは、表形式のように列と型が明確に定義されておらず、データの中身が自由な形式で保存されるデータです。文章(メール、議事録、報告書)、画像、音声、動画、PDFなどが代表例で、ファイルとして保管されることが多いでしょう。構造化データに比べて意味情報が豊富な一方で、そのままでは検索・集計・結合が難しい点が特徴です。
実務では、非構造化データを扱う前に、メタデータ付与やテキスト化、分割、正規化などの前処理が必要です。たとえばPDFの本文抽出やOCR、NLPによる固有表現抽出、埋め込みによる類似検索などを組み合わせると、業務で使える状態に近づきます。取り込み元が多いほど、機密情報や個人情報の混入、版管理、アクセス制御、監査ログの不足が起こりがちです。目的と利用範囲を先に定義し、保存期間と権限設計、再処理手順まで含めて運用設計することが欠かせません。

