アノテーションとは、画像・音声・文章などのデータに意味情報を付け、機械が扱える形に整える作業です。機械学習では、教師データを作る目的で、ラベル付けやタグ付けを人手やツールで行います。
画像なら犬・猫の分類ラベル、物体の枠(バウンディングボックス)、領域分割などが代表例です。文章では、固有表現の抽出、感情判定、要約対象の指定といった注釈を付けます。音声の書き起こしや話者分離の印付けも、アノテーションの一種と捉えられるでしょう。
アノテーションは定義がぶれると結果が揺れるため、付与ルールを文書化して共有することが重要です。複数人で付けたラベルの一致率を確認し、抜き取りチェックで品質を保ちます。個人情報を含むデータでは、匿名化や権限管理を前提にした運用が欠かせません。

