AIで生成されたコンテンツの識別

2024年11月24日

生成AIはコンテンツの作成に役立ち、ヒューマンテキストの品質を向上させる。ただし、フェイクニュース、画像の流通、さらなるサイバー攻撃やデータ漏洩など、いくつかのリスクももたらす可能性がある。AIモデルはますます複雑になり、人間が書いたコンテンツとAIが書いたコンテンツを区別することは困難になってきているが、AI生成コンテンツを識別するヒントとして、CopyleaksやGPTZeroといったAI検出ツールの利用がある。AI検出ツールは、人間が書いたコンテンツとAIが書いたコンテンツを区別するのに役立ち、盗作されたコンテンツ、AIにより生成されたコンテンツなどを即座に検出できる。AI検出ツールを使わなくても、AIコンテンツに多い次のような傾向に注意することも重要である。

・書き方の統一性、完全性
AIにより生成されたコンテンツは通常、人間が作成したテキストと異なり、一定のパターンに従っているか、反復的に同じフレーズが使用されている。例として、イノベーションリーダーシップの利点に対するChatGPT作成のコンテンツでは、イノベーションリーダーという言葉が何度も繰り返される。また、文章にタイプミスや文法上の誤りがまったく見つからない場合、それはAIにより生成されたものである可能性がある。さらに、AIにより生成されたコンテンツには、専門用語が多く含まれる場合もある。

・引用文献の確認
AIにより生成されたコンテンツ、特に研究論文や学術論文を識別する方法の1つとして、引用を確認することがある。これは、AIツールが間違った引用やランダムな引用を提供することによる。

・コンテキストの欠如
人間のライターは、目的、対象読者、望ましいトーンに焦点を当てて、関連性の高いコンテンツを作成するのに対し、AIコンテンツは一般的なものが多く、特定の視聴者に焦点を当てていない。また、AIは通常、オンライン情報を収集し、それを言い換えて一貫性のある予測可能な文章を形成するのに対し、人間の文章は読者を引き付けるためにさまざまなスタイル、トーン、表現で構成されている。

このように、生成AIは人間の感情を欠いた作り話や引用を共有したりすることが多く、さらに、学術的な観点から見ると、AIにより生成されたコンテンツは人間が作成したコンテンツよりも複雑ではない。また一つの傾向として、AIは段落あたりの行数を減らし、より短い文章を書く傾向があるという。他にも、人間は疑問符、コロン、セミコロンなどの句読点を頻繁に使用するが、AIにより生成されたコンテンツはほとんどが一重引用符で構成されている。

ちなみにGoogleは、AIにより生成されたコンテンツを容易に検出でき、そのコンテンツにスパムフラグを付けることができる。Googleのスパムポリシーでは、AIを含む自動化を使用して検索結果を操作することを禁止しており、キーワードが詰め込まれている、繰り返しが多い、人間が作成したコンテンツのような深みやニュアンスが欠けているAIコンテンツを検出できるようになっている。

AI生成コンテンツの識別はますます重要になっている。適切なツールと知識を活用することで、AIと人間のコンテンツを効果的に区別し、信頼性の高い情報を活用するリテラシーが、一人一人に求められる。今後、AI技術の進化と共に、我々の識別能力も向上させていくことが必要となるだろう。