「ゴミを食べ、ゴミを吐く」、ベゾスも出資するAI検索エンジンの品質問題

01/07/2024

人工知能（AI）検索エンジンのPerplexity AI（パープレキシティAI）は、自社のサービスがChatGPTのような生成AIツールとは異なると主張している。サンフランシスコを拠点とする同社は、ユーザーが質問を入力すると、独自のAIモデルを用いてインターネット上の最新情報に基づく回答を生成する。また、回答にはその引用元を添える点が特徴だ

パープレキシティのCEOを務めるアラヴィンド・スリニヴァスは、「引用は私たちの信頼の源です」と、4月に行われたフォーブスによる取材の中で語る。

OpenAIの研究者だったスリニヴァスが2022年に設立したパープレキシティは、これまで1億7000万ドル（約270億円）以上を調達しており、ソフトバンクグループは、同社との戦略的提携を発表したのに続いて、ソフトバンク・ビジョン・ファンド2を通じて30億ドル（約4820億円）の評価額で出資を検討中と報じられている。

パープレキシティの投資家には、ジェフ・ベゾスやYouTubeの元CEOであるスーザン・ウォジスキ、OpenAIの共同創設者のアンドレイ・カルパシー、メタのチーフサイエンティストであるヤン・ルカンなどが含まれる。同社の会話型検索エンジンは、急速に支持を集め、エヌビディアのジェンスン・フアンCEOや、デル創業者兼CEOのマイケル・デルなど約1500万人のユーザーを抱えている。

しかし、同社がジャーナリストが書いた記事を盗用したとして非難される中、AIが生成した不正確な内容のブログを「信頼できる情報源」として引用していることをフォーブスは発見した。

AIを使用したコンテンツを検出するGPTZeroが実施した研究によれば、パープレキシティの検索エンジンは旅行やスポーツ、食べ物、技術、政治など、多岐にわたるトピックに関するAIが生成したブログ記事を引用している。この研究は、97％の精度でAIの使用を検出するGPTZeroのソフトウェアを使用して行われた（フォーブスは、99％の精度を持つ別の検出ソフトのDetectGPTを使用してその評価を確認した）。

GPTZeroの研究で、パープレキシティのユーザーは平均3回のプロンプト（命令文）の入力でAIが生成した情報源に遭遇することが判明した。「彼らのサービスの質は、その引用元の質に依存している。情報源がAIのハルシネーションによって生み出されたものであるなら、その出力も同様だ」とGPTZeroのエドワード・ティアンCEOは語る。

「矛盾する情報」を提供

パープレキシティの最高ビジネス責任者（CBO）のドミトリー・シェヴェレンコは、フォーブスへのEメールの声明で、同社のシステムが「完璧なものではない」と述べ、関連性の高い高品質な情報源を特定するプロセスを洗練させることで検索エンジンを継続的に改善していると述べた。パープレキシティは「信頼スコア」を使用して情報源を分類し、スパムが大量に含まれるウェブサイトを排除しているという。

一方、複数のシナリオで、パープレキシティは、AI生成のブログの投稿を引用してヘルスケア関連の情報を提供している。例えば、「細菌への感染を治療するためのペニシリンの代替品」に関する情報を求めた場合に、この検索サービスは、Penn Medicine Becker ENT & Allergyと呼ばれる医療クリニックが運営するAI生成のブログを直接引用した。

このようなデータソースは信頼性に欠け、時には矛盾する情報を含んでいる。同クリニックのAI生成のブログは、ペニシリンアレルギーを持つ人は、セファロスポリンのような抗生物質を代替品として「使用できる」と述べながら、そのまた別の段落では、ペニシリンアレルギーを持つ人は、セファロスポリンを「避けるべきだ」と矛盾する記述をしていた。

ニュース記事の「盗用」

パープレキシティはまた、信頼できる情報源の取り扱いにも問題を抱えている。このスタートアップは最近、フォーブスやCNBC、ブルームバーグなどの複数のニュースサイトの記事からの盗用疑惑で注目を集めている。フォーブスは今月初め、エリック・シュミットの極秘のAIドローンプロジェクトに関する独占スクープ記事の重要な部分が、パープレキシティによって適切な帰属なしに再利用されたことを発見した。

フォーブスは、同社の著作権侵害を非難する停止通告書を送付した。これに対し、パープレキシティCEOのスリニヴァスは、「事実は盗用され得ない」と主張し、同社がフォーブスのコンテンツの再配布や再出版などの不適切な行為をしていないと述べている。

また、ニュースサイトWiredの記事によると、パープレキシティは秘密のIPアドレスを通じてWiredやメディア企業コンデナストが所有する他のサイトにアクセスし、スクレイピングを行っていた。これらのサイトは、パープレキシティのウェブクローラーがコンテンツを盗むのを防ごうとしていたが、それを突破されたという。

スリニヴァスは、Wiredの記事の件について直接反応していないが、「彼らの疑問は、当社のサービスとインターネットの仕組みに関する基本的な誤解を反映している」と述べている。

シェヴェレンコは、パブリッシャーが健全な情報エコシステムを作り出すために果たす重要な役割を認識しており、同社の製品がそれに依存していると語った。パープレキシティは、初の収益共有プログラムを立ち上げて、パブリッシャーに限定的な形で報酬を提供する予定という。同社は、広告レイヤーを追加して、AIが生成した回答に対して同社が収益を得た場合、その回答で引用された情報源のパブリッシャーが収益の一部を受け取れるようにするという。パープレキシティは、The Atlanticなどのパブリッシャーとパートナーシップの可能性について話し合っているとシェヴェレンコは語った。

低品質な情報源への依存

パープレキシティは、RAG (Retrieval-Augmented Generation)と呼ばれるプロセスを通じて、AIシステムが外部のデータソースからのリアルタイム情報を取得し、チャットボットの回答を改善する。しかし、これらのソースの品質が低下すると、AIの回答の質も低下する可能性があると専門家は指摘している。

ケンブリッジ大学で機械学習について研究するザック・シュマイロフは、情報源自体がバイアスや不正確さを含んでいる場合、そのデータを基に構築されたアプリケーションは最終的に「モデル崩壊」という現象を起こす可能性があると説明した。AIが生成したデータで訓練されたAIモデルは「ナンセンスを吐き出し始める」と彼は述べている。

また、低品質なウェブ情報源への依存は、他の多くのAI企業にとっても広範な課題となっている。グーグル検索のAIを用いた要約機能は5月に、ピザにチーズを貼り付けるために接着剤を追加することを提案したり、「石を食べることが健康に良い」と主張したりしたが、これは、掲示板Reddit（レディット）のフォーラムやThe Onion（ジ・オニオン）のような風刺サイトの情報源を引用したためだと見られている。

グーグル検索の責任者であるリズ・リードは、特定のトピックに関する質の高い情報が不足しているために、一部の誤った結果が表示されたとブログで認めていた。

「パープレキシティの問題はその一例に過ぎない。それは病気の症状であり、全体の問題ではない」とGPTZeroのティアンは述べている。

（forbes.com 原文）

OTHER NEWS

42 minutes ago