2024.05.09

オルツ、LLMハルシネーションの自動評価エンジンを開発

AIクローン技術でパーソナルAIの開発・実用化を行う株式会社オルツは、2024年5月9日に、大規模言語モデル（LLM）におけるハルシネーションをスコアリングする手法の開発に成功したことを発表しました。

ハルシネーション問題とその解決の必要性

「ハルシネーション」とは、LLMが事実に基づかない虚偽の回答をしてしまう現象で、企業や個人にとって深刻な信頼問題を引き起こす可能性があり、LLMの応用にも大きな障壁となっています。オルツでは、独自の大規模言語モデルの開発経験を活かし、ハルシネーション問題を解決する研究開発を続けてきました。

ハルシネーション自動評価エンジンの開発と性能

オルツは、ハルシネーションが発生するか否かを判定し、その発生確率（ハルシネーション・スコア）を自動的に評価できる「ハルシネーション自動評価エンジン」を独自に開発しました。本エンジンは、JcommonsenseQAデータセットから作成した擬似評価セットにおいて72％の正解率でハルシネーションの判定を実現し、LHTM-OPT、GPT-3.5、Llama2など、様々なLLMのハルシネーションのスコアリングが可能です。また、同じ入力データに基づく複数の生成プロセスの結果を比較し、一貫性を重視してハルシネーションの評価を行います。本エンジンは、オルツの「alt developer」のAPIサービスを通じて提供を開始しました。

株式会社オルツは、LLMにおけるハルシネーションをスコアリングする手法の開発に成功し、「ハルシネーション自動評価エンジン」を開発したことを発表しました。ハルシネーションは、LLMが事実に基づかない虚偽の回答をしてしまう現象で、企業や個人にとって深刻な信頼問題を引き起こす可能性があります。オルツの開発したエンジンは、様々なLLMのハルシネーションのスコアリングが可能で、同じ入力データに基づく複数の生成プロセスの結果を比較し、一貫性を重視して評価を行います。本エンジンは、オルツの「alt developer」のAPIサービスを通じて提供を開始しました。