1. TOP>
  2. AI・人工知能
  3. Xtra株式会社、フリットジャパンと提携しアジア最大級のコーパスデータプラットフォームを提供

Xtra株式会社、フリットジャパンと提携しアジア最大級のコーパスデータプラットフォームを提供

  • feedy

クラウドソーシング領域で事業を展開するXtra株式会社(本社:東京都千代田区、代表取締役:山田尚貴、以下Xtra)は、言語データプラットフォーム事業を展開するフリットジャパン株式会社(本社:東京都千代田区、代表取締役:冨山亮太、以下フリットジャパン)と業務提携し、アジア言語を中心とした 多言語コーパス(※1)の作成及び機械学習の教師データ提供における協力体制を構築すると発表した。

本取り組みの背景

2018年度の国内AIビジネス市場全体の規模は5301億円(※2)。実証実験を中心に、金融業や製造業などで本格的な導入が進んでいる。今後はさまざまな業種でAIの導入が進み、2030年度の国内AIビジネス市場の規模は2兆1286億円に拡大すると予想されている。 2017年には、世界の機械翻訳市場の規模は約450億円に達すると推定されていた(※3)。市場はコンテンツのローカライズに対する需要の高まりによって急成長を遂げている。世界の音声および音声認識市場規模は2017年に912億ドルと予測されている。2025年までに約17.2%の数値で拡大する見込みである。その背景には、セキュリティ目的で使用される音声起動生体認証や音声駆動のナビゲーションシステムとワークステーションに対する需要の増加が挙げられる。運転中の携帯電話の使用を規制する「ハンズフリー規制」を開始する国がいくつかあるため、音声対応の車載インフォテインメントシステムの統合が世界中で人気を集めている。

高品質なアルゴリズムは高品質なデータからのみ生まれる(※4)。しかし、多くのAI開発企業が高品質で偏りの無いデータを大量に収集して整理するのを困難だという結果が出ている。日経xTECHと日本経済新聞が実施したAIの活用状況に関する独自調査によると、「AIの学習に必要なデータの収集・加工」が課題だと回答した企業は全体の76.1%、また「データが十分に揃っていない」などの課題感を持っている企業は全体の56.0%となっている。

このような背景から、各国のグローバル化とコミュニケーションの新たな可能性を支えるAI技術に必要な言語データ(コーパスデータ)を協力して収集、加工、AIのアルゴリズム開発に役立てる事ができるよう、フリットジャパンが保有する言語データ、グローバルリソースとXtraが保有する日本語データ、国内及びグローバルリソースを共有し提供し合う事となった。

(※1) コーパス(英: corpus)は、言語学において、自然言語処理の研究に用いるため、自然言語の文章を構造化し大規模に集積したもの。構造化し、言語的な情報(品詞、統語構造など)を付与している。
(※2) 富士キメラ総研 調べ
(※3) Grand View Research, Inc. 調べ
(※4) 2018年9月30日 日本経済新聞「AI、データ不足6割 「動かない頭脳」続出の恐れ」より

本取り組みの内容

国内AI開発事業者は、フリットジャパンまたはXtraに依頼をする事で現在フリットジャパンが保有している日本語、韓国語、中国語、台湾語などをアジアを中心とした約2億行超えのコーパスデータとXtraのコーパスを含む機械学習用データにアクセスする事ができる。各国の言語に対してAI事業者が求めるフォーマットにアノテーションをして提供します。アノテーションはXtraが提供するクラウドソーシングサービス「Conyac ( https://conyac.cc/ )」に登録されている約10万人のフリーランサーと、Flittoに登録されている約300万人のクラウドソーサーを中心として行われる。両者の保有するコーパスデータとアノテーションリソースを共有。

本提携を通し、AI開発環境におけるコーパスデータ不足を解決。
チャットボット、音声認識システム、自然言語処理、機械翻訳等のAI開発環境に必要となるコーパスデータ不足が解消される事で、開発市場の活性化、国内AI開発企業のグローバル競争力を高める事が期待されると言う。