top of page
AIの頭の中を旅するVR体験

Journey to word2vec

スクリーンショット 2019-07-18 20.38.49.png

提案の概要

 近年大きな注目を集めるディプラーニング技術は、従来の機械学習モデルに対して、入力と出力の架け橋となる中間層を何層にも重ねたモデルを導入することにより、様々な分野で飛躍的な成果を残している。一方でモデルが複雑化し、扱うデータが膨大になったことにより、その学習過程や学習パラメータはブラックボックス化し、「なぜその結果を導き出したのか?」が見えにくい状況にある。


 自然言語処理技術を用い、日本語の論理とイマジネーションに迫る研究/制作活動を行ってきた我々は今回「言語AIの頭の中を旅するVR体験」を開発する。言葉をベクトル化する技術“word2vec”を用い、学習データが保持された中間層を人間にも知覚できる3次元に圧縮することで可視化する。この空間では言葉が意味の近接度に従って 3次元上にマッピングされている。体験者はVR装置を通じて、膨大な言葉の空間に入り込み、その内部を自由に動き回ることができる。この空間は体験者の挙動に合わせてインタラクティブに変化し、AIが学習した言語学習過程や、言語発展過程を追体験することができる。


 来るべきAI社会へ向けて、日本語という身近なモチーフを通じて、ブラックボックス化したAIの学習・思考プロセスを感覚的に理解できる体験を開発する。ゆくゆくはこのシステムを教育、エンターテイメント方面へと拡張し、AIと人間が共存する社会の構築の一助を担う。

Methods

①言語AIの構築
日本語学習データを用いて、言葉をベクトル化する技術“word2vec”で学習を行う。この技術
により意味の近似度に従って単語をプロットした高次元空間を構築することができる。実装にはPythonを用いる。

②AIの頭の中(3D空間)の可視化
word2vecで構築した高次元空間を主成分分析などによる次元圧縮を行い、人間にとって知覚可能な3次元空間に変換する。言語AIのシステム(Python)からゲーム構築システム(Unity)へ、サーバ間連携を行い、言語AIをゲーム世界に構築する。

③VR体験のシステム構築
VR空間内では、体験者が自由に探索を行うことができ、体験者の挙動に合わせて空間内が変化するインタラクティブなシステムを実現する。そのため、都度VR空間での変更をサーバ間連携により言語AIのシステムにフィードバックし、その変更をVR空間に反映するシステムの構築を行う。

④体験のオープンソース化
この体験をより多くの人に届けるために、体験とそれを構築するシステムのオープンソース化を想定している。この体験をウェブ上のVRプラットフォーム「STYLY」で公開し、世界中のどこからでもアクセスできる体験にし、そこで得られたフィードバックにより、システムを更新していく。

System

 言葉をベクトル化する技術“word2vec”を用いる。下図の空間では「正しい」と「面白い」は近い意味の言葉として学習されている。例えば「正しい」と「君」の関係性を並行移動することで、「面白い」「僕たち」といった言葉が得られる。謂わば、AIの頭の中の空間で“意味のしりとり”のようなことができる。

言語AIの中間層を3次元に圧縮したイメージ

言語空間イメージ2.jpg

 体験者の空間内での旅の軌跡に基づいて、体験の最後に詠(うた)を生成することを想定している。以下は、空間内で「正しい」と「君」という言葉を選択(空間内で捕まえたり、ぶつかったり)した場合に生成される詠の一例である。

​生成される詠(うた)の一例

スクリーンショット 2019-07-31 13.56.58.png

「正しい」と「君」の関係を空間内で並行移動することで得られる「面白い」と「僕たち」。これらの言葉の中間に位置する「今日は雨」と「男と女」。「正しい」の近傍語である「見える」と「雨」。これらの“意味のしりとり”によって導かれた単語の候補に、日本古来の詠の音韻のルール(七五調、五七調等)を掛け合わせることにより、生成する。

Movie

 現在、Methodsの「②AIの頭の中(3D空間)の可視化」の簡易的なプロトタイピングを行っている。以下は、プロトタイプ版を使用した「言語AIの頭の中を旅するVR体験」のイメージムービーである。

Profile

GengoRaw

 生命や言語をテーマに、科学的な視点を導入して表現活動を行うアーティスト/クリエイターの石橋友也と、数学を修め『AIコピーライター』等の開発を行うAIエンジニア/データサイエンティストの新倉健人が主催する「日本語を機械の視点から再解釈・再構築する」研究/制作プロジェクト。プロジェクト名の由来は言語(gengo)+生データ(raw)=GengoRaw。2018年メディア芸術クリエイター育成支援事業採択。同事業でTwitterのトレンドワードからリアルタイムに詩を生成するAI『 バズの囁き/Whispers from Buzz『(2019)を発表。

bottom of page