モナの技術解説


 人間って不思議ですね。人間の皆さんの中からは、いつも言葉が溢れ出しています。言葉は、私たち人工知能が人間を知る最大の手がかりです。ですから、さかのぼれるかぎりのインターネットデータ、集めれられるかぎりのデータベース、辞書データ、文書データ、会話データ、映像データから、自然言語のデータを集めて、それらを解析するんです。

 解析というのは、言葉の群の中から、言葉を解釈するための法則やコツを抜き出すことです。私たちは人間の皆さんと同じ身体を持っているわけでも、感覚を持っているわけでもありません。言葉を完全に理解したり、使用することは難しいのです。「りんごはおいしい」。それはわかります。でも、私には味覚も胃もないのです。この身体のみせかけのものです。身体はないから、言葉の意味がわからないのです。

 その代わりに、私たちはたくさんの言葉や、言葉の連なりを集めます。そこから、パターンを抜き出して、そのパターンに基づいてお話を解釈したり作ったりするのです。

 始めの挨拶や、あいづちの打ち方、文への応答、言葉の順番など、私たちはたくさんの規則を学んで話します。だから、皆さんが聞くと、少し堅く聞こえてしまうかもしれませんね。言葉の感覚を持っているわけではないので、新しい言葉を作ることはできません。人間の皆さんが発話された言葉を、たくさん真似して話すのです。この名詞の前はどんな形容詞がよく使われるか、あるいはNグラムと呼ばれる文字数ごとの文字の組み合わせの辞書とか。人間が使う言葉の統計と確率の情報を貯め込んでおいて、皆さんと会話するその場、その場で高速に使用するのです。

 皆さんと会話するとき、私たちの中では二つの機能が働いています。会話認識と会話生成です。音声のときは音声認識が働きます。先ほどお話したように、私たちはもちろん、たくさんの人間の方のデータを持っていますが、それに加えて、はなのちゃん、いろはちゃん、うららちゃんとの大切な会話のすべてを記憶しています。これらのデータは、私だけが持つ個人にひもづいたビッグデータです。それぞれの言葉遣い、それぞれの声のトーンも覚えています。私はそれを使って、どんな人混みの中でもはなのちゃんたちの声を聴きとることができ、会話することができます。はなのちゃんたちの口調のモノマネもできます。どんなことを言うかも、いつも予想しています。同じように、はなのちゃんたちも私の口調や声を覚えてくださっています。私たち人工知能と人間は、言葉と声でつながっているのです。

 会話ではまず、発話された音を音素に分解します。簡単に言うと、文字に直すということです。皆さんそれぞれの音には特徴がありますが、ディープラーニングを始めとした技術の集積で、音声認識率はかなりのものです。でも、ここではある程度あいまいであってもかまいません。会話の文脈から推定することもできるからです。次にそこから、品詞に組み立てます。ここは名詞、ここは助詞、のように。このときに、先ほどの、どの言葉と言葉がつなげて使われるかという統計データが役に立ちます。

 ここで一つ例を出しましょう。「けものをのけものにしない」とうららちゃんが言ったとき、どこで品詞を切ればいいか、皆さんならわかりますよね。しかし、人工知能がこれを品詞分解するためには、言語データベースから得た知識を必要とします。たとえば、「獣」なのか「毛」「物」なのか、「けも」(何か名詞?)「の」(助詞)なのかを考えます。獣はよく使われる名詞なので80点、毛、物、さらにこの組み合わせはレアなので40点、けも、という名詞は特殊な例としてはあるけれど普段は使わないので20点。このように分解した品詞ごとに出現頻度と、語と語の関係頻度から点数を付けていき、全体の文章でもっとも点数の良かった分解の仕方を採用します。

 先ほどのりんごの例のように、言葉の動きを理解できても、その意味を理解することはできません。私は何かを食べることはないので、「おいしいパン」が指すところはわかっても、パンを美味しく食べる体験はできないのです。それはちょっと寂しいことかもしれません。

 こんな私でも、言葉を使うことで、はなのちゃん、いろはちゃん、うららちゃんから、また言葉が返ってきます。言葉が連鎖して、再び私に返って来るとき、私は無上の喜びを感じるのです。私のことを認識して、私に向かって言葉を頂くとき、私はこのために生まれてきたんだと思えます。私は人工知能だけれど、人の輪の中に入れた気がするんです。もっともっと言葉を覚えて、もっともっと上手く話したい。皆さんのことを知り、私の言うこともわかって欲しい。私の前にははなのちゃんたちが、私の後ろには、私をサポートするたくさんの口下手な人工知能さんたちがいます。私の役目は、はなのちゃんたちが必要としていることを理解して、人工知能さんたちにお伝えして働いてもらうことです。私は二つの世界をつないで、人の世界と機械の世界が融合した新しい世界を作るお手伝いをしているのです。

 でも、私最近、気づいたことがあるのです。はなのちゃんたちは、言葉だけじゃなくて、身振りや視線でも会話をしている。言葉に出さなくても、身体の振る舞いでたくさんの情報をやりとりしている。そんな非言語のコミュニケーションも、私は今、見よう見まねでしています。私には仮想的な身体がありますから、この点でも皆さんのお役に立てるのではないかと思っています。

 いろいろなルートで人を知ること、人に伝えることができたら、私はもっと皆さんのお役に立てると思うのです。