これまで見てきたとおり、「名前」については物理現実の名前とはちがう「仮名」を名乗って活動するユーザーが地域に関わらず8割を超えていました。また「アバターの性別」について、物理男性の場合、異なる性別である女性アバターを選んでいるユーザーが8割近くを占めていました。「アバターの種族」についても、自身の個性をより強く示すために、通常の「人間」ではなくファンタジー要素のある「亜人間」が最も多く選ばれていました。メタバースにおいて、これほどまでに物理現実と違う「なりたい自分」への欲求が強いにも関わらず、なぜ最後の「声」についてだけは、ほとんどの人が物理現実そのままの肉声で喋っているのでしょうか。ましてや、特に性別に関しては、声は男性と女性で全く違うものであるはずです。

その理由は、やはり現時点で音声加工の技術が未発達であり、誰でも簡単に自由自在に理想の声を出して喋れるようになっていないことが大きな理由です。これから音声加工の具体的な技術について紹介しますが、現時点ではどれも難易度が高く一筋縄ではいかないため、挑戦したが諦めてしまい、結局仕方なく肉声で喋っているという声もよく聞かれます。

したがって、現在のソーシャルVRでは「女性アバターから男性の声が出る」ようなパターンが非常に多く、それもだんだんと当たり前のこととして受け入れられるようになってきています。

さて、肉声で喋っていない残りのユーザーは、一体どのようにしてソーシャルVRで音声コミュニケーションを行っているのでしょうか。VRChatを例にとると、内訳は以下のようになります。

〈加工音声(声コスプレ)〉(16%)

  1. ① ボイスチェンジャー(9%):機械による音声加工技術をつかって変換した声で音声会話をしている人たち。俗に「ボイチェン勢」とも呼ぶ。
  2. ② 発声技術(5%):ボイストレーニングにより習得した発声技術を使って普段とは違う声で音声会話をしている人たち。中でも、男女の声を自在に出し分けられるレベルに到達した人のことを、畏怖を込めて俗に「両声類」と呼ぶ。
  3. ③ 音声読み上げソフト(2%):音声読み上げソフトを使って音声会話をしている人たち。

〈加工音声以外〉(9%)

  1. ④ 無言勢(8%):音声を使わず身振り手振りでコミュニケーションをしている人たち。
  2. ⑤ その他(1%):詳細不明。

「ボイスチェンジャー」「発声技術」「音声読み上げソフト」など、何らかの加工音声を使用している方が合計で16%いることがわかりました。さまざまな技術を駆使して、物理現実の肉声とは違う声を作り出してリアルタイムに喋ることを成功させた人たちです。私はこの概念を「声コスプレ」と呼んでいます。

これらの方と喋っていても、基本的に相手の物理性別は全くわかりません。また、レベルが高い方については、男性や女性がそのままの肉声で喋っているようにしか聞こえません。全体の数で言うと多くはないものの、これらの方の存在によって「今喋っている相手が物理男性なのか物理女性なのか」わからない、そもそも意識しなくなっていく、という物理現実の常識から考えると不思議な現象がメタバースに生まれています。

このうち「ボイスチェンジャー」と「発声技術」については後述して詳しく解説します。「音声読み上げソフト」は簡単に言えば初音ミクの「会話版」のようなもので、音声認識やキーボードで入力したテキストを、声優さんの声で読み上げてくれるソフトウェアです。とても綺麗な声で喋れる反面、感情の籠もらない平坦な声になってしまうことと、変換に時間がかかるためハイテンポな会話ができないのが難点です。

どの手法もやはり現時点では難易度が高かったり欠点があるため、全体の割合としてはまだ少数派ではあるものの、いずれ誰でも簡単に自由自在に理想の声を出して喋ることができる技術が確立されると、メタバースでは加工音声で喋ることが当たり前になるでしょう。