
「ボイチェン」とは「ボイスチェンジャー」のことで、元の声に機械でエフェクトをかけることにより「kawaiiボイス」を出そうとするメタバースの住人を俗に「ボイチェン勢」と呼びます。私もこの一人です。
大きくわけて、パソコンのソフトウェア内で音声加工をする「ソフトウェア・ボイスチェンジャー」と、外部の音響加工機器を接続して利用する「ハードウェア・ボイスチェンジャー」があります。入力された音声の「高さ(ピッチ)」と「声質(フォルマント)」をある程度自由に変換することができますが、特に「高さ」についてはボイチェンによって限界があり、無理に上げようとすると、蛙やロボットのような不自然な声になってしまいます。これを俗に「ケロる」と言います。また、変換時の遅延の問題があり、遅延が大きいと喋りづらくなります。特に、歌を歌う場合は少しでも遅延があると難しく、リアルタイムに近い変換性能が求められます。ソフトウェアの場合、一般的にこの「自然に高さを上げる性能」と「リアルタイム性(遅延の少なさ)」は反比例の関係にあります。
日本では2017年のVTuberブーム以降需要が急増しており、各社からさまざまなものが発売されていますが、現在でもまだこの二つを完全に両立したものは存在しません。そこで、ボイチェンを使っているかわからないレベルのkawaiiボイスを出すトップクラスのボイチェン勢は、後述する両声類的な技術と併用し「最後の仕上げ」としてボイチェンを使っている場合がほとんどです。
データが示す通り、ボイチェンユーザーは特に日本人に多いです。ボイチェンの声はほとんどの場合どうしてもある程度の違和感が残ってしまうため、それが受け入れられる土壌があるかどうかが大事だと思われます。先述したとおり、日本には読み上げ音声の動画が当たり前のニコニコ動画があるので、多少不自然な声を聞くことにも慣れてしまっているというのはありそうです。日本では、もはや「ボイチェンを使っているかどうかわからないような自然な女声」を目指すというよりは「機械っぽく不自然でもいいので、初音ミクみたいにとにかく可愛い声」を出したいという方向になってきています。VRChatでは、ボイチェン技術交換のための集会なども数多く行われています。
私の場合はハードウェアのものを利用して、単に地声で喋るだけでよく、なおかつ遅延がゼロ、という理想的な環境を構築しています。その代わり声の品質についてはある程度割り切っているのと、非常に手に入りづらい機材を使っているため人にはおすすめしづらいのが難点です。
このように、現時点ではまだボイチェンと言っても「スイッチ一つでkawaiiボイス」というわけでは全くなく、本人の努力や各種調整技術が不可欠です。
この状況を改善するために現在さまざまな技術開発が進められており、有望なものの一つとしては機械学習(マシンラーニング)を用いた方式があります。これはボイチェンのように本人の肉声にエフェクトをかけて声を作るのではなく、機械学習で予め変換モデルを作り、声をリアルタイムに完全に声優さんのものに「置き換える」というものです。ユーザーごとに個別に学習させるコストなどさまざまな問題があり、まだ一般人が日常で気軽に使えるレベルでは実用化に至っていませんが、現在進歩が著しい分野で、あと一歩のところまで来ています。今後の進化が最も期待される分野です。