Voidolは人の声を入力して、AIが設定したボイスモデルの声に変換するソフトですが、
大事な物の一つに入力があり、入力が綺麗でなければ、当然の如く変換も上手くは行きません。
もし、これが上手く行けば、自分が出した声のニュアンスのまま、別の声に変換出来るという、願ってもない機能なのですが?
・声が酷く歪む
・声が酷く途切れる
という問題が有ります。
まず、ボイスモデル自体の問題もあるかも知れませんが?
未調整のミクよりも、酷い感じで、声が2重、3重に聞こえたり、何を発音しているのか全く分からないレベルです。
喋り言葉が上手く行かないのであればと、「あーーーー」の用な長音を出したとしても、1秒に数回途切れるレベルで、音声が断続する。
生成する音声と音声の間が不適切に長いって感じですよね?
たとえば、
AIが入力に対して100msごとに音声を作成していたとして、100m間隔で、音の生成と再生を行っていれば、音質はともかく、途切れること無く続くはずです。
しかし、これが100msの音声生成してって行為を120m間隔で行っているような感じがする。
そういう感じのブツブツ感なのです。
CPUパワーが足りないとか、メモリが足りないとか、そういう事で起きるらしいのですが?
Ryzen9を使っているPCで足りないのであれば、何を使っても出来ないでしょう?
それに、テストしている時は、他のアプリは使っていませんから。
遅延が大きいという事もありません。
さて、もう一つの問題が有るかもしれない入力その物です。
ヘッドセットのマイクは、良くも悪くも、いい音ではありません。
人にとっては普通に聞こえたとしても、音声を加工して聞こえやすくしていたりしますので、AIで音を判別するのに必要な部分がなくなっているかも知れません。
なので、入力デバイスその物を変更するほかありません。
また、VoidolはASIOでの入力を推奨していることもあり、なんとか用意しないとダメです。
ASIOというと、知らない人の方が多いかもしれませんが、簡単に言うと、OSの機能を使わない音声機能です。
そのため、機能は少ないですが、レイテンシが少なく、原音のまま処理出来るという利点があります。
と言うことで、買ったのはこちら
マランツのコンデンサーマイクです。
(リンク先はアマゾン)
と
M-AudioのUSB オーディオインターフェースです。
まずは、コンデンサーマイクの説明からでしょうか?
一般的なマイクは、ダイナミックマイクと言われる物です。
磁石とコイルの巻かれた板がありまして。音があると、空気の振動により板が揺れて、板に巻かれてコイルが、磁石との左様により、電気信号が流れます。
まぁ、一般的なスピーカーと同じです。
スピーカーは音を出すためにその機構を利用しますが、マイクは集音するためにその機構を利用します。
構造的にとてもシンプルであり、特別な物が必要なく、使える物になります。
で、コンデンサーマイクとは・・・・と説明出来るほどの知識は無いのですが
コンデンサを使って音を拾う物になります。
特徴としては、ダイナミックマイクよりも音が綺麗に撮れる。
指向性を持つ。
くらいでしょうか?
また、コンデンサーを使うために、電源を必要とすること、
コンデンサーの特性上、入力が小さい事が挙げられます。
また、端子にXLRが使われていることが多いですね。
結果的に、低ノイズで録音出来ることになります。
今回買ったコンデンサーマイクも、XLRの端子しか付いていません。
XLRの端子をオーディオインターフェースに繋いで、それをPCで録音することになります。
コンデンサーマイクを使うためには、電力供給が必要になりますので、
ファンタム電源機能がついている必要があります。
ファンタム電源は、電源専用の装置もありますが、コンデンサーマイクは入力が小さいので、なるべく入力に近い場所にプリアンプも必要になります。
ですから、ファンタム電源付きでプリアンプ機能も付いているミキサーかオーディオインターフェースが望ましいことになります。
あたしの環境では、SoundBlasterにASIO機能が付いているので、
・XLRを3.5mmに変換する
・ファンタム電源が供給出来る
・プリアンプ
の3つで良かったのですが?
これらを満たす物が、数万を超える高額の物しか無かったのです。
ですので、格安のオーディオインターフェースを買った方が、結果的に安くなると言う、良く分からない現象になりました。
MPM-1000 →(XLR) M-Track Duo →(USB) PCとなりました。
M-Track Duoは標準ではただのUSB音源ですが、ドライバをインストールすることでASIOとして動作させることが出来ます。
さっそく・・・・(以下略)
で、SoundBlasterに付いている標準のマイクよりは格段に綺麗に音が取れるようにはなりましたが、ゆかりねっとでの認識率がとても良くなったくらいですかね?
それ以外には、特に違いはありません。
まぁ、それはそれとして、気になり記述もあるのです。
特にPRO版に
「ご使用になる方(ナレーター)とキャラクター(ターゲット)双方の声を収録・学習し、高い精度で変換できるプロ版も用意。」
学習して、少しずつ綺麗になっていくのでしょうか??
1週間くらい話し続けてきましょうか?