Vocaloid に「ぼかりす」があるのなら、UTAU にも「うたりす」が欲しいよね。
というわけで、ぼかりすの足元にも及びませんが、WAVE トレース方式の自動調声プラグインを作ってみました。自分の歌声を録音した WAVE を指定することで、自分の歌唱ニュアンスを UTAU データに反映することが出来ます。
自動調声のアプローチの仕方には何種類かあるかと思いますが、ぼかりすを利用した作例を見る限り、WAVE トレース方式も 1 つの方法として有効かと思います(私自身はぼかりすを使ったことはありませんが)。
みなさんからのフィードバックを参考に、今後の開発を進めていきたいと考えておりますので、ご協力宜しくお願いします。→アンケート章参照
ダウンロードしたアーカイブ(zip ファイル)を UTAU のウィンドウにドラッグ&ドロップすると、うたりすがインストールされます。
うたりすを使う際は、
うたりすが対応している WAVE ファイル形式は以下のようになっていますので、歌唱を録音する際は、以下の設定にして下さい。
サンプリング周波数 | 44.1kHz |
---|---|
チャンネル数 | モノラル(推奨)/ステレオ |
量子化ビット数 | 16 ビット(推奨)/8 ビット |
フォーマット | リニア PCM |
UTAU 上で、自動調声を適用したい音符を選択してから、うたりすプラグインを起動します。うたりす画面上で設定を終えたら、スタートボタンをクリックして下さい。自動調声結果が UTAU データに反映されます。
うたりすの画面を上から順に説明していきます。
UTAU で選択した音符に入力されている歌詞を表示していますので、確認して下さい。
先ほど録音した WAVE ファイルのファイル名をフルパスで入力します。WAVE ファイルをドラッグ&ドロップすると簡単です。
オフセットを入れると、WAVE ファイルの先頭を削る(使わない)ことが出来ます。単位はミリ秒です。例えば、録音の際、録音ボタンを押してから 2 秒間歌わない状態があったのなら、オフセットに「2000」を指定します。録音後に無音部分を削っておいた場合は、「0」にします。
あまり無いとは思いますが、オフセットにマイナス値を入れることもできます。マイナス値を入れた場合は、先頭に空白を付加します。
「試聴」ボタンをクリックすると、オフセットでの削られ具合を確認することが出来ます。
自分の歌唱の音程がどの範囲にあるのかを指定します。音程の表記方法は UTAU と同じで、例えば中央のドであれば C4、半音上がると C#4 というような表記になります。半角で入力して下さい。
この範囲が狭いほど、ピッチ推定の精度が高まりますので、なるべく範囲を狭めて入力して下さい。
通常は、UTAU データと同じはずですので、UTAU データが A3〜D5 の間の音符で構成されているのであれば、A3〜D5 と入力します。ピッチの揺れを考慮して、G3〜E5 というように、1 音くらい広めておく方が無難かもしれません。また、男性は 1 オクターブ低く、女性は 1 オクターブ高く歌っている可能性がありますので、注意して下さい。UTAU データより 1 オクターブ低く歌っていれば、G2〜E4 と入力する必要があります。
なお、この「音程の範囲」は、次の「移調」の値に関係なく、「自分の歌唱そのもの」の音程で指定して下さい。
解析した音程・ピッチを UTAU データに変換する際、移調することが出来ます。移調量は半音単位で、プラスなら上に、マイナスなら下に移調します。通常は 0 にしておけば大丈夫です。
UTAU データよりも 1 オクターブ「低く」歌った場合は、そのままだと 1 オクターブ「低い」UTAU データができあがってしまいます。この場合は、移調を「12」と指定し、1 オクターブ「持ち上げて」やることで、正しい UTAU データになります。
フェードの保護が無効の場合、うたりすはエンベロープを設定する際に、既存のエンベロープ設定を破棄して新しい値で設定します。音符にオーバーラップが設定されている場合、オーバーラップでクロスフェードするようにします。
フェードの保護を有効にすると、うたりすは、既にクロスフェードが設定されている箇所については x 座標を変更しません(y 座標は変更します)。
コツというか、うたりす紹介動画で私が実践した方法をご紹介します。もっと良い方法があれば教えていただければと思います。
音源は連続音が良いでしょう。原音設定がしっかりしていて、エイリアスが豊富な物を選ぶと楽です。エイリアスとして先頭音符用の「- ○」や、んの後続用の「n ○」が用意されている音源が良いです。先頭音符用の連続音が無かったりして、単独音と連続音を混ぜると、発音が食い込んでしまいます。
うたりす紹介動画で台詞をしゃべってもらった、ぱみゅと天音ルナは使いやすいと思います。ちなみにうたりす紹介動画では、天音ルナは g-10 にしてあります。
テンポは 480 に設定します。念のため、1 小節分休符を入れておきます。
後はひたすら、HANA したい台詞をベタ打ちで入力していきます。すべて C4 の 4 分音符で入力します。つまり、1 音符当たり 125 ミリ秒です。Lyric 欄にひらがなを入力してピンクのアイコンをクリックすれば、C4 の 4 分音符で入るはずです。
読点(、)の所は、休符を 2 つ入れると良いでしょう。促音(っ)は休符 1 つです。
句点(。)ごとに歌唱 WAVE を変えるので、UTAU 上は、句点のところの休符の長さは適当で大丈夫です。私はむしろ、句点ごとに UTAU データファイルを新しくしています。
最後に、休符を入れておきます。末尾の休符がないと、UTAU の WAVE 生成時に、余韻がちょん切れてしまうことがあります。
例)早速、結果を確認してみましょう。
→R、R、R、R、- さ、R、- そ、o く、R、R、- け、R、- か、a お、o か、a く、u に、i ん、n し、i て、e み、i ま、a しょ、o う、R
歌唱というよりは台詞ですが。
UTAU で音符を再生し、そのスピードに合わせて台詞をしゃべり、録音します。F5 で一度レンダリングしてから、Shift+F5 で再生と同時にしゃべる方がタイミングをとりやすいでしょう。
オフセットの指定がポイントです。台詞部分の開始ギリギリよりも、少し長めにオフセットを取る(試聴した時にやや途中から始まるくらい)方が結果が良好になる場合があります。
最初は開始ギリギリにオフセットを指定して一度うたりすを実行してみましょう。UTAU で再生して結果を確認するのですが、その際、先頭よりも、中間部分のタイミングを見る方がやりやすいと思います。中間部分でピッチが山なりになる部分があれば、そこのタイミングが合うようにすると、やりやすいと思います。
フェードの保護は無効にしておいて下さい。
手軽に HANASU させる全く別のアプローチとして、唄詠(うたよみ)を開発しました。
唄詠は UTAU プラグインではありません。
棒読みちゃんなどのテキストスピーチソフトの声に UTAU 音源を追加するためのツールです。テキストスピーチソフトに文章を入れるだけで HANA せるようになるため、言ってみれば自動 HANASU ツールのようなものです。
HANASU をやる場合は唄詠もお試し下さい。
うたりすのサポートページをご覧ください。
うたりすを使った動画をニコニコ動画に投稿したら、
Amazon でお買い物をする際は、こちらのリンクにあるサーチボックスから商品を検索して頂きますと、収益の一部がカンパとして還元されます。
頂いたカンパは、うたりすなどを開発するための資金に充当させて頂きます。
種類別 | フリーソフトウェア |
---|---|
名称 | UTAU プラグイン |
ソフトウェア名 | うたりす |
ダウンロード | http://www2u.biglobe.ne.jp/~shinta/soft/UTALis_JPN.html#Download |
作者 | SHINTA |
作者 E メール | |
製品番号 | SHWI-023-A |
うたりすには以下のライセンスが適用されます。
うたりすの改訂履歴は以下をご覧ください。
うたりすは多くの方々のご支援に後押しされて、ここまで来ることが出来ました。ありがとうございます。
テト聖誕祭&誕生日イベントはすごかったですね。ピアプロ公認という企業をも動かす勢いと、24 時間連続生放送という持久力。コミュニティーの底力を垣間見た気がします。何気なく見聞きしていた CGM という単語の、真の姿を肌で感じることができました。この驚きの気持ちを、大切にしていきたいと思います。
うたりす紹介動画を作っていたら、生放送の最初の方を見逃してしまったのが心残りですが……。
事務局のみなさん、素敵な企画を本当にありがとうございました。そして視聴者のみなさんも、お疲れ様でした。
そんな聖誕祭を見ながらうたりす紹介動画を作っていたわけですが、動画制作は買ったばかりの編集ソフト「Vegas Movie Studio Platinum 9.0」で行いました。Windows Movie Maker は簡単でいいのですが、音声を重ねられないので、BGM&ナレーションとか無理なんですよね。VMS も 4 トラックまでという制限はありますが、音声や画像を重ねられて便利です。
フェード、分割などの操作もスムーズですし、Premiere Elements と比べると驚くほど動作が軽いのも Good。しかし、VMS も PE も、WMM で簡単にできる操作がやりづらいのは何故なんだぜ? うたりす紹介動画 Vol.1 で使った、WMM 標準の「フェードとスローズーム」が見あたりません。
さて、今回のうたりす紹介動画、最後に 3 人(ぱみゅ、ルナ、ヨワ)で「ご視聴ありがとうございました」と HANA しますが、実は 3 人のピッチは同じではなく、3 人とも別々のピッチにしています。UTAU で複数音源を重ねる場合、同じピッチ(というか音程)で重ねることが多いと思いますが、そうするとどうしても平坦な感じになってしまいます。うたりすであれば、3 回 WAVE 録音すれば、同じ話し方/歌い方でも微妙にニュアンスの異なる重ね合わせができるので、本当の合唱みたいになり、こういう用途では役に立つのかな、と思います。
今回は歌唱が 2 ヶ所でてきます。のぼり棒に引き続き、2 曲目を乱数 P の最新曲(万華鏡のやつ)にしようかと思いましたが、自重しておきました。乱数 P の曲は名曲揃いなんですけどね! 中でも、「それが私の一日」は好きなので、いつか UTAU カバーを作りたいと思っています。
そんな乱数 P を抑え、2 曲目に登場したのは、シグナル P(Dios)のひまわりです。ヒット曲連発のシグナル P としては珍しく再生数の伸びない曲ですが、シンプルな元気さが好きです。こんな曲を中学時代に作ってしまうのですから、さすがです。ちなみに CD 買いました。
うたりすも前回よりだいぶ進化しましたが、大変なのはこれからですね。地道に作り込んでいかないといけません。技術面はもちろんなのですが、どうすれば使いやすくなるのか? というところで、着地点はまだ見えていません。そういうところも含めて、みなさんと一緒に作っていきたいと思いますので、ご意見・アイディア・活用できそうな事例等、お寄せ下さい。
今後のうたりす開発の参考にさせていただきたく、アンケートにご協力いただければ幸いです。
比較的長め(処理時間ではなく WAVE の長さが 10 秒以上)の WAVE ファイルでうたりすを実行した後、生成されたログファイルを E メールでお送り下さい。
ログファイルは、うたりすと同じフォルダに、UTALis.log というファイル名で保存されています。
もしくは、再度うたりすを起動し、「前回のログ」ボタンをクリックするとログの内容が表示されるので、全て選択→メールに貼り付けでお送り頂いても構いません。
ログには、主に以下のような内容が記録されています。
以下の質問のうち、回答できるものについて、うたりす紹介動画(URL はデータベースに記載)のコメントや E メールなどで教えて下さい。
うたりすがきちんと動作したかどうかを、次の項目と共に教えて下さい。
現在グレーアウトしている「ソプラノ」等の音域ショートカットで設定する音域の参考にしたいと思いますので、