ネット上でVOCALOIDの歌声を自動調整する「Netぼかりす」, きょうのつぶやき
ネット上でVOCALOIDの歌声を自動調整する「Netぼかりす」
「初音ミク」をはじめとする VOCALOID の各種パラメータを自動的に調整1してくれる、産総研の開発した「VocaListener」という技術を用いた新サービスです。
少し前に「VocaListener (長いので以下ぼかりす)」が学会で発表になったときにも少し話題になり、今後どういう形で世に出てくるのかと注目していたんですが…個人的には少しがっかりでした。
がっかりした理由は一つで、今回のサービスが、調整されるパラメータの元ネタとして、人間が歌った音声データを要求している点でした。このことはつまり、アップロードした人間が歌った音声ファイルと近い歌い回し、抑揚に、VOCALOID のパラメータを調整してくれるに過ぎないサービスであろうことを意味します。それじゃ、ボイスチェンジャーといったい何が違うのでしょう?僕には、同じこと達成するためのアプローチが異なるだけなように見えます。しかし、ぼかりすの目標はそんなところにあったんでしょうか。
僕が勝手に期待していたのは、ぼかりすが、今の初音ミクなどがまだ持っていない、「人間らしい歌い回しの基礎」のような情報を、VOCALOID に追加してくれるようなものなんじゃないか、ってことでした。VOCALOID は素敵な技術ですけれど、まだまだ足りない部分は多くて、その一つがそういう、人間なら当たり前の「歌い回し」のような部分だと思っていました。言ってみれば初期の電子ピアノで、弦の鳴りは再現したけれどまだボディのうねりやらハンマーの音やら高音低音の弦の太さの違いまでは表現できていなかった時代のように2。
ぼかりすの技術を突き詰めていくと、「人間らしい歌い回しの本質」のようなものが抽出できて、それをデータベース化して将来の VOCALOID へ組み込めるんじゃないか、と思っていたんですね。
まぁいろいろと実装上の都合があったであろうことは予想できるんですよね。たとえば、そうやって「人間らしい歌い回しの基礎」情報を VOCALOID が獲得してとりあえず何もせずとも今より自然に歌えるようになったとしても、今度はより高度なレベル、歌詞の内容やらリズム、フレーズ、はたまた歌われるシチュエーションによって歌い方を変えねばならず(人間の歌手なら当たり前にやっていることですが)、結局調整作業はちっとも楽にならないことも考えられる。だったら最初から、そういったすべての要素が詰まった人間の歌をまねさせてしまえばいいじゃないか、とか。
でも、僕は VOCALOID はあくまでも楽器であるべきだと思うんですよ。人の声をまねるだけじゃ、言ってみればピアノソナタの CD を BOSE で聴くか KEF で聴くか、という違いに過ぎなくなってしまう。僕はむしろ、スタインウェイで弾くかベヒシュタインで弾くか、という違いであってほしいと思うのです。
きょうのつぶやき
僕のマスクは花粉症です。はーっくしょん! (11:46 [twitux](http://sourceforge.net/projects/twitux" rel=“nofollow)から)
ぼかりすは人が歌ったデータを元にしている点が萌えない。それじゃある意味、単なるボイスチェンジャーじゃないか。 (13:14 [twitux](http://sourceforge.net/projects/twitux" rel=“nofollow)から)
もっと artificial にやってほしいよ。 (13:15 [twitux](http://sourceforge.net/projects/twitux" rel=“nofollow)から)
声が綺麗な人から音素データ取って、歌い回しのうまい人から歌い方データ取って、それを合成していっちょ上がり!という未来はあまり好きになれない… (13:17 [twitux](http://sourceforge.net/projects/twitux" rel=“nofollow)から)
単に綺麗な歌を聴きたいだけならそれでも良いのかもしれないけれど… (13:18 [twitux](http://sourceforge.net/projects/twitux" rel=“nofollow)から)