適当に打ち込んでみたけど、完全なベタ打ちでもそれなりに聞けるの凄いと思う#AIきりたん pic.twitter.com/SoUIz3JZqv
— 神前 暁 / こうさき さとる (本名) (@MONACA_kosaki) February 24, 2020
そこで思い出すドラえもん「メロディーお玉」
ジャイアンが歌詞を適当な感じで吹き込むと、かってにおたまじゃくし(生きている!)がうごいて、楽譜が完成する。
ところがこの話は続きがあって、ジャイアンが
「知ってるくせに!おれは楽譜が読めないんだっ!」と美空ひばりみたいなこと言い出してな。
しかしそこはドラえもん、ここであせらずあわてず、タイムふろしきを取り出だしまして、かけるとあらびっくり、おたまじゃくしがカエルになり(バカなこと考えるなあ、F先生…)、楽譜ではなくメロディが聴けるようになるのです(笑)
しかし、この漫画の展開は、今おれが思ってるのと同じでな…(笑)
「おれは楽譜をベタ打ちしろったってできん。では、俺がこうアカペラで歌った歌を、このボーカロイドが自分なりに歌い直す、そんな機能にまで進化してくれや」と、要はジャイアンの考えてることと変わらんのだ。
その時が出たら、休眠してるyoutubeを引っ張り出して、ちょっといくつかアレしてみたいものです。
初音ミク登場直後、2007年に思ったことと「答え合わせ」してみる
m-dojo.hatenadiary.com
m-dojo.hatenadiary.com
まだ「合成音声」とか言ってました(笑)
自作(サンプリング)の映像には、いまでもテロップによるナレーション、進行、解説、ツッコミは入れられるだろうが、やはり喋り言葉がほしい場面というのもある。だが、やはり喋り、声というのは不特定多数に発表するのに一種の気恥ずかしさがあるし、匿名発信にも馴染むまい。アームチェア・ドキュメンタリーが映像引用の著作権問題を抱えたり、政治的文化的な「批判」の側面を持つようになったら尚更だ。
そういうとき、この人工ナレーションが可能なソフトが一役買ってほしいものです。
で、聴いてみての率直な感想だが・・・・・・ふつうに機械で作ったと感じる音だなあ、と思いました。特に高い音の部分だと、機械っぽい感じがする。ただ、こういう不自然な感じのアイドルもいなくはなさそうだ(笑)
どこかで読んだ記憶があるんですが、現在の音声ソフトの技術的限界を、逆に「若い女性の、こういうキャラクターです」と限定することで逆に違和感をなくしたとか。
歌はそれなりのレベルで仕上がることは確認しました。
では、喋り言葉、朗読はどんな感じで出来るんでしょうか。
「単に音をつなげるだけなら簡単ですが、音程に合わせて滑らかにつなぎ合わせる技術は非常に密かしい。音符と同時に音が出る楽器と違い、声は音符より前に子音が漏れる。音声であり、楽器でもある二つの性質を追いかけないといけない」
こういったことが、だいたいクリアされてきました。
ならば、自分が最初に書いた「おれがアカペラやカラオケで適当に歌ったら、それを人工音声が歌い直してくれる」もいつかはできそうだし、おそらく今の技術でできるんじゃないかね。
フリーウェアなことは勿論すごいが
本ソフトウェアはフリーウェアです。
— SHACHI (@SHACHI_KRTN) 2020年2月21日
楽譜から発声タイミング・音の高さ・声質・声のかすれ具合などをニューラルネットワークで推定します。
上記の推定されたパラメータを元にvocoderで音声を合成します。
(続く)
以前描いたけど
イラストやデザインに関して「ものすごく安く描いてあげたり、ただで描いてあげたり、逆にそれを要求するのはその文化への敬意を欠いている!」という議論は、フリーソフトには当てはまらないのかしらん。
少なくとも、このレベルの音声ボーカロイドフリーソフトが出たら、有料のボーカロイドソフトなんて今後は出ないんじゃないだろうか。
それとも、これがいつか完全版の、有料ソフトに今後なっていくのかな?
私はパソコンをやり始めてからずっと、さまざまな「フリーソフト」の恩恵を被ってきたけど、ネットの世論が「ただのソフトを発表するなんて非常識だ」「適正な対価を妨げる」と非難ごうごうで、フリーソフトの発表を皆が自粛してたら、プログラマは今よりずっといい生活、収入を得ていただろうな…とは想像します。