ミクが大人数をみっくみくに出来た技術

 前にも書いたように、owlmanは一時期みっくみくにされました。あれは毒です。そんな人は、ほかにも沢山いてるようです。owlmanの解毒剤は、幸か不幸かハルヒです。昨日の話です。話がループしてへんかな?


要因ならいっぱいあります。
そもそもの元凶、ニコニコ動画
ミクのイラストがかわいいことから感情移入*1
ネット上で事件を起こす話題性。
職人レベルのメロディー。


でも核心は、YAMAHAVOCALOID技術。


要因はともかく、そんなVOCALOIDの技術はよく知らない。
機械がしゃべる。昔からいわゆるロボット語を発する装置はあったし、最近は半導体メモリの単価が大幅に下がって、録音された単語を自由に組み合わせて発する装置が激増した。公共スペースの案内なんか、どれもこれも。


「おい、かぶってるぞ、時々自重しろ」


でも、初音ミクはそんなんじゃない。
ゆっくり時間が出来たら是非、YAMAHA特許をごっそり目を通してみようと思ってた。


したら、すでに解説して下さった方が検索に掛かった*2ので、ここにリンクします。owlmanは楽することにします(ぇ

和泉聡氏による、YAMAHA音声合成技術に関する特許分析
初音ミクの特許出願について: 人生は是勉学の事


和泉氏はアキバ系弁理士とのことで、特許分析はプロ。うんうん、とうなずきながら読ませてもらいました。
わざわざアキバ系と書かせてもらいましたが、アキバは街全体が特許意匠商標の塊みたいなもんですからね。趣味がお仕事で楽しそうだなぁ、と非常に勝手に思う次第。そんな依頼ばかりではないでしょうけど。


 和泉氏による特許分析によると、YAMAHA特許は、公開年で98年以前はカラオケをターゲットにしており、VOCALOIDの基礎特許と思われるものが、96年出願*3にて「歌唱音合成装置」の名称で世に現れます。


 これは、owlmanは相当遅い出願に感じています。和泉氏の「ヤマハの・・・価値があることに気付いたようです。」とあるのと、同じなのかもしれません。例えば、バーチャルアイドルという発想は、ずいぶん古い本でも出てきます。それこそ昔は「アイドル=歌手」だったんじゃないかと勝手ながら思いますので、十分気が付いていたが世に出す技術に纏まらなかった、と考えるほうが自然かもです。
 一方、特許にバーチャルシンガと表現されるのに、01年まで待つ必要がありました。それは、キーマンとなる剣持氏がチームに参加することが、音声合成技術という汎用性の高いものからバーチャルシンガ技術へ具現化するのに、結果的に必要条件で、剣持氏の参加がVOCALOIDとしての起点、すなわちミクのお父さんと呼ばれる所以と思えます。ちょっとこじつけ(^^;


発明に関する続きは、特許を読んでからにしようかと思います。いつになるんかな?




 さて、VOCALOIDの父、YAMAHAの剣持氏のインタビューが載っているという「DTM MAGAZINE 増刊 CV01 初音ミク 2008年01月号」も非常に興味深く、そんなインタビューが載っていることも知らなかったので、これまた和泉氏に乗っかります。すいません m(_ _)m


読んでみたいけど、残念ながらまだ新刊なので、通える範囲の図書館には登録されてないみたい*4。<買えよ

和泉聡氏による、剣持氏インタビュー記事とYAMAHA特許の対比
剣持氏インタビュー: 人生は是勉学の事


 VOCALOIDが出来るまでに様々な技術を使っていることは、特許の流れだけでも感じます。和泉氏がインタビュー記事から、owlmanみたいな素人にもわかりやすい部分を抜粋してくれています。


 owlmanの知識では、という視点ですが、12音階すべての音を集めないことは自明でした。音の再生時間を変えるだけで、とりあえず音階は作れます。ただ時間が変わってしまいます。そこで2番目、音を「繋げる」「切る」ための解析が必要です。これも未完成ですが、すでにあります。以上2つがないと、MIDI音源が作れません。でもMIDI音源は、一部の楽器で長音が不自然になるので、長時間のサンプルを搭載して逃げました。この不自然さ、ゆらぎの部分を解消しないと、VOCALOIDに成り得なかったんですね。


でも、初音ミクも少し聞くと、すぐ機械っぽいと見抜かれます。まだまだYAMAHAにはがんばってもらいましょう。
あ、なんか簡単そうに書いてますけど、ゆうのと作るのは大違いです。後からなら何だって言えるもんです。ちゃんとわかってますので。




 特許検索結果を見ると、ブレスの特許(特開2004-144814)もあります。この特許は、ブレス発声タイミングを自動化するものですが。
 ブレスの技術も興味深いですね。無音を表現する、という難題。文字では「っハッ」とでも書きましょうか。通常の発声と決定的な違いは、吸い込む音ということ。それも音階がなさげで、たぶんある。次の発声に引っ張られるはずやから。


ブレスの使い方がうまいと、非常に人間っぽく聞こえるようです。
人間でもブレスの使い方がうまいと、今よりうまく歌えると聞いたことがあります。
もちろん今がどうかは別問題です。


 このVOCALOID2で強化されたというブレス音、どのようなサンプルになって、どのように合成されて発声するんでしょうか。ちょっと興味があります。
録音そのままだったら吹き飯ものですが、まさかね。

*1:感情移入は個人差が多いが、感情移入無くてみっくみくにはされない

*2:弁理士の和泉氏のページに辿り着いた検索キーは「VOCALOID Night」。先生、親しみやすいです。

*3:和泉氏は公開年の98年としていますが、owlmanは出願年としました。技術の進捗の視点からみたい為。

*4:付録が多いと往々にして購入予定から外れます。今回も嫌な気がします