Synthesizer V | 荻窪流の電脳茶房

JUNGLE FIRE feat. MOTSU のカバー曲をアップしました

2024年1月25日DTMStudio One,Synthesizer V,Unity,Vroid,パピフォン

自宅療養を駆け抜けろ

　久しぶりの更新となりますが、昨年11月頃からひっそりと作っていたMFゴーストのOP曲でもあるJUNGLE FIRE feat. MOTSUの方がまとまりましたので、Youtubeの方に上げてみました。　

　今から３か月弱ほど前の１１月ですが、世はコロナ明けムード全開の中、どこで貰ったかコロナを患いました…(^^;。幸い症状は無茶苦茶軽くて、のどの痛みすら無く、熱も一瞬出ただけで収まってしまったのですが、外をウロつく訳にもいかず、折角の連休も動けないので、これはもう打ち込みでもして憂さ晴らすしかない…という事で楽譜＠ELISEを漁りだしたのが最初でした。

　実は昔から頭文字Dが好き(唯一Blu-ray Box揃えた)で、昨年末まで放送していた後継作品のMFゴーストを楽しみに見ているタイミングでした。やはり車とユーロビートの組み合わせ熱すぎる、最高だよなーと。

　で、そんなタイミングで以前は無かったハズのJUNGLE FIREの楽譜が検索に引っ掛かり、これはやれというお告げかなと勝手に思い込み、出掛けられない連休をつぎ込んで作り始めたのでした…。

　あ、ただ、復帰後は基本的に家族が寝静まってからが作業時間、昼間は嫁様、娘ちゃんとの時間を削らない、なるべくコンパクトに仕上げるというコンセプトは変わっていません^^; なのでかけられる時間も限られてますし、がっつり作り込める訳でもないのでゆる～く見て頂ければ幸いです。

歌い手は京町セイカとNinezroで

　実は着手する直前に某サイトのセールでSynthesizer V AI Ninezeroを購入してたんですよね。以前より若い感じでは無くて、渋いおっさん声(失礼)の歌唱ライブラリ欲しいな、とずっと思ってたので。丁度これが10月の後半にSynthesizer Vが対応したラップモードに対応しているという事もあって、ご存じの通りMOTSUさんが捲し立てるパートが多いJUNGLE FIREにはピッタリと思いまして、いろいろタイミングが合致したな、と今思えば感じます。

　メインボーカルのSynthesizer V AI 京町セイカは原曲の芹沢優さんのイメージに手持ちのライブラリの中では一番近いのかな、という所で選びました。芹澤優さんが声優さんという事もあってか、やや高いオクターブの所で力強く歌える必要があると感じ、それにマッチした感じでしょうか。

Synthesizer Vのラップモード

　10月末に実装された機能という事もあって、初めて使ってみたのですが、まぁ、良く出来た機能でこの機能無しではまともに出来たかどうかも怪しいな…といった印象です(いや、今もまともか分かりませんけど…)。譜面としては同じキーの音符が並ぶ所も、ラップだと微妙にイントネーション的なものが変わってくるので都度調整の必要があるのですが、ラップモードにすると結構上手い具合に合わせてくれました。

　勿論、それでも完璧とまでは行かないので、手動で調整はしていきましたが、あると無いでは作業量が全然違ったと思います。

音源周りについて

「Xpand!2」パラアウト出来ないなど制限もありますが、安くていい音源だとと思います

　ユーロビート系の曲初めてだったので、いざ作業始めてみると音源がマッチしない部分があるな、と。ユーロビートの代名詞的なSuper Saw系の音に関してはOmnisphere 2が使えそうなの幾つか持っててくれたので良かったのですが、オーケストラヒットっぽい音が見当たらず、こちらに関してはXpand!2が幾つか持っていて安価、という情報を経て新規に導入しました。BlackFridayの時期だったのもあり、これだけの音源を10ドル程度で買えちゃう脅威のコスパでした…。

　もう一つ困ったのがドラム。ここまでポップスやロックはSSD5に頼りっぱなしだったんですけど、ユーロビート系のドラムってなんか特殊ですよね…。SSD5もElectric系はあるんですが、ちょっと違うかなーというのもあり…。

　どうしたものかと思ってたのですが、Xpand!2を買った際にギフトでDrumSynthというプラグインを貰っていまして、こちらが結構イメージに近い音を持っていたので、ドラムトラックもう一つ作ってSSD5と組み合わせ使用しました。

エフェクタについて

「DeEsser」古いソフト故かデフォだと小さいUIですが、オプションで拡大できます

　今回、新たにいくつかのエフェクタを導入してみました。Wavesのディエッサー「DeEsser」、ダブラー「Doubler2」とiZotopeのボコーダー「VocalSynth2」です。

　効果大きかったなと感じたのはDoubler2でしょうか。合成音声ボーカルは出力すると単音はきれいなのですが、ステレオで出そうがリバーブ系で空間を設定しようが、なんとなく普段耳にする楽曲とボーカルの広がりが違うなと感じるところが今まであったのですが、Doubler2で調整する事で少し厚みを付けたり、パンはセンターにいるけど声が広がってくる感じが付けられて、個人的には結構理想に近づけた感じがします。

　VocalSynth2は今の所「ジャンゴパイヨー」のロボットボイスのワンポイントの使用です。ボコーダー持っていなかったので、こればかりは新規に入れるしかないな・・・という事で見繕ったのですが、VocalSynth2自体はかなり多機能で他にも色々使い勝手有りそうなので、今後色々弄ってみようかなと思っています。ちなみに元の声はこれもまたNinezeroからVocalSynth2に入れています。

JUNGLE FIRE譜面の謎

　そんな感じで少しリソースを増やしたりしながら打ち込み作業をしてたのですが、最後まで残ったのがドラム譜の下にあるパーカッション譜。正直に言いますが、未だにこれ何を鳴らすのが正解なのか、全然分かっておりません（汗。

　原曲も何度も聴いてはみてはいるのですが、よく分からず…。パーカッション譜では×印になっているのと原曲ではかなりシャカシャカ言っているので、オープンハイハット系の何かではないかという気もするのですが…。譜尾が下向いてるのでフロアタム系？でも幾ら何でもこんなに叩かないだろうしなぁ…という所で何が正解なんでしょう？

音源から映像へ

　音源が大まかに出来たのが12月中旬頃だったでしょうか。映像の方も前回同様にUnityで作り始めたのですが、前回一度作ってみて反省点として、キャラをあまり動かし過ぎると意識がそっちに行ってしまって曲が頭に入ってこないな、というのがありました（今更）。なので、今回は当初から比較的狭いシーン、かつモーションも歩いたり走ったりはせず、その場で仕草、せいぜいダンスというぐらいに映像の方はコンパクトにまとめる方針で始めました。

　Unityのアセットストアで某スポーツカーを購入した辺りで派手なレースシーンも思い浮かべたのですが、そこは本家のMFゴーストの方でハイクオリティなの(※)が見れますし、Unity上の車の挙動制御とかにまで手を出すと時間いくらあっても終わらない気がして今回は避けました^^;

※Youtubeにノンクレジット版が公式にアップされているのに併せて、奇しくも(?)この動画の公開予定日の翌日2024年1月26日に発売されるBlu-rayにも収録されているようです。

カジュアルな衣装が欲しい

　スポーツカーのモデルに関してはGame Ready 3D Models様の「Sports Car 012815SSCR」を使わせて頂いています。他にも多くのハイグレードな車モデルを販売されているようですが、権利の関係か、「トヨタのハチロク」みたいな表記は一切なくて単にスポーツカーとなっているのでここではそれに準じます^^;。Unityのアセットストアに並んでいる段階では色がグレーだったんですが、これはなんとなくマテリアルは赤に変えてあります、なんとなく。

　車に合わせて舞台としてサーキット的なモデルでも導入するかとも思ったのですが、先の通りレースシーンとかは避けてたので、今回はガレージのモデル(Xiro様のMobile Garage)を見つけてそちらを使用させて頂いています。天井に窓があり、良い感じ太陽光が差し込むのがポイント高いです。

　今回、キャラクタに関しては声色の関係からパピ子を使うことを決めていたのですが、その組み合わせでスポーツカーに合う衣装ってどんなだ・・・と少々悩みました。参考がてら、booth眺めてる際にYSSS.様の「ミリタリーカジュアルセット」の衣装を見つけまして、これならキャラにも車にも馴染みそうだ、という事でそのままこちら購入して使わせて頂くことにしました。ラフに着た感じでも、ダンスしても干渉も少なくて破綻した感じにならず、とても使い勝手良かったです。他の場面でも使わせてもらおうかな、と。

動画の編集環境をDaVinci Resolveに変更

　最近、ちょっと思う所あって、今回は動画の編集にいつものVEGASではなく、Blackmagic社のDaVinci Resolveを使いました。思う所っていうのは、動画にAfterEffectで入れるような効果（特にモーショングラフィクス）ってAfterEffect以外じゃ作れないもんだろーかと前々から思っていたのですが、最近、DaVinci Resolveに統合されているFusionとhitFilmの名前を知る機会があり、今回DaVinci Resolveの方を使ってみた次第です。

　最初、操作の違いを覚える所に少し時間は割きましたが、それ以外は特に問題なく、複数クリップの同時編集性の高さとかは素晴らしく感じました。特に歌詞の字幕入れる辺りはかなり楽になりました。

　今回、別撮りしたSynthesizer Vのエディタの再生中画面の動画を背景として流すシーンがありますが、あれはクロマキーを使ってみました。あのシーンのみキャラを、RGB（0、0、255）のマテリアルを割り当てたSphere（光源計算無し）の中に突っ込み、その青い背景をクロマキーのブルーバックとしています。

　また、同じシーンで手前側でバチバチしてるスパークはとても短いまた別の素材で、これをFusionに突っ込んでループ機能でクリップいっぱいの時間まで連続再生しています。なのでノード自体は至極単純なものです（動画のインプットノードがあってループつけてそのままアウトプットに回すだけ）。

　この辺りはまだまだ実験してみた、という要素が多いですね。今後に活かせればと思います。

　あまりにも使えすぎるDaVinci Resolve。実は開発元のBlackmagic社の意向もあり無料で使えたりします。有料版もあるのですが、8K編集やGPUのアクセラレート効かせるのが目的になる感じなので個人使用なら無料版で全然良さそうなのですよね。ただ、その意向に結構共感出来る部分があったので、当面使ってみて問題無さそうであれば敢えて有料版に移行しようかな、とすら思えます。

Blackmagic社の意向についてはVookさんで詳しく説明されていました。

■DaVinci Resolveはなぜ無償なのか？なぜ安いのか？

https://vook.vc/n/1506

　実はVEGASもPOSTグレードで買うとVEGAS Effects 5が入っていて、これが教えて頂いた所では中身はHitFilmらしく、結構それでもいいかもな、と思う所はあったのですが、HitFilm本家の方は結構サブスクリプション推しに移行しているらしく、その辺が懸念材料になってDaVinci Resolve側に傾く要因の一つになったというのもあります。最近、猫も杓子もサブスクでちょっとアレルギー気味なんですよね…自分。

そういえば

　今年初めての更新でしたね、今更ながら本年もよろしくお願いいたします。

　今後ですが、実はJUNGLE FIREの前に一本、曲の打ち込みは一旦終わっているものがあったりするのですが、これについてはJUNGLE FIREで学んだテクや機材を反映させたいな、と思う所もありまして一旦寝かせておこうかな、と。

　DTM以外でやりたい事もスタックしてきているので、しばらくはそちらを消化して、忘れた頃にまたひっそり再開しようかと思います。ゆる～く進めます^^;

記事を読む

light prayer / School Food Punishment 公開しました

2023年2月5日DTM,ＣＧStudio One,Synthesizer V,Unity,Vroid,VroidStudio,ヴェロ

School Food Punishment の light prayerにしました

MVっぽいの作ってみた

　気が付けば年も越して2023年、しかも最初の月はあっという間に過ぎ既に２月となりましたが、ようやく作成していたMVを一旦まとめました。長かったですね…。

　2022年初頭からVRoid弄りだしてモデルを作り、６月ぐらいからStudio One弄って楽曲作り、10月ぐらいからUnityで動画作り…みたいな感じでしょうか。

　そもそもコンセプトとして「嫁子供ほったらかしにしない＝作業時間は限られる」「ゲーマーなのでゲームする時間は確保する」「主要な部分は自作、そうでない所はアセットで時短」「こだわり過ぎずに実害少なそうなら次の作業に進む、後でやっぱり気になったら直す」みたいなのがありまして、低燃費走行をずーっと続けていた感はあります。ちゃんと娘ちゃんと一緒に"さいきょうゲッコウガ"も取りましたよ(^^;

School Food Punishment の light prayerという曲

　昔っからこの曲好きで、度々iTunesに入ってるの聴いてたんですよね。バンド自体はもう10年ぐらい前に解散してしまったのですけど、疾走感や透明感のある曲作りというのでしょうか、なんかすっかり身に染み込んじゃってるんですよね。"ＲＰＧ"といえばドラクエでも無く、セカオワでも無く、ましてやロケットランチャーでも無く、School Food Punishmentの曲なんですよ、僕にとっては（どーでもいい）。

　なのでStudio One導入まで行って、さぁ何の曲を打ち込もうか…と思った時にもちろん最近人気の曲とかでもいいなとは思ったんですけど、たぶんそれは誰かがもう打ち込んでくれてるだろうし、だったら今はあまり世で聴ける機会も多くなくなった自分の好きな曲を掘り起こしてみるのも良いんじゃないかな…という事で、＠ELISE(楽譜販売サイト）で譜面を漁り、見つけられたこの曲にする事にしました。

　ただ、この曲、今思えば最初に手を付けるには難易度高かったですね…(^^; 間奏のギター周りとか特に読み手に任せられている部分（でっかいバツ印しかない…）も結構あって僕には受け止めきれなかったナー…なんて思う部分も。

　まぁ、なんにしても原曲は良い曲です。

Studio OneとSynthesizer Vで楽曲の打ち込み

　昔、MIDI楽器を弄っていた時はGS音源などある程度の規格化された音源がありまして、その中ではざっと生楽器の音が一通り揃っていて便利だったのですが、今どきだとこれに相当するのがKOMPLETEの存在なんですかね…。これとシンセ系の音が豊富に収録されているOmnisphere奮発して、今回はこれらの中で作ってみました。昨年末にセールもあったのでちょっと補強しようかな、とドラムとギターの音源を追加しましたが、どちらも習得にそれなりに時間が必要そうだったので今回は使っていません。

　去年の春頃は作ったVRoidモデルを合成音声で喋らせて(トーク)遊んでいたので、Studio Oneで楽曲作るなら当然、合成音声による歌唱付きに挑戦でしょう…という流れでした。合成音声のエンジンはいくつか種類があるのですが、サンプル聴きまくった上で一番僕の理想に近かったSynthesizer Vを選択。独特の文化に成熟したといっても過言ではないVocaloid系の声も嫌いではないのですが、やはり昔、MIDI楽器ではやりたくてもやれなかった自然に近いボーカルというのは個人的には悲願でもあり(笑)、その方向性ならSynthesizer Vかな…と。

　これまたセールに合わせて歌唱データベースはいくつか導入してみたのですが、今回の light playerには合うのはどちらかというと高めのアイドルっぽい声ではなく、低い所から力強く唸ってくれる大人の女声が良いかな…という所で"Saki AI"を選びました。

　実は製作中にSynthesizer Vのシステムの大幅なアップデートがあり、それに合わせて歌唱データーベースも更新されたので、試してみた事はあるのですが、歌唱の表現の幅は広がったっぽいのですが、それまでに作成した部分に結構悪影響が出てしまい、今回は導入を見送っています。なもんで、今回は少し古めの環境(エンジンが2.4.1、Saki AIが119)で作ってます。たぶん、最初から最新データベースに合わせて作っていれば問題ないと思うので次回作は更新してからかなーと思ってます。（実の所エディタ側が落ちる現象も起きてたので戻すしか選択肢が無かった)

Unityで動画を作ろう

　曲がある程度の終盤に差し掛かった頃、手持ちのモデルで挿絵的なもの作りたいよナー…とはうっすら考えてました。ボカロ系の動画で見掛ける、静止画をベースとして切り出しやカメラワーク的なもので飽きさせない絵作りにして、歌詞を載せる感じな奴を3Dモデルで出来ないかな、と。

　さすがにステージモデルから作っていたら終わりが見えないので、ここはUnityのアセットストアで良さげ(且つ、手頃^^;)な奴を探しまして、今回はSICS Games様のToon Fantasy Natureを使わせて頂きました。フォトリアリスティックなステージが多い中、リアル調とアニメ調のちょうどいい中間ぐらいの作りになってまして、VRoidのセルシェーダーと比較的マッチするかなと思ってこの選択になっています。

リップシンクの話

　今回これが無かったら成立しなかったアセットという意味では一番依存度が高いかなと思うのが、凹(へこみ)さんのuLipSyncですね。さすがに発声に合わせてフェイシャルモーション全部手付けとかやってられないですし…。音声解析で自動的に母音ごとに用意した口のターゲットにモーションしてくれる有難いアセットでした。

　当初、実行時にリアルタイムで解析させて使っていたのですが、最終的な動画キャプチャの段階で60FPS全フレームキャプチャする必要があった為、音声解析データからキーフレームに落としてクリップ化して使用しました。この辺の機能の対応も幅が広く、色々な使い方出来そうです。

目は口ほどに物を言う

　リップシンクと共にどうしようかな、って当初困ったのが目のまばたき。モーションクリップでモデルにポーズ付けるにしても、ずっと目を開いたままなので1ショットなら良いですが、ずーっとカメラが回っているような状況だと明らかに不自然です。これに関して検索して辿り着いたのがTore Knabe様のRealistic Eye Movementsアセット。目を自然な感じにまばたきしたり、僅かに視線をずらしてくれたりします。

　・・・します、のハズなんですが、こちらのアセットに関してはちょっと僕の習熟度が足りないようで今一つ制御しきれていない気がします。基本的にはメインカメラの方を見るようにしてるハズなのですが、若干目が泳ぎがちだったり(いやこれで正しいのか!?)、不要な所でこっちをチラ見(こっちみんな笑)したり…このパラメータかな、と思って制御したりはしたんですがどうにも。

　あと、このアセット、目以外にも顔をそちらに向けてくれる機能もあるのですが、顔だけ動くので若干ロボットみありますね…(^^;。聞いた話ではHead Look Controllerというアセットと組み合わせるとSpine側の回転と合わせて自然な動きになるようなのですが、実はこのアセット既にサポート外になっているらしく、アセットストアからは削除されていました…。みんなどうしてるんだろ…。

武装しましょう

　実際出来た動画の通り、最初はポーズだけ付けて静止画的なカットのみ…で考えてたのですが、まぁ、作り出すとあれもやりたいこれもやりたい…という気にはなってきて、アセットストアにも素晴らしいアセットいっぱい並んでるんでモーションデータを中心に年末のセールでいくつか買い込みました。

　で、戦闘モーションやるなら武器無いとな…と思ってた頃に、丁度NEOKETというバーチャルアバターで参加するイベントがありまして、この会場でビビっと来たのがこのIRREGULARS様の武器モデルたち。本来の目的はVRChat向けっぽくはあったのですが、Unityで読み込めるし使えるだろう…という事で迫力のある太刀っぽかったSOHAYAを購入。着脱ギミックまでちゃんと動きました。

　PSO2を遊んでた事もあって武器はSFっぽいのがいいなーとは思ってたんですが、アセットストアには中世のファンタジー系の武器防具は多いものの、意外とSF系のそれは多くなかったりするんですよね…。助かりました。

一番導入の多かったモーションデータ

　今回一番導入した数が多かったアセットはモーションデータです。そもそも、固定ポーズだけで作るつもりだったんですが、CLazy様の Runner Action Animation Pack の動きを見て、「メッチャカッコイイ…これ使いたい…」って思ってしまったのが運の尽き。跳んだり跳ねたりえらい事になってしまいました…。

　アセットストアにモーションデータは数あれど、何気に困ったのは歌ってるモーションというのが殆ど見当たらなかった事。アイドル系の曲のような激しいダンスのデータなら割とあるんですが、いわゆるミュージシャン寄りのMVで見られるような、ステージセンターで歌い上げるみたいなモーションはほぼ皆無かな、といった感じでした。意外とニッチな分野なんでしょうか…。

　そんな中で唯一見つけられたのがRamsterZ様のFemale Lounge Singer。たぶん、動き自体は欧米のジャズシンガーっぽいのかなとは思うのですが、一番イメージに近く、モーションも長尺のものが多かったので扱い易かったですね。ただ、曲のテンポと合うとは限らないので、その辺は実際に楽曲に乗せてみてからこっちの方が合うかなーといった感じで見繕ってました。

見送った要素

　当初の予定よりだいぶ動画の作業が膨らんでしまったのですが、それでも導入をカットした要素もありまして、今後はその辺の実験をしてみたいなーとは思っています。

　大きい所では夜のシーンをやりたいな、と思ったのですがステージへの設定の変更が結構いろいろ必要そうな事と単純にやってキレイ見えるかどうか今一つ分からなかったというのがありましてこれは今回見送っています。

　夜のシーンやるのであれば天候シミュレーション入れてみるのも良いのかな、と一つアセットも用意はしてみたのですが、導入した所シーンが非常に重くなってしまったので、これは色々最適化しながら使う必要がありそうとの判断で今回は見送りました。今度じっくり弄って色々な絵を出してみたいなと思っています。雨とか雪も楽しそう。

　パーティクルもやりたかったのですが、これは仕組みの習得が中々時間がかかりそうだった事と、爆発やら魔法のエフェクトをキレイに見せるにはやはり夜のシーンがいいかな…という事でやはり前述とセットで見送りに。

　ブルームを入れれば簡単に世界が変わると何処かで見掛けたので、導入してみた事もあるのですが、そもそもフォトメトリックな絵じゃなくてキャラもセルシェーダ寄りなせいか、パラメータ色々弄ってみても絵が飛び気味でコントラスト低い感じになってしまってこれも要調査だな、という事で見送り。

　あと、作業終わる頃に、あ、被写界深度表現入れれば良かった…とは思ったのですが、各カットでピントの調整とかしないといけないので、これも始めるとまた膨大に時間が延びそうだったので今回は見送りました。

　これらは後程、個別に実験して本サイトの記事ネタに出来たらなーとか考えてます。

新キャラ「ヴェロ」

　そういえば、この動画作成にあたって新規のキャラクターを起こしました。例によってVRoid Studioで作成しています。時短すばらしい。衣装に関してはパピフォンとある程度の統一感を出したかった為、パピフォンの衣装からゲーミング要素を取り払い、スタンダード寄りのデザインに差し替えました。

　いつも通りVRoid Hubには上げてありますので、良かったら連携ソフトから呼び出してみて下さい。

VRoid Hubのヴェロのページ

　こちらはVOICEPEAKによるトークも出来るようにこの後準備しようかと思っています。

次なに作ろうか

　折角環境も整ったし、次の曲打ち込みたいナーとは思うのですが、何にしようかなと。Aldious好きなんですけど、打ち込みでメタルとか鬼門っぽいですしね…もう少しポップス寄りの方が良いのかなーと色々思案中。

　いずれにしても次はSynthesizer Vを一気に最新版まで更新して、新しいエンジン試したいのと無償提供となった歌唱データベース「Mai AI」を試してみたいなと思ってます。

　音源の方は年末のセールでギター音源「Ample Guitar LP3」とドラム音源「BFD3」を追加してみたので、この辺も少し学習してから入れて行きたいなと考えてます。

　動画は・・・やっぱポーズのカットぐらいにしておかないと莫大な時間がかかるな、とは思ってます。モーションは買うにしてもお手頃価格ばかりでもないですしね…(^^; 最近、ソニーのmocopiを導入したので簡単なアニメーションなら自作してやり過ごせないかな、とも思うのですがあれはあれで作業大変そうですしねぇ…悩ましい。

記事を読む

喋れ！看板娘！音声合成にまつわる話

2022年2月25日ＣＧCeVIO AI,Luppet,Synthesizer V,Vroid,パピフォン

ひとまず、パピフォンはVRoid hubでの公開に漕ぎつけたし、コンテストとか関係無い割にはいいねも結構頂いていたりして、一段落といった感じでした。

VRoid Hubのおかげで対応アプリケーションの中で暴れまわれるし、色々試してみたい所なんですが、その前にもう少しだけキャラクターとして生きてる感じを固めたいなぁ…と思ったりしました。

以前、Microsoft Teams上での会議に、Luppetというバストショット特化型のトラッキングシステムを使って、いわゆるVTuber的に参加した事があるのですが、これのセットアップをちょっと細工したら簡単に動画作れないかな、と。

・・・で、間すっ飛ばして結論から先に言っちゃうとこんな感じになりました。

音声合成ソフト選んで導入してみました。この顛末が中々調べてて楽しかったのでその話でも。

そもそも、昨今の音声合成のレベルが凄いことになってるなーというのは愛読している藤本健さんのDTMステーションでうっすら感じていたので、サイト記事いくつか読み漁って最近の状況とかをなんとなく把握しました。じゃ、いざ自分が購入すべき製品は…となって各社の製品サイト見に行くとこれまたややこしい。

情報漁って、今回は音声合成なので候補に挙がったのは、

VOICEVOX (ヒホ氏作エンジン、無料、要クレジット表記)
CeVIO AI TALK / CeVIO CS7 (CeVIO製エンジン、AHS販売)
VOICEROID2 / VOICEROID+ (株式会社エーアイ製エンジン、AHS販売)
A.I.VOICE (株式会社エーアイ製エンジン、販売もエーアイ)

この辺でしょうか。開発会社と販売会社の組み合わせがあってややこしい…。さらに２つ書いてある奴は左側に書いた奴が新しいエンジンを載せてる製品ですが併売中です。普通なら新しいものに入れ替わる所なんでしょうが、これらの製品の特別な理由として、それぞれの製品にキャラ付けがあって古い方にしかないキャラがいたりとか、その辺の絡みもありそうです。

ここで、将来は歌声合成も使えたらいいかもなーとか思ってしまったりすると(僕ですが)、さらにややこしくなります。歌声合成の方も

CeVIO AI SONG
Synthesizer V (DREAMTONICS製エンジン、AHS販売)
VOCALOID4 (YAMAHA製エンジン、AHSやクリプトン販売)

…などなどこれ以外にも色々あるとは思います。もう脳メモリいっぱいなのでこの中に絞ったとしても、今度はは一人のキャラでも音声合成と歌声合成で別の会社のエンジン使ってたり、エンジンの世代が違ったり、と声を揃えようと思うとまたややこしい事になってました。

例えば最初色々見ていくうちにぶつかった動画がこちら。

とってもクリアなのにパワフルな声で歌うのはSynthesizer Vエンジンの京町セイカ。歌声としてはとても理想の声だったんですけど、このキャラクターの音声の方を探すと…VOICEROID+EXの製品なんですね。AHSのサイトでサンプル入力で試したり出来るのですが、やはりAI移行前の製品なので若干喋りに起伏が無い…。とか、こんな感じでやはり最後は自分の耳でサンプル聞きまくりながら納得のいく組み合わせを探しました(^^;

購入前に気を付けないといけないのは、各社ライセンス条件が微妙に違ってたり、キャラも使うとなると今度はキャラの版権持っている所のライセンス条件が絡んできたりとこれまた相当ややこしい事です。「商用利用は不可だけどYoutubeの動画の収益はOK」とか「ゲームへの利用はNG」とかとにかく細部にわたって各社条項があるので、ある程度購入対象決まったらしっかり確認してから購入した方がよさそうです。

で、最終的に何を購入したんだ、という話ですが、僕はコレを選びました。

CeVIO AI の「小春六花」スターターキットです。エディタと音声パックがセットになって少しお得な奴ですね。いろいろ見た中ではパピフォンのイメージの声に比較的近かった事、音声が非常に聞き取りやすかった事、喜怒哀楽の表現がはっきり分かりやすかったなどが上がります。使用条件周りも僕の当初の用途だと大丈夫そうです。

さらに言えば、小春六花はCeVIO AI Songでは無いのですがSynthesizer Vの方で歌声合成もありまして、サンプル聞いても非常にクオリティ高いのが分かったので、まぁ、こちらもいつか触れる機会が来ればいいなぁ…程度に気にしておきました(^^;

そんな感じでCeVIO AIを導入してイントネーションとか感情をちゃちゃっと調整して.wavファイルに出してみました。この.wavファイルを僕の場合はVoicemeeter Bananaというアプリケーションに食わせて、Luppet側に出力、Luppet側は口パクする必要があるのでリップシンクを音声ベースに切り替えて入力をマイクではなくBananaからの出力に切り替え、そのLuppetの画面と音声をOBSで録画、みたいな構成で一応一通りの録画が出来ました。

Luppet側はLuppet側で小細工してるのですが、まぁ、その辺の話はまたいずれ…。ただ、録ってみた感じ動きもリアルだし、発音もキレイだしこれはこれで良いなーと思うのですが、いかんせんLuppetのモーションキャプチャーベースなので振り付けは自分で演技する必要があります。動画の中でも変な動きしてるのは僕がキョドってるからなんですよね。

Webカメラの前で変な動きしてる所を娘に見られてパパ何してるの…？と不思議そうな目で見られたり(^^;、音声の続き忘れて動作が遅れたり、とこれはこれで面白いけど、毎回やるのもしんどいかもなぁ・・・と思った所が次の課題となりました。このお話の続きはまた次回にでも。

（最後に余談となりますが、2022/02/24現在、上で上げたものに加えてDREAMTONICS開発、AHS販売の音声合成ソフトVOICEPEAKが発表され、CeVIOからはCeVIOが自ら販売する予定の歌声合成ソフトCeVIO Proが発表されました。うん、戦国時代か。）

記事を読む