Dominator/ALDIOUSのカバー曲をアップしました

ずっと弄ってたDominatorとSynthesizer V2

 ALDIOUS好きでDominatorは一番好きな曲で打ち込み始めたのはたぶんもう一昨年ぐらいの話だったと思うんですが、ようやく纏まったのでYoutubeにて公開させて頂きました。

Dominator feat Synthesizer V 2 AI Saki

 曲弄ってる段階であーでもない、こーでもないと色々試しつつ進めてたので亀進行なのは元よりなのですが、ようやく曲が纏まって映像どうしようかなーと考えてた所にSynthesizer V 2 AIの発表が(^^;。

 うわー、どうしようと思いつつ、手持ちのSakiもV2にアップグレードして歌わせてみた所、確かに良くなってるのですが、微妙に声の出方の強さとか変わってる感じがあって、結局全部直しつつ、気になってた所も再考して直しつつ…なんてやってさらに時間掛かって曲が纏まったのが去年の年末ぐらいだったでしょうか。

映像をAIで作れないか?

 曲が纏まった所で、じゃ映像を…となるのですが、そこまではいつも通りVRoid StudioでモデルをセットアップしてVRMに出力し、Unityを起動して…今度はHDRP使ってみるかな、シェーダー重いかなとか色々考えて裏で実験はしてたんですよね。が、昨今のAIの進化のニュース記事だったり、去年の10月頃から遊んでたSora 2とか見てると、これで手軽に表現の幅が広げられないかな?趣味でチマチマ作ってる身としては手軽さは正義だよな、と思う所があり、モノになるかどうかはわからないけど、とりあえず試してみてから判断しようか、という事で今回はAIを使う方に舵を切りました。

 Soraにはキャラクターカメオ機能が載り、VRoid Studioで出力した画像からキャラクターを登録して自在に動画に出演させる事が出来るようになったのでしばらくはこれで遊びながら色々試してみてました。

DomoAIを使う

 MV的なものを作るにあたって一番最初に必要になるのが、口パク。Unityだと凹さんのuLipSyncというリアルタイムだろうが事前計算だろうがなんでもござれという神アセットがあるのでどうにでもなるのですが、AI方面だとプロンプトで入力したセリフを喋ってくれるAIは多いものの、音声ファイルを元に口パクしてくれるAIは僅かにしかありません。

 そんな中でも評判の良かったのがシンガポールの会社が運営するDomoAIというサービスで、今回はこちらをメインに使わせて頂いています。単純な顔のアップの一枚絵からなら、すごく簡単に高品質の歌唱動画を生成してくれます。

DomoAIのUI

 今年の1月頃だったかな、ひと月ほどワークフロー建てられるか色々実験して、まぁ、なんとかなりそうか、という所でちまちま本製作に入って行きました。

AI動画の難しいところ

 DomoAIとSoraといろいろ弄りながら作るんですが、いかんせん難しいのはキャラの映像を固定する事。特にSoraはプロンプトに色々書いた結果が、計算量のボーダーに近くなってくると色々省略しだすようで、服が変わってみたり、アニメ調になってみたり、挙句の果てには複数キャラが同じ顔になってみたり(汗。

 当初、パピとヴェロの二人のバンド演奏でMV化する事を考えてプロンプトも頑張ってはみたのですが、全然無理でした…。二人ともSoraのキャラクター機能でイメージを固定していたのですが、これ自体がそこそこ計算量食うようで、二人出てきてお城の中で楽器&ボーカル…ともなるとあっという間にアニメ化するし、服が入れ替わってみたり、顔がどっちかに統一されたり…と、これは早い段階で断念しました^^;

キャラが混じっちゃった例

 なので基本はヴェロ一本で集約して、前奏部分のみパピにお願いして同一のカットに混じる事は無いようになりました。

 ただ、ヴェロだけでもやはり服が壊れたり、髪がおかしくなる事とかは普通にあってこの辺はプロンプトとガチャ運でどうにかするしかありません。Soraはキャラクター機能である程度固定されますが、DomoAIの場合では元画像1枚とプロンプトから動画を生成する「画像→動画生成」機能や、開始時の画像と終了時の画像の間を補間してもらう「フレームから動画へ」機能を多用したので、元画像1枚からキャラクターを認識する事になり、元画像に写ってない部分が動画中に露呈する動きになると途端に破綻するケースが多かったです。(キャラクターが振り向く、体半分がフレームアウトしている所からフレーム中心に寄る、等)

 正直、リリースした映像にも気になる点がいくつか散見されると思うのですが、もうこれは色々直してみたけど、上手く行かなかったと思って頂ければ^^;。

 作成フローは書きだすと長くなるので割愛しますが、最終的にDomoAIでレンダリングする動画は5秒前後のものが多く、これをDavinci Resolve上に読み込み済みの元楽曲に口パクが合うように配置していく形になります。

映像の構成

今回のDominatorという曲、そもそもALDIOUSさんの素晴らしいMVがあります。

Aldious – Dominator (Music Video)

 御覧の通り、背景のステンドグラスが美しい聖堂?お城?のようなロケーションでして、ここのイメージは近いものにして入りたいな、という事で当方の映像の方も夜の洋風のお城という設定で進めました。

 ただ、曲を聞く限り、その詩の読み取り方は決してハッピーエンドだけでは無いなと感じまして、「Dominator = 支配者、統率者」たる権力ににじり寄る人・人々と、ただ愛されたかっただけなのにその権力故に手に入れられなかった悲哀の表現がポイントなのかな、と自分的には纏めてみました。

 そんな感じで半分くらいまでは静かなやや悲壮のある感じで進めたんですが、このまま最後まで進行すると映像的には何の起伏も無い平坦なものになってしまいそうだったので、後半はALDIOUSさんごめんね、と思いながらも折角なのでAI製作ならではの映像を入れてみる事にしました。

 昔からいつかやってみたいと思っていたのが、都市の上空に浮かぶ超巨大な宇宙船の映像。これ、3DCGでやろうと思うと無茶苦茶、手間やら時間やらコスト掛かると思うんですが、AI製作ならこれを手軽に表現出来ました。

 城スタートなので宇宙船…となるともう、宇宙船の上に乗せるのが一番分かりやすいハズ(笑)。宇宙船の艦橋の代わりに城…イメージ的にはファイブスター物語のフロートテンプルやFGOのセミラミスの空中庭園などがあるものの、どちらも船の形をしている訳ではないのでちょっと心配だったのですが、案外あっさりうまい具合にまとめてくれましたね。

NGシーン – 城がデカすぎる…

 お話的には権力的には崇められた魔女ヴェロだったけど、その権力から本当の意味で対等に愛を注いでくれる人は居なかった、ヴェロは都市ごと破壊して、次の居場所を求めて去っていく…的なシナリオのつもりではあります。ヴェロ、今回は完全に悪い人を演じさせています(^^;

 都市の炎上シーンも普通に作れば無茶苦茶コストかかるハズですが、ここもAI製作なら僕のような個人でも可能に。ちなみに、このシーン、当初はレーザーカノンで焼き薙ぎ払う…みたいな映像だったのですが…丁度イランの戦争が活発になったりして、ちょっとイメージが重なると嫌だな、と懸念しました。なので、ここはファンタジー寄りに置き換えてみようという事で、歌詞の中にも出てくる薔薇の蔦に暴れてもらう事になりました。最後は大怪獣大暴走な感じで、果たしてDominatorのイメージに収まってるのだろうかと心配ではありますが、構成としては前半の静と後半の動という感じでメリハリ付いたかな、と思わないでもないです。

ヴェロとパピの衣装について

 衣装についてはVRoidを使っているメリットをフルに活用させて貰って、Boothで個人的に好みの衣装かつライセンス的に問題無さそうなもの購入させて頂き、ヴェロとパピに着せています。ヴェロを黒を基調としてシックに。パピを白を基調にして対照的に。という意図が一応あります。共演できれば一番良かったんですけどねぇ。

ヴェロ:Atelier Mirea 様:全6色|サイバーミリタリーロリータ|CYBER MILITARY LOLITA

パピ: OFUJI STORE 様: 【VRoid texture 66】サイバーミリタリー16

素敵な衣装を使わせて頂きありがとうございます。

サイバーミリタリーロリータ
サイバーミリタリー16

※偶然にもどちらも「サイバーミリタリー」という単語が入っていますが、それぞれ個別の製作者様の作品です。

時の流れは早いもので

 ご存じの通り、先日Soraはサービス終了してしまいました。サービス発表した時には必要な素材はほぼほぼ作り終えていた為、焦るような事は無かったんですが、とても便利で今後の発展も期待していただけに大変残念です。

Soraの残骸…。

 DTM側の先に書いている通り、Synthesizer Vが2になり、歌声ライブラリであるSakiも2になった時点で追従すべく一旦作り直してたりします。使っていたStudio One Proはその名が消え(^^;、Fender Studio Proという名前になっちゃったりもしてます(この作業終わったらアップグレードしようかな、と)。

 特に流れが速いのがAI関連。1月から使い始めたDomoAIも結構細かくアップデートされていて、モデルが変わったりすると微妙に絵柄が変わったりします。作業の最後の方で入ったGPT-Image 2.0対応が、プロンプトの解釈制度とか出てくる絵が非常に良くて、これ最初から使いたかったナーという気すらします。あと、モデルに寄るのかな?プロンプトの規制が結構バラつきあって、一番厳しいと思われるSoraなんかは最初の頃は凄く苦労しました。フォトリアル表現+ミュージックビデオって書いた瞬間にレンダリング拒否されるし…(なんでや。

 更に言うなれば、楽曲のDominatorの方を作ってる間に、こちらも大変残念ながらALDIOUSは無期限の休止に入ってしまいました。幸いにも解散とかではないので、またいつかライブ観に行ける日が来るといいなぁ・・・と今後の楽しみに取っておこうと思います。

 さぁて、次は何を作ろうかな…と思う所ではあるのですが、Sora無くなっちゃったし、キャラクターの固定化する手法を何か考えないといけなさそうです。DomoAIにはその機能はあまり強く無いので、他も見てみる事にはなると思うのですが、順当に行けばGoogleのVeo 3.1系や気になってる所ではRunwayというAIサービスがあるのですが、DomoAIも含めてそれなりの利用料金が掛かるので、全部を一遍に使うってのは趣味で遊ぶにはちょっとコスト重いんですよね…。どうしたものかな…。