しゃべるアバターを作ることのできるアプリがいくつかあります。たくさんありすぎて、どれが良いのか選定に迷ってしまいます。しかし、実際にアバターを作ろうとすると、アプリの不具合が見えてきます。
ネット上のライター記事は、メーカーの記事をまとめただけなので、不具合や使いにくさなどについては何も書かれていません。つまり、管理人の知りたいことはライター記事からは分かりません。
管理人がしゃべるアバターに求める機能は以下のようにとてもシンプルなものです。同じように感じている人が多くいるのではないかと思います。
【管理人がしゃべるアバター制作にあたり求める要件】
- 自分で用意した画像を使ってアバターを作れること
- 日本語を流ちょうに話せること[アバターの日本語能力]
- アバターのおしゃべりの動作が自然に感じること[アバターの仕草]
- 可能な限り、口の動きが日本語の発音に同期していること[アバターの口形状の日本語対応性]
- 読み方の区切りを簡単に調整できること[日本語の発音・イントネーションの正確性]
- 読み方のイントネーションなどがおかしい部分を可能な限り修正する手段が確保されていること[5.の修正機能]
- できれば、ボイスチェンジ、あるいは話し方のオプションが用意されていること[声質・声調のバリエーション]
- これらの要件を満足しているかどうかを確認するための無料のお試しができること
いかがでしょうか。別に、難しいことを要求しているわけではありません。はっきり言って、しゃべるアバターに求められる基本的な要件を挙げているだけです。
さて、巷にたくさんあるアプリで、この要件をすべて満足するものはあるのでしょうか。
残念ながら、ひとつも存在しません。では、使えないのか。いや、たった二つですが、要件をほぼクリアしたアプリが存在します。
今日は、このアプリについて、見ていくことにしましょう。
基本要件を満たすアプリは皆無。しかし、2つのアプリは使えるかも
上で示した要件をすべて満たすアプリは皆無でした。ほとんどのサービスが、お試しができないという欠陥サービスばかりです。アバター画像を選んでテキストを読ませることはできるのですが、この時点ではアバターは動きません。動きを見るには、アバターを生成する必要があり、それは無料ではできない。つまり、アバターがどう動くのかお試しでは確認できないのです。これでは、何も試さず、性能の確認もないままにサブスクの課金をしろというのと同じです。ほとんどのアプリがこの要件に引っかかり、脱落しました。
そんな中、「Vidnoz AI」と「HeyGen」だけが十分なお試しができると感じました。そして、上の要件のほとんどを満足している。従って、購入契約するのなら、この2つのアプリ、二者択一ということになると思いました。
他の類似サービスは全くお話にならないレベルです。生成したアバターがどんなものかさえ見ることができないのでは紹介する気力も湧きません。
お試しでアバターを生成できるのは他に2社ありますが,生成したアバターの全面に無数のロゴが入るので、見る気力さえ失せてしまいます。
最悪なのは、登録するのにカード情報を求める怪しさ満点の会社があること。
会社情報を一切公開していないのにユーザー新規登録時にカード情報を求める会社のアプリなど、試す価値すらありません。AI関係は詐欺業者にとって格好の狩り場になっているので、特別な注意が必要です。
「HeyGen」の実力
まずは、「HeyGen」の実力を見てみましょう。
下のアバターのお顔は、最近引退した有名スポーツ選手に似ていますね。勝手に写真を使っちゃダメでしょ、と思うほど似ている? でも、それは濡れ衣です。画像をクリックするとアバターがしゃべり始めます。
このアバターは、「HeyGen」の顔スワップ機能を使って、【Studio Avatar】にいる「Maria in Sweater」の顔を楠本高子さんに置き換えて制作したものです。
顔スワップ機能は、用意した顔写真とデフォルトのアバターの顔が置き換わるのかと言えばそうではないようです。他の写真で試すとあまりうまくいきません。
アバターが話しているのは、魔王魂さんが公開している「捩花」の歌詞(作詞:火ノ岡レイ)のフレーズです。
次に、Adobe Fireflyが生成した女の子の画像を使ってHeyGenで生成したアバターを見てみましょう。
イントネーションが少しおかしい部分もありますが、許容範囲でしょう。実際のところ、もっときれいに発音させることも可能です。
一番問題となるイントネーションの調整は、読点に「、」か「,」を用いることで微妙な調整ができます。改行をうまく認識してくれるところが優れている点でしょう。
「Vidnoz AI」の実力
次に、「Vidnoz AI」の実力を見てみましょう。
YouTubeにアップしたバージョンです。
このサンプルは、Vidnoz AIの背景透過の実力を知りたくて、背景を緑に指定し、手元にあった古いPowerDirectorのクロマキーで背景透過し、本能寺の画像を背景に使ったものです。
アバターの動きに違和感を感じる部分もありますが、まあ、この程度なら許容範囲です。
Vidnoz AIの特徴は、何度もお試しができることです。このため、いろいろなパターンでその実力を試すことができます。
Vidnoz AIが優れていると感じるのは、AI音声の美しさにあります。
語間を0.1秒単位で微調整できるのはVidnoz AIだけです。下の事例では、ポーズの追加で「0.5s」になっていますが、これを「0.1s」にすることも簡単にできます。この細かい調整はHeyGenでもできません。
顔だけでなく全身画像でもアバターにしゃべらせることができるかどうかを確認するために作ってみたのが下のサンプル動画です。背景透過の確認のため、背景を別画面にしています。これをやらなければもっときれいにできます。
なかなか色っぽいおねぇちゃんになりました。
この色っぽいお姉さんは、Model: Basil_mix_fixed, Denoising strength: 0.7, Clip skip: 2, Hires upscale: 2, Hires upscaler: Latent で生成したものです。
画像自体はよく見かける美人に過ぎませんが、しゃべり出すと妙に色気を感じさせる女性に変身するから不思議です。これもVidnoz AIでしかできないことのひとつです。
管理人の関心は、背景透過にあったため、少し見にくい部分も発生しています。アプリ単独で作ると、とてもきれいな動画になりますが、管理人がやりたいのは、アバターを別の動画編集ソフトに取り込んで、さまざまな効果を加えることです。
一度作ったアバターは、何度でも修正できるようです。アバターが話すテキストを変えたり、背景を変更したりしてもクレジットが消費されることもなく、無料で使えます。