国際総合
モナ・リザが目をむいてラップ…あっという間に700万回超再生されたAI動画
レオナルド・ダ・ヴィンチの名画「モナ・リザ」に描かれている人物がまるで生きているかのように両目を見開いてラップをする動画が話題を集めている。この動画はマイクロソフトの新しい人工知能(AI)モデル「VASA-1」を利用し、1枚の顔写真と音声ファイルだけで製作されたものだ。
交流サイト(SNS)「X(旧ツイッター)」のあるアカウントに掲載されたこの動画の再生回数は24日現在で700万回を超えている。掲載されたのが今月18日であることを考えると、1週間も経たないうちに爆発的な関心を集めているのが分かる。
動画をよく見ると、モナ・リザは目をむいたり、まばたきをしたりしながら、こっけいな表情で米国の有名女優アン・ハサウェイさんが以前に番組で公開したパパラッチ批判ラップをしている。
動画を掲載した「AI教育家」チェ・ミン氏は「マイクロソフトがVASA-1を開発した。このAI技術を使えば、1枚の画像にオーディオ・クリップを結合させて写真が歌ったり話したりしているかのようにすることができる。(中国の情報技術〈IT〉企業)アリババの『EMO』に似ている」と説明した。EMOはユーザーが人物またはキャラクターの画像にオーディオを入力すると、上の動画のようにオーディオ内容に応じて動く技術をいう。今回話題になっている「ラップをするモナ・リザ」の動画には、モナ・リザの写真1枚とアン・ハサウェイさんが番組で歌ったラップの音声ファイル1つだけが組み合わされている。
マイクロソフトは今月19日にAIモデルのVASA-1を発表した。1枚の人物写真と音声ファイルだけで「話す顔」を生成できる技術だ。漫画のキャラクターや写真、絵をリアルタイムで歌わせたり話させたりでき、この過程で顔の動きをリアルに具現化することが可能だ。顔の正面からの画像だけではなく、左右方向の画像でも適用できるほか、瞳の方向、頭の距離、さらには感情まで表現できる機能も備えている。
マイクロソフトは教育の公平性を強化し、コミュニケーションが困難な人のためにVASA-1を開発したという。
ただし、マイクロソフトでは万が一でも悪用される恐れがあることを懸念し、この技術を直ちに配布する予定はない。マイクロソフト研究チームは「この技術が規定に基づき責任感を持って使われると確信できるまで、オンライン上のデモンストレーションや製品を発売する計画はない。他の生成技術と同じように、他人を詐称するのに誤用される可能性がある」と述べた。その上で、「私たちは実際の人物を誤解する素地があったり、有害な内容を生成したりする行為に反対し、私たちのハイテク偽変造探知技術を適用するため努力している」ともコメントした。
パク・ソンミン記者