先週、OpenAI は Sora を発表しました。これは、60 秒の高品質な動画を生成する生成動画エンジンです。反応は、1 年あまり前に DALL-E や Midjourney の画像が登場したときの驚きとよく似ていました。やがてこれらの動画も、どこにでもあり、見た瞬間に AI だとわかり、安っぽく感じられ、それでもなお AI 画像と同じように不気味だと感じられるようになるでしょう。
どうやら「すべてを変える」らしい。良い意味で、あるいは AI 画像のように? 初めて DALL-E や Midjourney の画像を見たときを思い出してください。はい、今ではあちこちにあります。1 年前ほど、まだ感心していますか? AI 動画について、違う結果になると期待しますか?
今回は違うのでしょうか。もちろん、技術的には、くっきりしていて、よく照明が当たり、ハイデフの動画には大きな予算が必要です。時間もかかります。制作には、めったに揃わない専門チームが必要です。高くつくし、実際に 高い のです。数秒で技術的に高品質な動画を作れるという見通しは、確かに魅力的です。とはいえ、良い意味を持つすばらしい画像だって、決して安くて簡単ではありません。
予想どおり、コンピュータ生成画像に起きたのと同じインフレが、AI 動画にも起こります。彼らはすぐに、退屈さでは Pet Shop Boys を追い抜くでしょう.1 そして、使う人を安っぽく、怠惰で、陰気に見せるようになります。ブランドやコンテンツを豊かにするどころか、むしろ損ない、価値を下げるのです。2
一目でわかる不気味さ
もう多くの人が、コンピュータ生成画像を見分けられます。AI アートは新しいストック画像 です。その効果は「わあ」や「おお」とは真逆です。不気味でありながら退屈でもある。奇妙な組み合わせですが、もっと奇妙なのは、不気味さ、見分けやすさ、退屈さが互いを強め合っていることです。
- 不気味だから見分けられる
- 意図も感覚もないから不気味だ
- 体も心も使わずに作られているから、意図も感覚もない
コンピュータ生成画像のすべてが悪いわけではありません。創作過程で AI をうまく使う方法は、確かにあります。ツールとプロセスをよりきちんと制御するほど、出来上がるものはより思慮深くなり、もはや「AI」と呼ぶにはふさわしくなくなります。この記事が扱うのは、AI 画像や動画の複雑で、制御された、プロフェッショナルな使い方ではありません。称賛され、宣伝され、ありふれた、怠惰な使い方3についてです。
雑な AI 画像は、記事に良い画像を手軽に足す実用的な方法ではなく、むしろテキストの価値を下げ、私たちを安っぽく、退屈で、怠惰で、少し不気味に見せます。なぜでしょうか。おそらく、どう作られているかを私たちが知っているからです。
- それらを作るのに、さほど時間もエネルギーもかからないことを知っている。
- その際に起こる種類の誤りを、知り、感じ、見分けている。
- それらがそれ自体で意味を持つのではなく、私たちが意味を与える再利用された視覚データにすぎないことを知っている。
運が良ければ、コンピュータはあなたのメッセージを豊かにする画像、テキスト、音、動画を生み出します。運が悪ければ、性差別的、人種差別的、あるいはほかの意味で不快で、愚かで、破壊的で、品位を下げるメッセージを生み出し、意図しなかった悪い印象を与えます。
「これは Black Hole Sun のミュージックビデオです」
私たちは、その欠陥を、オリジナルの Jurassic Park に出てくる偽物の恐竜と同じくらい見抜けます。最初のうちは、AI 画像は新しくて新鮮で、どこか不気味でした。もし 30 年前にタイムマシンで戻り、フロッピーディスクに AI 画像を数枚入れていったら、90 年代の友人たちは仰天するでしょう。おそらく大金で売れたはずです。Aphex Twin は最初の顧客になるでしょう。Soundgarden に AI 生成動画を売れば、かなりいい取引になったかもしれません.4
1994 年、アメリカのロックバンド Soundgarden は、Black Hole Sun というシュールで暗い曲を発表しました.5 歌詞はいろいろに解釈できます。核戦争のことだと言う人もいます。ヘロインのことだと考える人もいます。今なら、AI 画像についての歌だと主張することもできるでしょう。作者は歌詞について、こう説明しています。「ただの言葉です。」
「Woodinville にある Bear Creek Studio から車で帰る途中、頭の中で書いたんだ。シアトルから 35〜40 分ほどの道のりだよ。テレビのニュースキャスターが言った何かを、僕が聞き間違えたところから始まった。『blah blah blah black hole sun blah blah blah』と聞こえたんだ。最高の曲名になると思ったけれど、いったいどんな響きになるのか、とね。」 — Chris Cornell, cit. in Songfacts
じっくり見ると、学者ならそれらを暗くてシュールなロック・キッチュだと評するかもしれません。歌詞とその歴史は、AI 生成コンテンツの予言へとねじ曲げることもできるでしょう。とはいえ、あまりねじらなくてもそのまま響くのは、映像の美学のほうです。
そのビデオは、まさに今のコンピュータ生成コンテンツのように見えます。彩度が高すぎ、歪んでいて、人間味と説得力の欠如ゆえに怖い。甘さと暴力性を混ぜ合わせ、物語や意味への配慮なく、シーンを次々と見せていきます。映像の監督である Howard Greenhalgh によれば、この作品は David Lynch の Blue Velvet の冒頭シーンの美学を、ある程度なぞっているのだそうです。総じて、彼はそれを「******* イカれている」ように見せるために作ったのでした。Greenhalgh はそれを「ホラー漫画」と呼びました。
AI 画像がこれほど退屈になった今も、不気味さは相変わらずです。なぜなのかは、まだ推測するしかありません。人の外見にフェイクや病、死を見抜くよう訓練されているからでしょうか。それとも、まだ単純に出来が十分ではないからでしょうか。理由は、美学だけでなく、人間がこれらの画像や動画を作っていないという知識にも関係しているはずです。
Soundgarden のビデオ効果もコンピュータ生成でした。違いは、それらが意図を持って作られたことです。AI 生成コンテンツは、意図がないからこそ、あの姿をしています。コンピュータ生成画像は意味を欠き、感情を欠き、私たちは視覚的にもそれを見抜けます。AI 画像は、悪い夢、悪いトリップ、悪い人生のように感じます。すべてが本物に見えるのに、何ひとつ意味がない。AI 画像は、私たちがどこかで知っているものを見せますが、空虚で、すべての感覚を失った黒い穴へ引きずり込もうとします。見た目が本物らしくなるほど、その空虚さはより恐ろしく感じられるのです。
視覚的な AI コンテンツは、どれほどシミュレーションが洗練されても、これからも私たちを不気味にさせ続けるでしょう。感情、意図、意味、物語の欠如。かわいさと地獄の近接。AI 生成の眼差しに宿る死。それらは、写実性が高まるからといって和らぐものではありません。ピクセル密度や、音・光・物理の技術的完成度が増すほど、ホラーはむしろ鮮明になります。鮮明になればなるほど、描かれている精神病理もより明確になるのです。
Soundgarden のビデオには、対比のためにかわいい子羊が登場します。そのかわいさが、ビデオ全体をさらに不気味にするのです。Sora の子犬たちもかわいい。スローモーションのおかげで、不自然さが隠れています。でも文脈の中では、Soundgarden の有名なビデオに出てくる子羊と同じ効果を持ちます。つまり、狂気のホラーに砂糖を足して、血流に入りやすくしてしまうのです…
かわいい子犬は、表情がほとんどないので良い見本です。人間の動きや顔を解釈する、非常に敏感な認識装置を私たちは持っています。人間の外見を再現するのは、それほど難しいのです。ゆっくり動くかわいい子犬はその逆です。私たちは、ただ好きになればいいのです。
感情がなければ、意味もない
「AI はもっと良くなるし、そのうち見分けがつかなくなる」
技術は時間とともに良くなります。それがどうした、という話です。チェス用コンピュータは、誰が指しているのか人間には見分けがつかないほど強くなりました。でも、その違いは今もなお重要です。コンピュータが指しているとわかった瞬間、チェスは意味を失い、技術的な演習になってしまいます。コンピュータは練習には役立ちますが、ゲームを面白くしたわけではありません。
コンピュータ生成の映画は、技術的に完璧になるかもしれません。いつか FBI でも、Sora と Stanley Kubrick の違いが見分けられなくなる日が来るかもしれません。でも、いったんそれを知ってしまえば、その現実の空虚さが、私たちを再び黒い穴へと引き戻すでしょう。コンピュータチェスと同じです。向こう側では誰も気にしていないのに、なぜこちら側で気にする必要があるのでしょう?
「誰でも間違える」
「AI」が間違えること自体は問題ではありません。私たちも間違えます。問題は、どんな種類の間違いか です。視覚的な誤りが、人間らしさの証拠ではなく、その不在の証拠だと気づいた瞬間、奇妙なことが起こります。「これは AI だ」と気づくのは、コンピュータ相手にチェスをしていたと知るようなものです。ゲームは目的を失います。
私たちは、理解や集中の一部不足から間違えます。処理エラーは、現実の基本に対する深い無理解をしばしば示します。では、称賛されている Sora の動画を見ながら、その不気味さの仕組みを見ていきましょう。
なぜ AI 動画はこんなに良く見えて、こんなに変に感じるのか?
ポルトガルの犬
最初は色鮮やかに見えますが、すぐに話は犬の身を案じさせます。「シャッターの横を通り抜けたら、落ちるに決まっている」と思うのです。ところが、犬はなんとか簡単に渡ってしまう。次の窓に着くと、さらに不可能そうな跳躍をしそうに見えます。幸い、動画は避けられない落下の前に終わります。美しい色の世界にいるかわいい犬が、怖い物語へと変わるのです。
東京の女性
最初はもっともらしくておしゃれに見えます。けれど、床のゼブラ模様や、それが街の中央へ向かっていることに気づきます。それから、切り貼りされた矢印や、看板に書かれた作り物の日本語が目に入ります。ここにきて、メガネの奥の死んだ目を持つ、少しずつ老けていく顔が、奇妙な雰囲気を帯び始めます。数秒ごとに変わる年齢が、物語そのものを変えてしまうのです。老化に気づくかもしれないし、気づかなかったかもしれません。でも、何かがおかしいと感じていたはずです。
ゴールドラッシュ
しばらくすると、半分だけの馬や馬の亡霊が現れては消えていくことに気づくでしょう。そして、それが偽物で、しかも意図せずそうなっているとわかります。クリップの終わりには、Cowboy Zombie 映画の冒頭のように見えてきます。
こうした細部は、技術的な完成度の高さの前では些細に見えるかもしれませんが、感情の受け取り方にとっては重要です。細部が物語に命を吹き込みます。馬が溶けると、物語はゴールドラッシュから ウォーキング・デッド に変わります。
子犬モンスター
先ほどの例に賛成でも反対でも、あるいは、こんなに画質がよいなら細部なんてどうでもいいと思うかもしれません。もう少し客観的な例を見てみましょう。
またしても、かわいい子犬たちが遊んでいます。かわいい。けれど、やがて苛立ってきます。「待って、何匹いるんだ? 3 匹、4 匹、5 匹、それとも 10 匹?」 かわいい子犬の遊びから始まったものは、定義の曖昧な毛むくじゃらのモンスターのホラーショーへと変わります。かわいさでこちらを見続けさせ、そのまま幽霊みたいなものへ変えてしまうのです。
変化を意識的には気づかないかもしれませんし、何となく理由をつけてしまうかもしれません。「たぶん、ほかの子の後ろに隠れていただけだろう…」 でも、何かがおかしいと感じます。理由もなく進行するにつれて物語が完全に変わってしまう映画は、私たちを怖がらせます。とくに、かわいさと幽霊っぽさを組み合わせるときには。
意味と不気味さ
知識と意味
コンピュータは、自分が何をしているのかわかっていません。視覚であれ言葉であれ、私たちの言語が説明する世界についての理解も経験もないのです。ただ統計的に処理するよう命じられた記号とのあいだに、内的にも外的にも関係を持ちません。コンピュータ生成情報を思慮なく使い回せば、あなた自身も、その内容をまったく理解していない、あるいは嘘をついている人物として見なされかねません。
情報が「意図された」のではなく「生成された」と知ることは、テキストでも、音声でも、動画でも、チェスの一手が考えられたのではなく計算されたと知るのと同じ効果を持ちます。AI と人間の意味の差は本物です。電卓や人間の頭で 2*2 を出した結果は、数値としては同じかもしれません。でも、誰かが 2 が 4 になる感覚を味わったと知っているとき、それには別の意味があるのです。
6 本指の手や、物理法則に従わない物体のような AI の典型的な欠陥を、もう見なくても興味を失えるようになっています。私たちが読んだものに、そもそも意図された意味がなかったと気づいた瞬間に、興味は失われるのです。これは、嘘やくだらない戯言に対する私たちの自然な反応です。
意味とフィクション
コンテンツの価値は、それが何を意味するかにあります。何かを表現する意図がなかったなら、そこにはあなたが投影する意味しかありません。昔ながらのポストモダニストでないなら、何をどう解釈しようと、何かが何を意図して作られたかは、解釈だけでなく、その前提そのものに影響することを知っているはずです。表現が印象を伴わなければ、意味は損なわれます。意味のないメッセージは、私たちの時間を無駄にします。私たちは本能的に、それらから目をそらします。
私たちは、嘘や偽物を見抜く訓練を受けています。CGI のレイア姫でも、飛び立つスーパーマンでも、おとぎ話のありえない出来事でも、現実と虚構を見分けるための感覚はよく発達しています。現実がないことが、フィクションに入るときの前提条件なら、私たちはその偽物を受け入れます。
しかし、最初は本物に見えたものが「別の何か」だと気づくことは、もっと深い恐怖につながります。嘘、悪魔、幽霊、病気への恐怖です。感情を装っているものが実は空虚で、私たちを操ろうとしていると知った瞬間、私たちは嫌悪を感じ、距離を取ります。これは、私たちの嘘や欺きに対する自然な反応です。偽物の送り手を自分の世界から排除することは、生存に関わる場合すらあります。
フィクションと精神病的な嘘
コンピュータ生成画像で私たちを不気味にするのは、現実感の欠如だけではありません。舞台劇やスーパーヒーロー映画を見るとき、私たちは映像の写実性を、よい物語のために差し出しています。映像やアクションのあり得なさは、物語のために許します。いつでも、現実と引き換えに、よくできた意味のある物語を受け入れるのです。
生成コンテンツの不気味さは、見た目の不気味さや物語の不気味さだけから来るのではありません。私たちは怖い映画を観るし、怖い話を読むし、それを楽しみます。もしホラーが、物語に入るときに合意した取引内容なら、私たちはそれを期待し、受け入れます。
最終的に私たちを不気味にするのは、こうしたすべてが、意図された意味も感覚もなく起こっていることです。それは精神病的に見えます。AI は、理由もなく物語を変え続ける精神病的な嘘つきのように振る舞います。
負の価値
コンピュータ生成コンテンツの視覚的ホラーが続く一方で、美的価値は秒単位で薄れていきます。AI 生成画像は世の中にあふれていて、どれも似たり寄ったりです。AI 動画にも同じ美的価値の低下が起こるでしょう。やがてそれらは、負の資産になるのです。
コンピュータ生成画像は、すばやく簡単に作れます。1 年前より画質はかなり良くなりました。そして今でも、最初の見た目は 楽しく 見えます。けれどその間に、急速にストック画像を置き換え始めています。安くて手軽なものは何でもそうですが、どこにでもあるようになるのと同じ速度で、創造的価値も経済的価値も失っていきます。見分けやすくなった時点で、それはもはや負債と見なすべきです。
従来の動画制作に比べて、生成動画のコストはほとんどゼロに近く、しかもインフレ的な数で生産されるため、今は華やかに見える技術的な見せ場も、数か月で古くさくなるでしょう。
コンピュータ生成チェスに起きたまったく同じ経済インフレが、コンピュータ生成テキストとコンピュータ生成画像にも起きています。そして、これこそがコンピュータ生成映画にすぐ起こることです。彼らはあなたの信頼性に重くのしかかります。
結論
コンピュータ生成動画は、最初の見た目では人を驚かせます。やがてそれは、コンピュータ生成テキストや画像と同じ軌道をたどり、認識しやすさが増し、感情的にも、美学的にも、論理的にも同じように見えるようになります。
インフレ的に使われることで、それらはスタイル上も、経済上も、創造上も、ほとんど価値を持たなくなります。ある時点で、それらは負債となり、加えるものよりも周囲を引き下げる害のほうが大きくなります。
AI は道具として使い、ただ怠惰に勝手にやらせるのではなく、制御しようとすることはできます。とはいえ、その制御された使い方について、私たちが楽観的になりすぎる理由はあまりありません。一般に、AI は人間の知性とともに使われるようには、使われず、設計されず、宣伝されてもいません。考えずに行動させるために構想され、売られているのです。
-
ポップカルチャーに親しんでいるなら、Pet Shop Boys を退屈だと言われても、そこまで本気で怒るわけにはいきません。皮肉なことに Being Boring は、ある日本人評論家が彼らのバンドを「つまらない」と書いたことで Neil Tennant が傷ついたことへの反応として作られました。「私は傷ついたわけではない。1989 年 7 月初旬、[Pet Shop Boys の共同創業者] Chris Lowe と私が東京の武道館で演奏したあと、日本人の評論家が『Pet Shop Boys はしばしば退屈だと批判される』と書いたのだ。」— Being Boring - The path to a pop elegy。彼はそれを受けて、「自分たちは決して 退屈ではない」という歌を書いたのです。もしまだ腹が立つなら、The Guardian でその傷をなめればいいでしょう。「なぜ Pet Shop Boys の Being Boring は完璧なポップソングなのか」を教えてくれます。とはいえ、やっぱり退屈ですが。 ↩︎
-
今では AI 画像で記事を飾る小規模ブログが、無数にあります。一見ステップアップのようでいて、実際にはステップダウンです。少なくとも、ストック画像を探すには、多少なりとも検索し、ありきたりな画像のどれを選ぶかで顔をしかめる必要がありました。AI 画像が言っていることは、せいぜい「Midjourney を知っています。何を見ればいいかはあなた次第、このロールシャッハ・テストで」といった程度です。 ↩︎
-
5 億ドルで CNET を買収した Red Ventures の幹部たちは、「AI の力をほとんど狂信的な熱意で称賛していた。『これからは』と CEO の Ric Elias は、Futurism が音声を入手した 2023 年 7 月の全社集会で従業員に語った。『私たちは AI になる』と。」その数か月後の結果はこうでした。「CNET と Bankrate はどちらも AI の取り組みを『停止』し、広範な訂正を出した。しかし、少なくとも Wikipedia 編集者の目には、手遅れだった。2 月中旬までに編集者たちは、2020 年の Red Ventures への売却以降に CNET が公開したものは『一般に信頼できる』とはみなせないと判断し、かなり大量の塩をひとつまみではなく掴んで扱うべきだと結論づけた。」Wikipedia No Longer Considers CNET a “Generally Reliable” Source After AI Scandal AI で文章を雑に作ると、文字どおり家を燃やしかねません。 ↩︎
-
「『Black Hole Sun』の撮影中、彼は役者たちにひとつだけ指示を出した。『とにかくクソほどイカれて見えろ』と。[…] バンドのメンバーが唯一こだわったのは、ほかのキャストと違って、くだらない作り笑いをしたくないということだった。その代わり、彼らはブルースクリーンの前で無表情を貫いた。その提案で Greenhalgh は費用を抑えられた。ほかの役者たちの大げさな笑顔にはデジタル処理が必要で、当時の原始的な CGI でもかなり高価だったからだ。『クリスが笑いたくないと言ってくれて本当に助かった』と監督は言った。『あれを笑顔にしていたら、ポストプロダクションの予算がとんでもないことになっていたから。』」 出典: “Look F***king Psychotic”: The Enduring Mystery of Soundgarden’s “Black Hole Sun” ↩︎
-
Sora の誕生日ケーキ動画と Black Hole Sun のアナロジーのヒントは、NYT 記者 Mike Isaac の Threads 投稿から来ました。 ↩︎