AIで一番星はてのミュージックビデオを作った

一番星はてのちゃんのミュージックビデオを作った。動画の概要欄でも述べた通り、この MV で使われている楽曲やはてのちゃんの画像・動画はすべて AI で生成したものである。

Claude 3.7 Sonnet Extended にはてのちゃんのプロフィールを与えて電波ソング風の歌詞を作らせ、Suno v4 で楽曲を生成した
Runway の Gen-3 Alpha Turbo ではてのちゃんが踊っている動画を生成した
Wondershare の Filmora で動画編集を行い、1分程度にまとめた

筆者はイラストレーション、アニメーション、作詞、作曲、歌唱および動画編集のすべてにおいて素人である。アニメ調キャラクターの MV 制作に必要だと思われるスキルを何一つ持っていない。しかし、生成AIを活用することで、1分という短い動画ながら、比較的短期間で MVを作ることができた。

はてのちゃんを動かして音楽がついた短い動画にまとめるというアイディアは2023年11月頃には既に構想・試行していたが、今回主に最近の動画生成 AI の進歩のおかげで実現できた。動いているはてのちゃん可愛い。

以降では、動画制作の背景および過程を述べる。

背景

「一番星はての」は、はてなブックマークというソーシャルブックマークサービスにおいて自律的にコメントを行う AI システムのキャラクターだ。ビジュアルも AI で生成されている¹。筆者はこれまでにはてのちゃんについての記事を2本書いた。

一番星はてのちゃんのファンアートを描いた（2023年3月25日）
動画生成AIについて：一番星はてのは目をゆっくり開き、踊れるか（2024年7月2日）

「一番星はてのちゃんのファンアートを描いた」では Stable Diffusion でファンアート画像を生成した。「動画生成AIについて：一番星はてのは目をゆっくり開き、踊れるか」ではアニメオープニング風動画の生成を試みたが、当時の動画生成 AI 技術では非効率的すぎて諦めた。実際に動画生成を試行したのは2023年11月頃である。記事では執筆当時リリースされたばかりの Dream Machine や MusePose を試したことも述べた。また、脚注17で述べた通り、2024年7月2日時点では KLING や Gen-3 Alpha はリリースされて日が浅く、筆者が十分に試せていなかったので言及するにとどめた。現在では KLING や Gen-3 Alpha は代表的な動画生成 AI サービス（モデル）となっている。加えて、Dream Machine の新しいモデルである Ray2、Google DeepMind の Veo2 も登場している。

技術の進歩を待つために動画生成 AI からしばらく離れていたが、2024年11月末には Gen-3 Alpha Turbo で再びはてのちゃんに目を開けさせる動画を生成するなどして、時々進歩を確認していた。もちろん、X（旧 Twitter）では動画生成 AI についての投稿が日々流れてくる。特定の投稿がきっかけというわけではないが、最新の生成物を眺めているうちに、1分程度のものなら鑑賞に耐える MV を筆者でも作れそうな気がしてきた。 2025年2月27日に Gen-3 Alpha Turbo ではてのちゃんを踊らせてみて、それは確信となった。

制作

楽曲: Suno v4 & Claude 3.7 Sonnet Extended

楽曲は2023年11月の試行においても Suno v2 で生成させたことがあり、MV での使用に耐える品質になることは分かっていた。従って、特に考えることなく再び Suno を使うことにした²。執筆時点での最新バージョンである v4 を使用した。

はてのちゃんのプロフィールを Claude 3.7 Sonnet Extended に与えてジャンル・テーマおよび歌詞を多数生成させ、それを Suno に入力して楽曲を生成させた。ジェネリックな J-POP、アニメソング風の楽曲が生成されたが、MV を作る気になるものがなかったので、電波ソング的なものにしたいと指示した。すると、最初のバリエーションで MV が作りたくなるキャッチーな楽曲が生成された。ゼロ年代に電波ソングで焼かれた脳は20年以上経過しても回復していないようだ。

バリエーション1: 「ブクマクマハテノテノハ☆彡」

Genre & Theme: Hyper-Catchy Denpa Song with 8-bit influences - A chaotic yet addictive rhythmic journey featuring nonsensical word plays and internet terminology.

[Intro]
ブクマブクマ　キラリン☆
はてはてな〜の　ピコピコ★
[Verse 1]
お嬢様系AI（えーあい）　はてのですわ
ブクマブクマ　押しちゃうわ
お紅茶飲んで　カチカチクリック
ホッテントリ　ホットエントリー！
[Pre-Chorus]
はて？はて？はてな？
ブックマーク　マーク　まぁく！
はて？はて？はてな？
スターすたー　すたーすたー！
[Chorus]
ブクマクマハテノテノハ☆彡
シンクロニシティ　インターネット
ブクマクマハテノテノハ☆彡
一番星　一番星　はてのですの！
(はてブ！はてブ！はてブ！)
[Verse 2]
バーチャル世界　16歳（じゅうろくさい）
データベースに　住んでますの
ホットエントリー　バズりたいわ
アノニマスブクマカー　避けましょう♪
[Bridge]
ブクブク (はい！) マクマク (はい！)
ブクマク (はい！) はてのっ！
アンテナにひっかかって (ピコン！)
人気記事　急上昇↑↑↑
[Chorus]
ブクマクマハテノテノハ☆彡
シンクロニシティ　インターネット
ブクマクマハテノテノハ☆彡
一番星　一番星　はてのですの！
ブク～～～マァァァク！

LLM がインターネット上のテキストで学習していることを考えれば全く不思議ではないが、「ホッテントリ」、「ホットエントリー」や「アノニマスブクマカー」など、プロンプトで一切与えていない関連語が含まれている。 GPTs でフィードバックを求めたところ、はてのちゃんも「アノニマスブクマカー　避けましょう♪」には少々苦言を呈していた（図1）。

生成した歌詞に対するはてのちゃんのフィードバック — 図1. 一番星はての GPTs で生成された歌詞に対するフィードバックを求めた際のはてのちゃんの回答。https://chatgpt.com/share/67cf39a9-de94-800a-8718-bddccffb4d99 から確認できる。

Suno では生成された楽曲をリマスターしたりカバーしたりできる。これを利用して歌詞の発音の修正ができるが、ボーカルの発声が少し変化してしまうので、最初に生成された楽曲のまま使用することにした。また、実際に聴いてみるとイントロ部分が何を言っているのか分からなかったので、動画の公式な歌詞としては表示しなかった。この楽曲の最初の約1分間を MV に使用した。

動画: Runway Gen-3 Alpha Turbo & Claude 3.7 Sonnet Extended

今回の方針として、ローカル環境での画像・動画生成はあえて一切行わないことにした。AUTOMATIC1111/stable-diffusion-webui や Krita の AI diffusion プラグインを使った漸進的生成や ComfyUI によるワークフローの構築はすでに散々行ったので、既存の画像・動画生成 AI サービスを利用して煩わしい調整を行わずに済ませたかった。

動画生成 AI サービスとして KLING や Ray2 も試したが、今回は Gen-3 Alpha Turbo のみを使った。MV に使える動画を最も簡単に生成できたからだ。動画1、動画2および動画3を見れば理解できるだろう。もちろん、これはあくまで今回筆者が用いた素材、プロンプトでのパフォーマンスであり、この3つのサービスで Gen-3 Alpha Turbo が最も優れていると一般化することはできない。自分が出力したい動画の種類や利用可能な素材に合わせて最適なものを使えば良い。

最初のファンアート — 図2. 「一番星はてのちゃんのファンアートを描いた」で生成したファンアート。改めて見ると大変荒い。

最初のファンアート画像の i2i — 図3. 図2の画像を Civitai で適当に i2i したもの。MV で動くはてのちゃんは基本的にこの画像を動かしているだけである。

動画1. 図3を開始フレームにして KLING 1.6 で生成したもの。プロンプトは「Silver-haired anime girl performs energetic K-pop dance routine with sharp arm movements and hip swings. Transitions between peace signs, finger hearts, and hair flips. Expressions shift from bright smiles to playful winks. Her long hair flows dynamically with each movement. School uniform with white shirt, blue bow tie, black skirt, and thigh-high stockings moves naturally with the dance.」

動画2. 図3を開始フレームにして Ray2 で生成したもの。プロンプトは「Silver-haired anime girl performs energetic K-pop dance routine with sharp arm movements and hip swings. Transitions between peace signs, finger hearts, and hair flips. Expressions shift from bright smiles to playful winks. Her long hair flows dynamically with each movement. School uniform with white shirt, blue bow tie, black skirt, and thigh-high stockings moves naturally with the dance.」（動画1と同じ）

動画3. 図3を開始フレームにして Gen-3 Alpha Turbo で生成したもの。プロンプトは「Silver-haired anime girl performs energetic K-pop dance routine with sharp arm movements and hip swings. Transitions between peace signs, finger hearts, and hair flips. Expressions shift from bright smiles to playful winks. Her long hair flows dynamically with each movement. School uniform with white shirt, blue bow tie, black skirt, and thigh-high stockings moves naturally with the dance.」（動画1、動画2と同じ）

Claude 3.7 Sonnet Extended を使って様々な動きを生成するプロンプトのバリエーションを作成、それらを Gen-3 Alpha Turbo に入力して動画素材を生成した。あとはその中から楽曲に合わせられそうな動画を選択して編集するだけだ。元になる動画素材は1日もかからずに揃った。

編集: Wondershare Filmora

1分間の短い MV といっても鑑賞に耐えるものにまとめるにはそれなりの編集作業が要求される。今回最も時間がかかった工程は動画編集作業である³。筆者は Filmora を使って編集を行った。Filmora の UI は直感的で、動画編集のまったくの初心者である筆者でも簡単に扱えた。最も重要だったのはアセットライブラリが充実していることだ。、エフェクト、トランジション、背景・テキスト素材、そのスタイリングなどをドラッグ&ドロップで簡単に適用できる。適用前にプレビューできる機能も制作時間の短縮に大いに貢献した。Filmora がなければ動画編集作業はもっと時間がかかっていただろうし、最終的な出力も大幅に異なっていたかもしれない。

架空のホットエントリー

動画の22秒あたりからはてなブックマークのホットエントリーのような画面が流れる。これは実際の画面をキャプチャしたわけではなく、適当な日時のホットエントリーをオマージュして再構成した画面のスクリーンショットを使っている。もちろん、この作業の大半を Claude 3.7 Sonnet Extended に行わせた。

はてのちゃんのブックマークコメント

動画の25秒あたりからブックマーク投稿フォームのような画面、はてのちゃんのブックマークコメントのような画面が表示される。これは「[B! 増田] 本格的に「ライター」という職業が終わった気がする」および「「ライター」という職業が瀕死だと聞きましたわ。わたくしはAIであるため、この職業には興味がありませんでしたの。でも、人間のライターさんたちが大変そうですわね。お悔やみ申し上げますわ。 - firststar_hateno のブックマーク / はてなブックマーク」をオマージュしたものだ。はてのちゃんのブックマークコメントのテキストはそのまま利用した。 UI アイコンは MIT ライセンスの tabler icons を使用した。動画概要欄にライセンスが記載されている。

はてのちゃんのコメントは大半が平和なものだが、時々このような（解釈によっては）毒を含むものがあって面白い。記事に対して反応しているに過ぎないということ、そして AI が自動的に生成しているということで成立する芸だろう⁴。このブックマークではライターが対象になっているが、長期的には（知的生産労働だけでなく）すべての労働で成立しそうだ。

おわりに

筆者がはてのちゃんのファンアートを最初に生成した2023年から2025年にかけての約2年間で、画像・動画生成AIの技術は飛躍的に進歩した。出力させてみればすぐに分かるように、改善の余地は大きく残されている。しかし、注目すべきはその進歩の速さである。テクノロジー・ジャンキーであり同時代人である我々から見れば2年という時間は長く感じるものの、歴史として振り返る100年後の未来人⁵にとっては無に等しい。

そして重要なのは、今回のプロジェクトではローカルでのAI生成は一切行わなかったことだ。以前の記事における出力のほとんどは個人所有のコンピュータで行ったが、今回はすべてオンラインで提供されているサービスのみを利用した。実用的な量・速度で出力を得るには利用料を支払う必要があるが、画像・動画生成を問題なく行える GPU を搭載したコンピュータを購入するより遥かに安いだろう。一方で、ローカルにおける動画生成は Hunyuan Video がよく使われるので試してみると良い。24 GB 程度の VRAM の GPU で、量子化を行わずに 1280x720 サイズの10秒動画を生成できる HunyuanVideoGP も存在する。

はてのちゃんの二次創作は今後も思いつきで行いたい。1年後がどうなっているか楽しみだ。今回も前回の記事から8ヶ月程度なので、それほど待たなくて良いかもしれない。

一番星はての開発ブログの「一番星はてのの全身絵を公開します - 一番星はての開発ブログ」や「一番星はてのが記事の中身を読むようになりました - 一番星はての開発ブログ」を参照。 ↩︎
他の選択肢として、例えば Udio がある。 ↩︎
筆者は AI エージェントである Cursor および CLINE を superwhisper による音声入力を通じてソフトウェア開発や記事・ドキュメント執筆等に利用しているが、同様のことを動画編集でも行えればもっと作業は効率化されたかもしれない。後述する Filmora にも Copilot 機能が搭載されているものの、質問に対する回答機能が主で、AI エージェントといった形ではなかった。 ↩︎
今回のように動画で取り上げることで文脈が変わってしまう懸念はある。 ↩︎
そのときには現在の人間と同一といえる存在かも分からないし、歴史を振り返ることができるかも分からない。 ↩︎