テキストから動画を作ってみたら驚きと課題が見えた話
AIがついに「文章から動画を作る」時代へ。
OpenAIが開発中の映像生成AI「sora」は、簡単なテキスト入力だけで数秒の映像を生成してくれるツールです。
今回は、実際の風景写真(桜並木を歩く新郎新婦)をイメージにして動画を作れるのか?というテーマで、soraを試してみました。
この記事では、
- soraの使い方(操作ステップ含む)
- 入力プロンプトと生成結果
- 使ってみた感想(良かった点・難しかった点)
- プロンプト改善の気づき
までを実体験ベースで分かりやすくまとめています。
soraって何ができるの?
OpenAIのsoraは、文章(プロンプト)をもとに短い映像を生成するAIモデルです。
数十文字〜数百文字の指示文を入れるだけで、風景・人物・カメラワークを含むリアルで映画風な動画を作ってくれます。
現時点では一般ユーザーには限定的にしか公開されていませんが、デモ動画やAPIアクセスを通じて試すことが可能です。
実際にやってみた:操作ステップ(※デモ環境想定)
- sora対応のUI(例:ChatGPT Pro版)にアクセス
- プロンプト入力欄に以下のテキストを貼り付け
- 「Generate」ボタンをクリックし、生成完了を待つ(約3分)
使用した画像

使用したプロンプト
A joyful bride and groom walk hand in hand along a cherry blossom-lined path in an urban park.
Sakura petals flutter gently in the breeze as the camera slowly follows them from behind.
The bride wears a white gown, the groom in a light gray tuxedo.
Tall buildings are visible in the background.
Cinematic 4K, natural light, smooth motion.
出来上がった映像


出力された動画の基本情報
- 長さ:5秒
- 生成時間:3分
- 解像度:480p(GIF形式)
- 全体の印象:映画のワンシーンのような美しい構図。空気感・光の描写が特に秀逸。
観察してわかった「soraの強みと限界」
✅ 強み(Good)
- 自然描写がリアル:桜の木、光の表現、木の揺れ方がとても自然
- 雰囲気づくりがうまい:人の移動する動きや、演出が想像以上に滑らか
- プロンプト通りに構図が反映される:服装・建物・歩く動作など、指示が反映されやすい
⚠️ 限界(Challenge)
- 人物の顔は一般化される:写真の本人に似せるのはほぼ不可能
- 歩く動作がややループ感あり:5秒の中で違和感のない範囲だが、よく見ると繰り返しがある
- 細かい演技(感情表現)は曖昧:表情や視線の細部はあくまで“雰囲気”程度
プロンプト設計の気づき・工夫点
- 「カメラの動き」は明示すべき
例:camera slowly follows from behind
やoverhead view
を入れると精度が上がる - 「服装や髪型」を具体的に入れると安定する
例:bride in a white gown
/groom in a light gray tuxedo
- 「季節・光・背景要素」を重ねると深みが出る
例:Sakura petals
,urban park
,natural light
,cinematic 4K
まとめ:soraは“空気を映像にするAI”
今回の体験で強く感じたのは、soraは「人そのもの」よりも「空気感・雰囲気」を描くのが得意という点です。
具体的な顔や仕草の再現には向きませんが、「この写真のような映像を」と思ったとき、
その雰囲気を“映像で伝える”道具としては非常に強力です。
こんな人にオススメ!
- ブログ・SNS・動画制作で“雰囲気映像”を作りたい人
- 映像プロトタイプをAIで高速に試したいクリエイター
- プロンプトで映像を作るという“新しい表現”にワクワクする人
あとがき
soraはまだ発展途上のツールですが、「言葉から動画が生まれる体験」はやはり圧倒的です。
今後も定期的に試しながら、プロンプトの設計パターンや工夫をブログで発信していこうと思います。
コメント