AI生成の動画を“5倍以上長く”する拡張モデル「ExVideo」、無音動画に“それっぽい音”を挿入できる「FoleyCrafter」など生成AI技術5つを解説(生成AIウィークリー)

ai生成の動画を“5倍以上長く”する拡張モデル「exvideo」、無音動画に“それっぽい音”を挿入できる「foleycrafter」など生成ai技術5つを解説(生成aiウィークリー)

AI生成の動画を“5倍以上長く”する拡張モデル「ExVideo」、無音動画に“それっぽい音”を挿入できる「FoleyCrafter」など生成AI技術5つを解説(生成AIウィークリー)

他の写真を見る

1枚の画像とプロンプトから短いアニメーションを生成する動画生成AI「Luma Dream Machine」に、2枚の画像を入力として、その間の映像(中割り)を生成する機能「Keyframes」が実装されました。この新機能は非常に強力で、始めの画像から終わりの画像までをできるだけ自然に繋げるアニメーションを生成します。特に、似たような画像同士の場合、滑らかな中割り映像を作り出します。

Soraレベルの超高性能動画生成Luma AI「Dream Machine」が2枚の元絵指定できる「キーフレーム」機能追加。弱点の「別人化問題」がこれで解消するか、試してみた(CloseBox)

Googleがオープンな言語モデル「Gemma 2」を開発者向けに公開しました。90億パラメータと270億パラメータの2サイズを提供しています。

さて、この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第53回)では、生成する動画時間の延長や無音ビデオに適した音を生成するなど動画AIに関する内容が盛りだくさんです。

生成AI論文ピックアップ

既存のAIが生成する動画の時間を長くするモデル「ExVideo」、Stable Video Diffusion生成動画を5倍以上の長さに拡張

動画生成技術が急速に進歩する中、長時間の動画を生成することはまだ大きな課題となっています。この問題に取り組むため、研究者たちは「ExVideo」という手法を開発しました。ExVideoは既存の動画生成モデルを拡張し、より長い動画を生成できるようにする新しいアプローチです。

ExVideoの仕組みは、動画生成モデルの重要な部分である時間的モジュールを巧みに拡張することにあります。具体的には、3D畳み込み層、時間的注意機構、位置エンコーディングなどを改良し、モデルがより長い時間スケールで動画を理解し生成できるようにしています。

この手法の大きな特徴は、元のモデルの持つ汎用性を損なうことなく拡張できる点です。そのため、様々なスタイル(リアル、アニメ、ピクセルアートなど)や解像度(512×512、576×1024、1024×576、1024×1024など)の動画を生成することが可能です。

また、限られた計算リソースでも効率的に学習できるよう、パラメータの凍結や混合精度トレーニングなどの技術を活用しています。

研究チームは、この手法をオープンソースモデル「Stable Video Diffusion」に適用しました。その結果、元のモデルが生成できる最大25フレームから、128フレーム(5倍以上の長さ)の動画生成に成功しました。

さらに、ExVideoは既存のテキストから画像への生成モデルと組み合わせることができます。これにより、ユーザーが簡単なテキスト入力をするだけで、長時間の高品質な動画を生成できるシステムの構築が可能になります。

ai生成の動画を“5倍以上長く”する拡張モデル「exvideo」、無音動画に“それっぽい音”を挿入できる「foleycrafter」など生成ai技術5つを解説(生成aiウィークリー)

ai生成の動画を“5倍以上長く”する拡張モデル「exvideo」、無音動画に“それっぽい音”を挿入できる「foleycrafter」など生成ai技術5つを解説(生成aiウィークリー)

ai生成の動画を“5倍以上長く”する拡張モデル「exvideo」、無音動画に“それっぽい音”を挿入できる「foleycrafter」など生成ai技術5つを解説(生成aiウィークリー)

ExVideo: Extending Video Diffusion Models via Parameter-Efficient Post-Tuning

Zhongjie Duan, Wenmeng Zhou, Cen Chen, Yaliang Li, Weining Qian

Project | Paper | GitHub

言語より視覚に重きを置く、オープンなマルチモーダル大規模言語モデル「Cambrian-1」はGPT-4VやGemini Proと同等レベル

Cambrian-1は、画像と言語の両方を理解できる新しいAIモデルです。従来のAIが言語能力の向上に重点を置いていたのに対し、Cambrian-1は視覚的な理解能力の向上に焦点を当てています。

このモデルは8B、13B、34Bの3つのサイズで提供され、それぞれ約80億、130億、340億のパラメータを持っています。

研究チームは20種類以上の画像認識モデルを比較検討し、「Spatial Vision Aggregator」(SVA)という新技術を開発しました。SVAにより、高解像度の画像情報を効率的に処理できるようになりました。

また、AIの視覚理解能力をより正確に測定するため、「CV-Bench」という新しい評価基準を作成しました。

Cambrian-1の学習には、インターネット上の多様な画像と文章データを使用し、バランスの取れたデータセットを作成しています。

結果として、Cambrian-1は多くの評価基準でオープンソースのモデルを上回り、GPT-4VやGemini Proなどの最新の商用AIモデルと同等以上の性能を示しています。特に視覚的な理解を必要とするタスクで優れた結果を出しています。

ai生成の動画を“5倍以上長く”する拡張モデル「exvideo」、無音動画に“それっぽい音”を挿入できる「foleycrafter」など生成ai技術5つを解説(生成aiウィークリー)

ai生成の動画を“5倍以上長く”する拡張モデル「exvideo」、無音動画に“それっぽい音”を挿入できる「foleycrafter」など生成ai技術5つを解説(生成aiウィークリー)

ai生成の動画を“5倍以上長く”する拡張モデル「exvideo」、無音動画に“それっぽい音”を挿入できる「foleycrafter」など生成ai技術5つを解説(生成aiウィークリー)

ai生成の動画を“5倍以上長く”する拡張モデル「exvideo」、無音動画に“それっぽい音”を挿入できる「foleycrafter」など生成ai技術5つを解説(生成aiウィークリー)

Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs

Shengbang Tong, Ellis Brown, Penghao Wu, Sanghyun Woo, Manoj Middepogu, Sai Charitha Akula, Jihan Yang, Shusheng Yang, Adithya Iyer, Xichen Pan, Austin Wang, Rob Fergus, Yann LeCun, Saining Xie

Project | Paper | GitHub

イベントカメラを使用するAIビデオ超解像技術「EvTexture」、特にテクスチャ領域で画質向上

スマートフォンやデジタルカメラで撮影した低画質の動画を、鮮明な高画質動画に変換する技術「ビデオ超解像」があります。しかし、これまでのビデオ超解像技術には課題がありました。特に、布地の織り目や木の葉のような細かい模様(テクスチャ)を持つ部分を鮮明に再現することが難しかったのです。

この問題に取り組むため、研究チームが新しい手法「EvTexture」を開発しました。EvTextureの特徴は、「イベントカメラ」と呼ばれる特殊なカメラを活用している点です。通常のカメラは一定間隔で画像全体を撮影しますが、イベントカメラは各画素の明るさの変化を瞬時に捉えることができます。高い時間分解能と広いダイナミックレンジを持つため、動きの速いシーンでも詳細な情報を捉えることができます。

EvTextureは、このイベントカメラのデータを利用して、テクスチャの豊かな部分を効果的に復元します。システムは深層学習技術を駆使しており、主に二つの部分から構成されています。一つは動きの情報を処理する部分、もう一つはテクスチャを強化する部分です。

研究チームがVid4、REDS4、Vimeo-90K-Tなどの標準的な評価用データセットを用いてEvTextureの性能を検証したところ、既存の最先端技術と比べて画質向上が確認されました。特に、テクスチャの多い映像では、最大4.67dBもの画質改善を達成しました。

ai生成の動画を“5倍以上長く”する拡張モデル「exvideo」、無音動画に“それっぽい音”を挿入できる「foleycrafter」など生成ai技術5つを解説(生成aiウィークリー)

ai生成の動画を“5倍以上長く”する拡張モデル「exvideo」、無音動画に“それっぽい音”を挿入できる「foleycrafter」など生成ai技術5つを解説(生成aiウィークリー)

ai生成の動画を“5倍以上長く”する拡張モデル「exvideo」、無音動画に“それっぽい音”を挿入できる「foleycrafter」など生成ai技術5つを解説(生成aiウィークリー)

ai生成の動画を“5倍以上長く”する拡張モデル「exvideo」、無音動画に“それっぽい音”を挿入できる「foleycrafter」など生成ai技術5つを解説(生成aiウィークリー)

ai生成の動画を“5倍以上長く”する拡張モデル「exvideo」、無音動画に“それっぽい音”を挿入できる「foleycrafter」など生成ai技術5つを解説(生成aiウィークリー)

EvTexture: Event-driven Texture Enhancement for Video Super-Resolution

Dachun Kai, Jiayao Lu, Yueyi Zhang, Xiaoyan Sun

Project | Paper | GitHub

長い動画を理解できるオープンソースなAIモデル「LongVA」

画像や動画を理解する大規模なマルチモーダルモデルが注目を集めています。しかし、既存のモデルは長時間の動画を理解することが難しいという課題があります。

この問題に対して、研究者たちは新たなアプローチを提案しました。従来の方法では視覚トークンの数を減らすことに焦点を当てていましたが、今回の研究では言語モデル自体の長い情報の流れを理解し記憶する能力を拡張することで、動画理解の性能向上を図りました。

研究チームが開発したオープンソースなモデル「LongVA」(Long Video Assistant)は、言語モデルのコンテキスト長を22万4000トークンまで拡張し、2000フレーム以上、20万以上の視覚トークンを処理できるようになりました。LongVAは長時間の動画データで訓練することなく、短い画像データのみを使用して訓練されています。

また、研究チームは「V-NIAH」(Visual Needle-In-A-Haystack)という新しいベンチマークを開発しました。これは言語モデルの長い情報を理解する能力を測る「NIAH」を視覚領域に応用したもので、長時間動画理解能力を効果的に評価することができます。

V-NIAHで評価した結果、LongVAモデルは、2000フレームまでほぼ完璧な精度で情報を抽出し、3000フレームまで拡張しても高い精度を維持しました。これは、言語モデルの訓練時のコンテキスト長を超えて一般化できることを示しています。

またVideo-MMEベンチマークでは、LongVAは7Bパラメータ規模のモデルの中で最高性能を達成しました。入力フレーム数を8から128まで増やすと、性能が47.9%から52.6%まで向上しました。特に長い動画での性能向上が顕著でした。

ai生成の動画を“5倍以上長く”する拡張モデル「exvideo」、無音動画に“それっぽい音”を挿入できる「foleycrafter」など生成ai技術5つを解説(生成aiウィークリー)

ai生成の動画を“5倍以上長く”する拡張モデル「exvideo」、無音動画に“それっぽい音”を挿入できる「foleycrafter」など生成ai技術5つを解説(生成aiウィークリー)

ai生成の動画を“5倍以上長く”する拡張モデル「exvideo」、無音動画に“それっぽい音”を挿入できる「foleycrafter」など生成ai技術5つを解説(生成aiウィークリー)

ai生成の動画を“5倍以上長く”する拡張モデル「exvideo」、無音動画に“それっぽい音”を挿入できる「foleycrafter」など生成ai技術5つを解説(生成aiウィークリー)

Long Context Transfer from Language to Vision

Peiyuan Zhang, Kaichen Zhang, Bo Li, Guangtao Zeng, Jingkang Yang, Yuanhan Zhang, Ziyue Wang, Haoran Tan, Chunyuan Li, Ziwei Liu

Paper | GitHub

無音ビデオに音を挿入する音生成AI「FoleyCrafter」、動画内容に同期したそれっぽい音を生成

「FoleyCrafter」は、無音の動画に高品質で意味的に関連し、時間的に同期した音声を自動的に生成するフレームワークです。動画と同期した高品質の効果音を自動生成し、臨場感あふれるビデオを生成します。

この技術は、事前学習済みのテキストから音声への変換モデルを活用します。さらに、「意味的アダプター」と「時間的コントローラー」という2つの重要な要素を備えています。意味的アダプターは動画の内容に合わせて適切な音声を生成し、時間的コントローラーは音声と映像を正確に同期させます。

例えば、犬が吠える映像であれば、吠えた瞬間に鳴き声が挿入されたり、テニスをする映像であればラケットに当たる瞬間に当たった音が生成されます。

FoleyCrafterの特筆すべき点は、テキストプロンプトとの互換性です。ユーザーは文章で指示を与えることで、意図に沿った多様な音声生成が可能になります。例えば、海辺の風景に「カモメの鳴き声」というプロンプトを加えることで、その場面にふさわしい音声を生成できます。

ai生成の動画を“5倍以上長く”する拡張モデル「exvideo」、無音動画に“それっぽい音”を挿入できる「foleycrafter」など生成ai技術5つを解説(生成aiウィークリー)

ai生成の動画を“5倍以上長く”する拡張モデル「exvideo」、無音動画に“それっぽい音”を挿入できる「foleycrafter」など生成ai技術5つを解説(生成aiウィークリー)

ai生成の動画を“5倍以上長く”する拡張モデル「exvideo」、無音動画に“それっぽい音”を挿入できる「foleycrafter」など生成ai技術5つを解説(生成aiウィークリー)

FoleyCrafter: Bring Silent Videos to Life with Lifelike and Synchronized Sounds

Yiming Zhang, Yicheng Gu, Yanhong Zeng, Zhening Xing, Yuancheng Wang, Zhizheng Wu, Kai Chen

Project | GitHub | Demo

プロ作成モデルに匹敵する写真1枚→3Dモデル生成「Unique3D」、アーティストが丁寧に作ったようなポリゴンメッシュ生成「MeshAnything」など生成AI技術5つを解説(生成AIウィークリー)

YouTube広告を16倍速であっという間に終わらせるChrome拡張が公開、広告ブロック警告を回避

米国の主要レコード会社がAI作曲サービスSunoとUdioを提訴。訴訟の根拠となったヒット曲再現プロンプトを検証してみる(CloseBox)

OTHER NEWS

47 minutes ago

青森県初 青森市のタクシー会社に国が「ライドシェア」許可

48 minutes ago

新紙幣の顔、渋沢栄一 設立などに関わった企業167社が現存

48 minutes ago

男子ゴルフでショートパンツ解禁 国内本戦では初 丸山茂樹「夏のストレスが軽減されるのでは」

55 minutes ago

中国BYD、4-6月の販売台数は過去最高-値下げが寄与

55 minutes ago

軽トラ荷台が「広々リビング」に!? めちゃくつろげる「スーパーキャリイ」実車公開! 斬新すぎる“アウトドア仕様”とは?

55 minutes ago

「テセウスの船のパラドックスをご存知ですか?」換毛期の柴犬が語る哲学

1 hour ago

海のはじまり:目黒蓮、初の“月9”主演作がスタート! 初回から切なすぎる展開の連続に視聴者涙「涙腺崩壊」「圧倒された」(ネタバレあり)

1 hour ago

「本当に6月はすいませんでした」ソフトバンク山川穂高が31試合ぶりの13号ソロに「泣きそうでした」7月初戦で景気づけのどすこい!

1 hour ago

新築の部屋の天井を軽くつついたら穴開く、開発業者「小さな問題です」―中国

1 hour ago

男子ゴルフ8月の横浜ミナトで“短パン着用”プレーが認可 国内男子ツアーでは初

1 hour ago

「ため池」決壊の恐れで避難指示 笠岡市発令、西日本豪雨以降で初

1 hour ago

家族が『犬のご飯の準備』をする度に…『ダイナミックすぎる動き』が面白いと61万回再生「ハッ!が好きすぎるw」「全力すぎて草」と絶賛

1 hour ago

Amazonで「iPad mini(第5世代)」の整備済み品がセール価格に

1 hour ago

新センサーに期待。iPhone 16 Proに訪れるカメラの進化(予想)

1 hour ago

中卒の新入社員をいじめるパワハラ部長 しかし衝撃の事実を知った結果

1 hour ago

ギリシャヨーグルトと何が違うの?濃厚すぎる「グリークヨーグルト」がZ世代に今人気

1 hour ago

7~9月の「ゲリラ雷雨」発生予想、沖縄は2位 10平方キロメートル当たりでは全国最多

1 hour ago

ドコモ「d払い」、マクドナルドでdポイント最大7倍のキャンペーン

1 hour ago

小浜市長選挙2024、鳥居昭彦氏が出馬表明 出版社経営の71歳「新時代にそぐう政策」

1 hour ago

宇都宮市内で路線バス同士乗り継ぎ割 トトラで2乗車目200円引き 5日にスタート

1 hour ago

米、新たな対ウクライナ軍事支援近く発表 23億ドル超=国防長官

1 hour ago

Netflix2024年夏配信アニメラインナップ発表「屋根裏のラジャー」独占配信、「君に届け」「【推しの子】2期」など

1 hour ago

【皮膚の変態】大野真理子が推すマイベスト日焼け止め5つ

1 hour ago

【将棋】渡辺明九段「もう永世、、、」自身の棋聖失冠から始まった藤井聡太「永世棋聖」誕生に

1 hour ago

「副業」をする元保護猫さん 人間さながらの「ベッドメイク」姿に驚きの声

1 hour ago

桜島で今年20回目の爆発的噴火、噴煙高さ1700m 霧島・鹿屋方向に降灰予想 鹿児島

1 hour ago

河野氏「デマ太郎」やじに反応 「悪のり、選挙妨害に近い」

1 hour ago

花巻東にまた怪物1年生!古城大翔 父は巨人コーチ・茂幸氏 野望は高校通算“140発以上”

1 hour ago

「やば!!これじゃ一生貯蓄できないかも…!」お給料が入ったらまずやるべきコト。【お金ビギナーの貯蓄マンガ】

1 hour ago

日本代表GK鈴木彩艶、17億円超でイタリア1部パルマへ? 現地報道「クラブ史上最高額で売却」

1 hour ago

「ASUS ROG Ally X」予約開始! バッテリー大容量化・メモリ増量の後継機、139,800円

1 hour ago

「逃走中」にカーリング美人解説者が参戦 Tシャツ&ランニングパンツ姿に「可愛い 細い」「綺麗」

2 hrs ago

ソフトバンク・小久保監督が、西武戦を観戦した孫正義オーナーと交わした“AI談義”

2 hrs ago

9人死亡6人重軽傷の事故 防カメ映像から複数人いる歩道に車突っ込んだか 運転の60代男性「車が急発進」 韓国・ソウル

2 hrs ago

『海のはじまり』目黒蓮“夏”と古川琴音“水季”の別れの真相が明らかに 「夏くんより好きな人」の真意とは

2 hrs ago

阪神が延長十回に勝ち越し! 島田海吏の安打に敵失が絡み、近本光司の18打席ぶり安打となる適時打などで3得点

2 hrs ago

アップルはiPhoneの他社製ディスプレーやバッテリーのサポートを強化する

2 hrs ago

シロイルカのアーリャが赤ちゃん出産 アンナに続き しまね海洋館アクアス、全国最多に

2 hrs ago

d払い、dポイントのキャンペーンまとめ【7月2日最新版】 最大20%還元、最大10万ポイントが当たるチャンスも

2 hrs ago

ハンガリー首相がゼレンスキー大統領と会談 和平案評価の一方、早期停戦の検討を要請