OpenAI、ChatGPTのAI画像生成機能のメジャーアップデートを発表
OpenAIはChatGPTのAI画像生成機能の注目すべきアップグレードを正式に導入しました。これは、以前のDALL-Eのような別の画像生成モデルを使用する代わりに重要な前進です。
EMO (Emotive Portrait Alive) は、アリババのインテリジェントコンピューティング研究所 (IIC) が研究した新しい生成 AI で、あらゆる画像を「魔法のように」リアルに話したり歌ったりする機能を備えています。
つまり、アリババのAIは、静的な参照画像と音声オーディオを、自然な表情で話したり歌ったりできる動画に変換できるのです。
以前の AI は口と顔の一部のみを変形していましたが、EMO は顔の表情、自然な口の表現、正確なリップシンク、眉を動かしたり、目をしかめたり、音楽に合わせて体を揺らしたりすることができます。
Alibaba は、画像が動画に変換され、インポートした曲を即座に歌う様子を紹介するビデオをいくつか公開しました。 EMO は英語、中国語、その他多くの言語をサポートしています。
アリババは、EMOがリアルな表情を作り出せるよう、Audio2Videoと呼ばれる独自の拡散モデルを通じて大量の画像、音声、動画データでトレーニングしたと明らかにした。
画像と音声からのビデオ生成におけるリアリティと表現力という現在の大きな課題に対処するために、研究チームは、中間の 3D モデルのリンクや顔のランドマークをバイパスし、フレームをシームレスに遷移させ、ビデオの一貫性を維持しながら、オーディオ信号と顔の動きの関係とニュアンスに焦点を当てました。
アリババはこのAIをいつ一般公開するかは明らかにしていないが、EMOのデータをGithubで公開し、研究論文をArXivに投稿している。
OpenAIはChatGPTのAI画像生成機能の注目すべきアップグレードを正式に導入しました。これは、以前のDALL-Eのような別の画像生成モデルを使用する代わりに重要な前進です。
中国の AI スタートアップ企業 DeepSeek が、最新の大規模言語モデル (LLM) である DeepSeek-V3-0324 を正式にリリースしました。
Gboard は長い間、Android スマートフォンの定番キーボードでした。しかし、最近になって多くの人が Samsung キーボードに切り替え、後戻りしなくなりました。
甘くロマンチックな週末のお祝いを恋人に送りましょう。それらは単なる言葉やメッセージであっても、意味のある霊的な贈り物となり、あなたの関係を強化するのに役立ちます。
HBOのハリー・ポッターのリメイクは2026年に初公開される予定です。テレビ版ハリー・ポッターの成功の理由は次のとおりです。
美しい月の写真はインターネット上では珍しくありません。この記事では、世界で最も美しい月の写真をまとめて紹介します。
現在、AMD は、パフォーマンスが低迷している主力 CPU ラインの問題に対処するため、1 秒あたりのフレーム数を数フレーム向上できる新しいアップデートを発表しました。
2022年10月、イーロン・マスクはXを買収するために440億ドルを費やしたが、現在までに同プラットフォームの価値は78.6%下落して約94億ドルとなっている。
NASAのアルテミス1号ミッションが2022年に無事に宇宙に打ち上げられ、月の周りを回る旅を始めるが、宇宙飛行士は乗っておらず、代わりに大人サイズのマネキンが2体乗る予定だ。
掃除は楽しくやれば面倒な作業ではなくなります。掃除を楽しくする簡単な方法をいくつかご紹介します。
『鬼滅の刃 無限城』はファンから大きな注目を集めています。では、鬼滅の刃の無限要塞の中には何があるのでしょうか?一緒に調べてみましょう!
バックグラウンド会話により、ユーザーは他のアプリを使用しているときや画面がオフになっているときでも ChatGPT との会話を継続できます。つまり、ChatGPT はユーザーの電話の使用状況を 24 時間 365 日監視できます。
最近、一部のユーザーは、Google Gemini が一部の応答で重複したテキスト、奇妙な文字、まったく意味不明な内容を表示していることに気付きました。
Code Luc Tung Tam Quoc は、新しいプレイヤーが旅を始めるために必要なすべてを提供します。
Giang Ho Ngu Tuyet は、5 つの要素の相互生成と相互抑制に基づいた MMORPG ゲームです。金、木、水、火、土の5つの要素に基づいた、少林寺、明教、武当、楊家、天忍の5つの宗派があります。