Google

映画の中で、コンピューターに画像があり、 The Guy In The Chairの隣に立っている探偵は、「そのライセンスプレートをズームインして強化できますか?」と言っています。そのテクノロジーは、おかげで今では本物です Googleの最新のAIエンジン。

これを行うプロセスは、拡散モデル(およびいくつかの非常に高度な数学)を使用して、元々存在していなかった詳細を画像に追加します。これは、類似の画像を使用した当て推量によって行われ、Googleが自然画像合成、この場合は画像の超解像度と呼んだ手法です。

明らかに、小さなピクセル化された画像から始めます(上記の各画像セットの左側にある画像)は、元の画像と100%完全に一致していなくても、より鮮明に見えるだけでなく、人間の目にはリアルに見える、はるかに高解像度の画像になります。仕事を成し遂げるために、Googleは2つの新しいAIツールを使用しました:繰り返し精製による超解像(SR3)とカスケード拡散モデル(CDM)。

最初のSR3は、画像にノイズを追加します(これは静的なものに似ています)または、信号が弱いときにTV画面に表示される雪)、プロセスを逆にします。画像の大規模なデータベースと一連の確率計算を使用して、画像の低解像度バージョンがどのように見えるかをマッピングします。これについては、Googleの研究者であるChitwanSahariaがここ。

Google

「拡散モデルは、ガウスノイズを徐々に追加し、詳細をゆっくりと消去することでトレーニングデータを破壊することで機能します。純粋なノイズになるまでデータを分析し、ニューラルネットワークをトレーニングしてこの破損プロセスを逆転させます。」説明サハリア。

2番目のツールであるCDMは、「パイプライン」を使用して、さまざまな拡散モデル(SR3を含む)を使用して、高解像度のアップグレードを作成できます。このツールは、Googleが研究論文オン。

最終結果は?研究が最終的な画像をテストで人々に提示したとき、彼らは生成された顔が約半分の時間で実際の顔と間違えられたことを選択しました。 50%のレートは成功していないように聞こえるかもしれませんが、完璧なアルゴリズムで期待できることと一致しています。 Googleによると、この方法は、競合するニューラルネットワークを使用して画像を洗練する生成的敵対的ネットワークなど、他の画像強調オプションよりも優れた結果をもたらします。 。

Googleは、確率モデリングの他の領域と同様に、画像のアップスケーリングの範囲を超えて、これらのAIエンジンとその関連テクノロジーをさらに活用する予定であると述べています。この「ズームとエンハンス」テクノロジーにより、高級な古い写真などを簡単に作成できますが、写真やライセンスプレートなどをズームインしてエンハンスする可能性についても、間違いなく懸念があります。

サイエンスアラート経由