Googleは「Imagen」と呼ばれる新しい作品を発表しました、」人が提供する説明を介したテキストから画像へのジェネレータ。同社は、別のAI画像ジェネレーターであるDALL-E2のパフォーマンスを上回っていると主張しています。いくつかのサンプルが提示され、間違いなく詳細が示されていますが、Imagenは現在一般に公開されていません。

新しいテキストから画像への拡散モデルは、「前例のない程度のフォトリアリズムと深いレベルを備えている」と説明されています。言語理解の。」大規模なトランスフォーマー言語モデルを通じてテキストを理解し、拡散モデルに依存して忠実度の高い画像生成を実行すると言われています。

Googleは、図面から油絵、CGIまでさまざまなスタイルのImagenの作品の画像とサンプルを提供しました。 。それらは、それらを生成するために使用される単語やフレーズを伴います。たとえば、1つのサンプルには「雪の中で空手ベルトをかぶったドラゴンフルーツ」と書かれていますが、もう1つのサンプルには「サハラ砂漠で麦わら帽子とネオンサングラスをかぶった小さなサボテン」と書かれています。

生成された画像は、実際の人が作成したかのように非常にリアルに見えます。しかし、グーグルは、純粋なノイズ画像を利用し、可能な限り最良の方法でそれを洗練することにより、拡散技術によって行われると言っています。提供されたテキストの説明を理解することにより、Imagenは64 x 64ピクセルの画像を生成し、2つの拡張を実行し、画像をより大きな1024×1024ピクセルの部分に変換します。

GoogleResearch、Brain Teamは、次のように述べています。 Imagenは、トレーニングを受けていないにもかかわらず、 COCO (大規模なオブジェクト検出、セグメンテーション、キャプションデータセット)で優れています。チームは、7.27の新しい最先端のFIDスコアを受け取ったと報告しました。

Googleはまた、「DrawBench」を使用してそれらを評価することにより、Imagenのパフォーマンスを他のテキストから画像へのモデルと比較しました。これは、GoogleがVQ-GAN + CLIP、潜在拡散モデル、DALL-E 2などの他の方法でImagenをテストした、テキストから画像へのモデルのベンチマークとして機能します。テキスト、珍しい言葉、やりがいのあるプロンプトについて、チームは「人間の評価者は、画像とテキストの位置合わせと画像の忠実度の両方において、他の方法よりもImagenを強く好む」と述べました。

研究チームからのこれらの印象的な報告にもかかわらず、 Imagenは一般に公開されていないため、自分でテストすることはできません。 Googleには、倫理的な課題、誤用の潜在的なリスク、社会的偏見、大規模な言語モデルの制限、エンコードされた有害なステレオタイプや表現のリスクなど、その理由があります。チームは、これらすべての課題があるにもかかわらず、人に関連する画像を生成することに関しては、Imagenはまだ完璧ではないと要約しています。

「Imagenは、人物を描いた画像を生成する際に深刻な制限を示します」とチームはブログ投稿で説明しています。 「私たちの人間による評価では、Imagenは、人物を描写していない画像で評価した場合に大幅に高い優先度を取得し、画像の忠実度が低下していることを示しています。予備評価では、Imagenがいくつかの社会的バイアスとステレオタイプをエンコードしていることも示唆されています。これには、肌の色が薄い人の画像を生成する全体的なバイアスや、さまざまな職業を描いた画像が西洋の性別のステレオタイプと一致する傾向が含まれます。最後に、世代を人から遠ざける場合でも、予備分析では、Imagenがアクティビティ、イベント、オブジェクトの画像を生成するときに、さまざまな社会的および文化的バイアスをエンコードしていることが示されています。今後の作業で、これらの未解決の課題と制限のいくつかを進展させることを目指しています。」

Categories: IT Info