AI の分野では、新しい大規模な言語モデルが毎日リリースされており、状況は猛烈なスピードで変化しています。わずか数か月の開発で、ChatGPT のような LLM を PC でオフラインで実行できるようになりました。それだけでなく、AI チャットボットをトレーニングして、パーソナライズされた AI アシスタントを作成することもできます。しかし、最近私が興味をそそられたのは、Microsoft の AI 開発への実践的なアプローチです。 Microsoft は現在、JARVIS と呼ばれる高度な形式の AI システム (Marvel の Iron Man への明確な言及) に取り組んでおり、複数の AI モデルに接続して最終結果を返します。そのデモは Huggingface でホストされており、誰でも今すぐ JARVIS の機能を確認できます。興味のある方は、Microsoft JARVIS (HuggingGPT) の使い方を今すぐ学んでください。

目次

Microsoft JARVIS (HuggingGPT) とは?

Microsoft は、特定のタスクを達成するために複数の AI モデルを使用できる独自の共同システムを開発しました。このすべてにおいて、ChatGPT はタスクのコントローラーとして機能します。このプロジェクトは GitHub で JARVIS と呼ばれ (visit)、Huggingface (したがって HuggingGPT と呼ばれる) で利用できるようになりました。人々はそれを試してみてください。私たちのテストでは、テキスト、画像、オーディオ、さらにはビデオでもうまく機能しました.

これは、OpenAI がテキストと画像を使用して GPT 4 のマルチモーダル機能を実証した方法と同様に機能します。しかし、JARVIS はさらに一歩進んで、画像、動画、音声など用のさまざまなオープンソース LLM を統合しています。ここで最も優れている点は、インターネットにも接続してファイルにアクセスできることです。たとえば、Web サイトの URL を入力して、それについて質問することができます。それはかなりクールですよね?

単一のクエリに複数のタスクを追加できます。たとえば、エイリアンの侵略の画像を生成し、それについて詩を書くように依頼できます。ここで、ChatGPT はリクエストを分析し、タスクを計画します。その後、ChatGPT が正しいモデルを選択 (Huggingface でホスト) してタスクを達成します。選択したモデルがタスクを完了し、結果を ChatGPT に返します。

最後に、ChatGPT はすべてのモデルからの推論結果を使用して応答を生成します。このタスクのために、JARVIS は Stable Diffusion 1.5 モデルを使用して画像を生成し、ChatGPT 自体を使用して詩を書きました。

JARVIS にリンクされた 20 モデル (HuggingGPT)。その中には、t5-base、stable-diffusion 1.5、bert、Facebook の bart-large-cnn、Intel の dpt-large などがあります。要約すると、今すぐマルチモーダル機能が必要な場合は、Microsoft JARVIS を今すぐチェックしてください。

ステップ 1: Microsoft JARVIS を使用するためのキーを取得

1.まず、こちらのリンクにアクセスし、OpenAI アカウントにログインして、[新規作成] をクリックします。 secret key」を使用して、OpenAI API キーを取得します。後で使用するために、キーをメモ帳ファイルに保存します。

2.次に、huggingface.co のウェブサイト (アクセス) を開き、無料アカウントを作成します。

3.その後、この リンク をクリックして、Hugging Face トークンを生成します。右側のペインで [新しいトークン] をクリックします。

4.ここに名前を入力します (たとえば、「jarvis」という名前を入力しました)。次に、役割を「書き込み」に変更し、「トークンを生成する」をクリックします。

5.次に「コピー」ボタンをクリックすると、トークンがクリップボードにコピーされます。トークンをメモ帳ファイルに保存します。

ステップ 2: Microsoft JARVIS (HuggingGPT) の使用を開始する

1. Microsoft JARVIS を使用するには、このリンクを開いて、OpenAI API キーを貼り付けます。最初のフィールドで。その後、「送信」をクリックしてください。同様に、Huggingface トークンを 2 番目のフィールドに貼り付けて、[送信] をクリックします。

2.両方のトークンが検証されたら、下にスクロールしてクエリを入力します。手始めに、JARVIS に写真の内容を尋ね、画像のURL を共有しました。

3.画像を自動的にダウンロードし、ydshieh/vit-gpt2-coco-en (画像をテキストに変換)、facebook/detr-resnet-101 (オブジェクトの検出)、および dandelin/vilt-b32-finetuned-vqa (視覚的質問応答用)。最後に、写真には鏡で自分自身を見ている猫が含まれていると結論付けました。それは素晴らしいことではありませんか?

4.別の例では、音声ファイルの文字起こしを依頼しましたが、OpenAI/ウィスパーベース モデルを使用してそれを実行しました。 JARVIS には多くのユースケースがあり、HuggingFace で無料で試すことができます。

HuggingGPT で複数の AI モデルを一度に使用する

こうすれば、 HuggingGPT を使用して、さまざまな AI モデルを使用してタスクを完了することができます。私は JARVIS を複数回テストしましたが、キューの後ろに頻繁に入る必要があることを除けば、かなりうまく機能しました。 JARVIS は、さまざまなモデルで少なくとも 16 GB の VRAM と約 300 GB のスペースが必要なため、まともな PC でローカルに実行することはできません。

Huggingface でも、クローンを作成して無料アカウントのキューをスキップすることはできません。強力なモデルを Nvidia A10G (1 時間あたり 3.15 ドルの大規模な GPU) で実行するには、サブスクライブする必要があります。とにかく、それは私たちからのすべてです。プログラミング中に支援のために VS Code で CodeGPT を使用する場合は、リンクされたガイドに進んでください。 ChatGPT 4 を無料で使用するためのリストを用意しています。最後に、ご不明な点がございましたら、下のコメント セクションでお知らせください。

1 コメント

昨年、MSI は Intel Core i9-12900HX と RTX 3080 Ti ラップトップ GPU を搭載した Titan GT77 を発売しました。これは地球上で最も強力なゲーミング ラップトップでした。 iPhone 14 シリーズが発売されてから数か月が経ち、今年が Pro モデルの年であることは定評があります。しかし、飾り気のない長所を求めるなら、シェルの量は […]

Wondershare は、過去数年間、私たちの生活と創造的な努力を簡素化するための最高のソフトウェアとツールをいくつか開発してきました。特に、Wondershare Filmora は数々の称賛を受けています。ビデオ編集リーダー賞の受賞者でした […]

Categories: IT Info