マネルト

この記事を要約すると・・・

GPT-4oとは「推論性能や回答生成速度、OCR精度などあらゆる面で旧モデルのGPT-4を凌駕する生成AIモデル」のこと
OpenAI公式が発表したGPT-4oの使い方には「映画のポスター制作」や「効果音の生成」、「3Dオブジェクトの生成」、「話者を識別した文字起こし」などがある

近年、人工知能（AI）技術の進化は目覚ましく、その代表格として知られるGPTシリーズには多くのユーザーが注目しています。

特に、最新のGPT-4o（オムニ）に、これまでの新モデル発表とは比べ物にならないぐらい高い関心が寄せられているのです。

そこで本記事では、GPT-4oの性能について旧モデルのGPT-4と比較するとともに、公式が発表したGPT-4oの具体的な使い方について解説します。

これからAIを活用したいと考えている方、既にGPTシリーズを利用している方、そして技術の進化に興味を持つすべての人にとって有益な情報を提供します。

＼危険な恋を楽しめるAIマッチングアプリ『Stella』！／
初プロフも顔写真も、メッセージも全てAIが生成！
次世代型の恋愛アプリがここに！

StellaのDLはこちら

GPT-4とGPT-4oの違いとは？
OpenAI公式発表の使い方について

GPT-4とGPT-4oの違いとは？

一言で表せば「生成AIのChatGPTにおいて、GPT-4が古いAIモデルでGPT-4oが新しいAIモデル」というのが両者の違いになります。

当然、機能や能力もパワーアップしています。

	GPT-4	GPT-4o
推論・コーディング等の基本性能	△	◯
マルチモーダル	△	◯
回答生成速度	△	◯
OCR精度	△	◯
画像・動画解析精度	△	◯
同一画像生成	△	◯
画像合成	×	◯
写真からイラストに変換	×	◯
リアルタイム音声翻訳	×	◯
感情のあるAIとの通話	×	◯
3Dオブジェクトの生成	×	◯
音声生成	×	◯
フォント生成	×	◯
文字起こし	×	◯

※マルチモーダルとはテキスト・画像・音声・動画など複数種類のコンテンツを同時に処理できることを指す。GPT-4oの「o」は『Omni（オムニ）』の略で、全方位（＝マルチモーダル）を意味する

GPT-4oは、GPT-4の性能をゆうに超えており、その差は歴然です。

また、GPT-4oは現存するAIモデルの最高峰に位置しており、GeminiやClaudeといった生成AIよりも秀でていると可能性があります。

OpenAI公式発表の使い方について

ChatGPTを運営するOpenAIが公開した注目すべきGPT-4oの使い方は、以下の通りです。

映画のポスター制作
記念コインのデザイン
効果音の生成
似顔絵の生成
テキストをフォントに変換
3Dオブジェクトの生成
アイテムの合成
話者を識別した文字起こし
動画の要約
コンクリート・ポエトリーの生成

他にもさまざまな使い方ができますが、今回はOpenAIから公表された代表的な例だけを抜粋して紹介します。

それでは順番に見ていきましょう。

※ 今回紹介する機能は順次追加される予定です。現時点では使えない可能性があります

①映画のポスター制作

人物の写真や映画の詳細、ポスターの内容を伝えるだけでコンテンツに合ったポスターを作成できます。

もちろん転用も可能なので、映画のポスター以外にもアイデア次第で飲食や美容など様々なポスターやチラシを制作できるでしょう。

無料のデザイン作成ツール「Canva」を利用すれば、納得のいく形で仕上げることも可能です。

②記念コインのデザイン

コインとロゴの画像を共有すれば、法人や個人の記念コインを制作可能です。

すでに実在するコインのデザインが気に食わない場合は、GPT-4oですぐに変更できるのでデザイナーいらずで十分に改良できます。

OpenAIはコインを例に解説していますが、これを応用すればTシャツやマグカップ、スマホケースなどのオリジナル商品を製造する際にも役に立つはずです。

デザインに組み込む素材がなくとも、GPT-4oが理想に近い形のものを追加してくれるので、わざわざ素材を集める手間も省けます。

③効果音の生成

GPT-4では不可能だった、効果音の生成ができるようになりました。

プロンプト次第で微妙に異なる音声もアウトプットされるみたいなので、心血を注いだ妥協したくない作品にピッタリの音声を生み出せるのではないでしょうか。

生成した効果音は

ゲーム開発
MV制作
YouTube投稿用の動画

などに活用できるはずです。

④似顔絵の生成

GPT-4oでは、自撮り画像を漫画風のイラストに変換することが可能です。

この機能はすでに別会社のカメラアプリに搭載されていますが、ChatGPTから気軽に似顔絵を生成できるのは非常に便利だと言えます。

上記の画像を見て分かる通り、人物の特徴をほぼ正確に捉えており、「誰の似顔絵か？」が一発でわかるほどクオリティが高いです。

「街の似顔絵師が描いた作品」にも引けを取らないでしょう。

⑤テキストをフォントに変換

GPT-4oでは、適切なフォント選びの相談をできるだけでなく、商品やサービスに適したフォントを制作することもできます。

フォントに関する従来のChatGPTの使い方としては、以下のような感じでした。

居酒屋「牛と酒」のロゴに使用するフォントを選びたいので、Google Fontsの中からふさわしいフォントを5つ提案してください
スマートフォン向けゲームアプリの紹介・攻略情報を取り扱うWebサイト「ゲーマーズ」に見合うフォントを提示してください

しかし今後は、既存のフォントから探すのではなく、新規のフォントを生成しながら好みのフォントを選べるようになるので、より世界観や雰囲気がマッチしたものを採用できるでしょう。

これにより、唯一無二の独創的なフォントでサービスを展開し、消費者の注目を集めることができます。

もちろんGPT-4oのフォント案から着想を得て、ロゴデザイナーとともにフォントデザインを洗練させていくことも可能です。

⑥3Dオブジェクトの生成

GPT-4では画像生成AI「DALL-E3」で、静止画を生成することができました。

当然、進化したAIモデルGPT-4oにおいても画像や写真を生成することは可能ですが、これに加えてなんと「3Dオブジェクト」も生成することが可能になったのです。

対応するファイル形式には「STL」や「GLB」などがあり、『学校にあるイスの3DモデルをSTLファイル形式で出力して』といったプロンプトで出力することができます。

出力されたファイルはチャット上からDLできるので、3Dビューアーソフトから生成物を確認してみましょう。

⑦アイテムの合成

通常の画像合成の場合、Aの画像上にBの画像をのせて一枚の画像を作ります。

あくまで上からのせるだけなので、色調や材質に統一感がなく、合成であることを見分けられるものがほとんどです。

一方、GPT-4oでは、元となる素材が違和感なく組み込まれるため、あたかも製造プロセスをきちんと踏んだ製品のような高品質な仕上がりとなります。

上記の画像では、上部が木製で下部が大理石のコースターにOpenAIのロゴを刻むように指示していますが、従来の画像合成では実現困難なレベルまで到達しています。

これをちょっとしたプロンプトで完成させられるため、驚きを隠せません。

飲食店や居酒屋、バーなどで使用を考えている自社製品を製造する前にイメージを可視化することもできます。

作った後に「やっぱりこれじゃないな…作り直そう」となってしまうと、余計なコストが発生してしまうので、事前に具体的なモデルをGPT-4oに生成してもらうことをおすすめします。

⑧話者を識別した文字起こし

音声ファイルを共有することで、話者の人数や会話内容を言語化できます。

それだけでなく、話者を識別して対談形式で文字起こしすることも可能です。

今後は会議を録音するだけで、GPT-4oに議事録作りをお願いする流れになるでしょう。

もう有料の文字起こしツールを頼る必要がありません。

⑨動画の要約

GPT-4oは動画の要約にも優れています。

動画を共有するだけで、記事形式の読みやすい形にまとめてくれます。

動画によっては30分から1時間程度の長いものもありますので、動画の要点だけをかいつまんでもらうことにより、少しの時間で重要な点を把握することが可能です。

「時間がもったいない」「知りたい箇所だけをピックアップしてほしい」という方はぜひ活用してみてください。

⑩コンクリート・ポエトリーの生成

コンクリート・ポエトリーとは「言葉の持つ意味ではなく文字の物質性に着目し、視覚的に展開された詩のこと」です。

GPT-4oであれば、そんな複雑なコンクリート・ポエトリーでさえも短時間で作成することができます。

用途は限定的ですが、もしかしたら今後使用する機会があるかもしれないので、念の為頭の片隅に入れておきましょう。