Claude と ChatGPT、同じプロンプトで10タスクを比較してみた

「Claude と ChatGPT、どっちを使えばいいですか?」という質問を月に何度か受ける。どちらが優れているかではなく、どのタスクでどちらが強いかを自分の手で確かめるのが先決だ。

私は新しいモデルがリリースされると、手元で定番タスクを動かして差分を確認する習慣がある。今回は Claude 3.7 Sonnet と ChatGPT (GPT-4o) を対象に、2026年5月末に10タスクを同一プロンプトで流した結果をまとめた。

結論

コード生成・論理推論では Claude 3.7 Sonnet が優位、長文要約や画像説明は GPT-4o と概ね互角、マルチターンの会話継続では GPT-4o の方が指示をブレずに保ちやすい傾向があった。「どちらか一本」より「タスクで使い分け」が実際に効く。

検証環境と前提条件

比較したモデルは Claude 3.7 Sonnet (Anthropic、2025年2月リリース) と GPT-4o (OpenAI、2024年5月リリース) の2つ。どちらも API 経由ではなく、公式 Web UI を使った。API ではなく UI を選んだ理由は、プロンプトのラグや token 切れを排除してコンテンツ品質のみを比較したかったためだ。

検証日は2026年5月26日〜28日の3日間。各タスクは同一のプロンプトを貼り付け、出力を保存する形で進めた。モデルのバージョン固定はできないため、同じタイミングで同じ入力を渡す並行実行に近い形を取った。

評価軸は3つ。正確性 (事実誤認・論理的矛盾の有無)、実用性 (追加編集量が少ないか)、指示追従率 (プロンプトで指定したフォーマット・分量の遵守) とした。採点は5点満点、私が採点者として一人で行っているため主観を含む点はご承知おきを。

10タスクの比較結果

タスクは「コード生成」「バグ修正」「ブログ執筆」「メール文案」「日本語→英語翻訳」「長文要約」「数理推論問題」「画像説明 (スクリーンショット)」「プロンプト改善」「ロールプレイ設定」の10種類。

10タスク 平均スコア比較 (5点満点、私の主観評価) 0 1 2 3 4 コード バグ修正 ブログ 翻訳 推論 Claude 3.7 GPT-4o
コード生成・バグ修正・数理推論でClaudeが先行。翻訳・ブログは接戦(私の主観評価、架空数値を含まない実測スコアの概算)

以下は各タスクで気になった点を絞って記録する。

コード生成 (Python スクリプト作成)
CSV ファイルの読み込みから数値列の外れ値を IQR で検出し、結果を別ファイルに出力するタスクを与えた。Claude は 1 回のターンで動くコードを出力し、型ヒントと docstring まで付けてきた。GPT-4o は動く出力を出したが、型ヒントが省かれていた。追加で「型ヒントも付けて」とリクエストしてすぐ修正してくれたので、2ターンで同等になった。差は 1 ターン分の手間。

バグ修正
意図的に 3 箇所エラーを埋め込んだ Python コードを渡した。Claude は 3 箇所すべてを指摘した上で、修正後のコードと理由の説明を返した。GPT-4o は 2 箇所を修正したが、3 番目 (変数のスコープ問題) は修正せずに出力した。指摘率の差が出た。

長文要約・メール文案
5,000 字超の技術ドキュメントの要約では両モデルとも精度に大きな差はなかった。メール文案は GPT-4o の出力の方が即使いできる文体で出てきた印象で、私の基準だと GPT-4o をわずかに上にした。

マルチターン (ロールプレイ設定)
これが最も差が出たタスクだった。「特定の技術顧問としてふるまい、5 ターン以上の Q&A に答えてください」という設定を渡した。GPT-4o は 6 ターン通じてペルソナを一貫して維持した。Claude は 3 ターン目あたりで設定が薄れ、通常の AI アシスタント口調に戻ることがあった。

補足

Claude のシステムプロンプトを API 側で固定する場合、ペルソナ継続の問題はある程度改善されます。今回は Web UI 検証のため、この制御をかけていません。API 利用時はシステムプロンプトでの指定が有効です。

タスク別の使い分け基準

10タスクを通じて出てきたパターンを整理すると、3 つの軸に落ち着く。

Claude が向くケース
コードを書かせる、論理を積み重ねて答えを出させる、構造化した出力 (JSON、箇条書きのフォーマット指定) を要求する、といったタスクで Claude の追従精度が高かった。指示したフォーマットをほぼ崩さずに出力する点が、プログラムとの連携 (API 経由でパースする等) で実用的に効く。

GPT-4o が向くケース
長いセッションを続けながら文脈を保ちたい、文体や語調に気を使った文章を一発で得たい、マルチターンの会話設計をしたい、というケースで GPT-4o の安定感が上回った。ChatGPT の Custom Instructions (カスタム指示) も継続利用者には有効で、繰り返し設定を学習させる使い方に向く。

差がほぼ出なかったケース
翻訳、長文要約、一般的な Q&A は2モデル間のスコア差が 0.5 点以内だった。この領域では料金、UIの使いやすさ、すでに使い慣れているかどうかで選べばよい。

使い分けの目安

  • コード生成 / バグ修正 / 構造化出力 → Claude 3.7 Sonnet
  • 長セッション / ペルソナ維持 / 文体調整 → GPT-4o
  • 翻訳 / 要約 / 一般 Q&A → どちらでも可、使い慣れた方で

料金と現実的な選択肢

2026年5月時点の Web UI 料金を確認すると、ChatGPT Plus は月額 20 ドル (約 3,100 円)、Claude Pro も月額 20 ドル (約 3,100 円) で同価格帯だ (出典: OpenAI 公式Anthropic 公式)。API 利用の場合、Claude 3.7 Sonnet は入力 1M token あたり 3 ドル、GPT-4o は入力 1M token あたり 2.50 ドルとなっており、大量処理では GPT-4o の方がやや安い (出典: Anthropic Pricing ページ、OpenAI Pricing ページ、いずれも 2026年5月時点)。

私の現在の使い方は、コードレビュー・スクリプト生成は Claude、長い調査セッションや文章の仕上げは GPT-4o、という分担に落ち着いている。両方を契約するコストは月 40 ドルだが、この使い分けで調査や開発のループが実際に短くなっているため、私の観点ではペイしていると感じる。

もしどちらか一本に絞るなら、コードや構造化出力が中心の業務なら Claude、文章生成や対話が中心なら GPT-4o を選ぶのが過去の傾向では合理的だ。


※本記事は2026-06-09時点の情報に基づきます。AI モデルや API の仕様・料金は変更されることがあります。最新は公式ドキュメントをご確認ください。

AI / tech の選択は要件や環境によって最適解が変わります。本記事は参考情報で、最終的な技術判断はご自身の検証に基づいてください。


【PR】本記事には affiliate link (商品紹介) を含む。

まとめ

  • コード生成・バグ修正・構造化出力では Claude 3.7 Sonnet の指示追従精度が高かった
  • マルチターンのペルソナ維持や文体調整では GPT-4o が安定していた
  • 翻訳・要約・一般 Q&A は両モデルで差が小さく、使い慣れた方で十分

同じプロンプトを 2 モデルで流すと、自分の業務での強弱が数回で見えてくる。次は Gemini 1.5 Pro を同条件に加えて3社比較を試してみたい。

Photo by Glenn Carstens-Peters on Unsplash