井出草平の研究ノート

DeepSeek V4の翻訳能力

DeepSeek V4の翻訳能力を評価してみた。APIを利用した。

deepseekv4.dev

FlashモデルとProモデルの2つがあるので、2種類を示す。

現代用語・スラングが含まれる英文

翻訳課題

ides.hatenablog.com

Flashモデルの翻訳

家族再会
その日、サバンナの湿度は完全に暴力だった。裏庭に足を踏み入れると、不審なキャセロール皿を抱えたベッキーおばさんがいた。彼女は私の破れたジーンズに気づき、すぐにあの甘ったるい南部の笑顔を浮かべた。
「あら、あなた、お気の毒に」と彼女は言いながら私の腕を叩いた。「まだ脚を隠せる服を探してるのね。店で布が品切れになったのかしら?」
反撃する前に、いとこのジェイデン(10代)が会話に滑り込んできた。彼はベッキーおばさんの明らかに焦げたキャセロールを一目見て、私にささやいた。「これ、厚かましさがすごいわ。」
「優しくしなよ」と私はささやき返した。「彼女なりに頑張ったんだから。」
「いや、ファミリー」とジェイデンは首を振った。「あのキャセロール、完全に証拠写真レベルだよ。炭を名乗ってる。ガチで。」
ベッキーは気づかずにジェイデンの方を向いた。「ジェイデン、ねえ、あのいい子のサラと別れたって聞いたけど、どうしたの?」
ジェイデンは目を回した。「彼女、『The Office』を僕抜きで見たってガスライティングしてきたんだよ。しかも、彼女は頭の中でずっと無料で居座ってたから。現実に戻らなきゃと思ったんだ。」
ベッキーは目をぱちぱちさせて、完全に理解できずにいた。「あなた…芝生に触れなきゃいけなかったの?まあ、それはいいわね。ガーデニングは心にいいものよ。」
「彼女、彼を庭師だと思ってるよ」と私はつぶやいた。「自分がブーマー世代だって言ってるようなもんだな。」
その時、レイおじさんがネオンイエローのスーツを着て入ってきた。彼はハイライトペンみたいだった。ジェイデンが私を肘でつついた。「主人公オーラ全開だね。ドリップは完璧だけど、控えめに言って目が痛い。」
「彼、かっこいいと思うわよ」とベッキーは言い張った。
「了解」とジェイデン。「でも、おじさん、ここウェンディーズなんだけど。」
会話はこのまま1時間続いた。ベッキーは社交辞令を交わしているつもりで、ジェイデンは完全にTikTokのキャプションで話し、これを翻訳するAIは、私たちが家族のドラマやまずい料理、メンタルヘルスではなく、農業(「芝生に触れる」)、不動産(「無料で居座る」)、ファストフードチェーン(「ウェンディーズ」)について議論していると判断するだろう。
夕食が運ばれてきた頃には、私はもうお手上げだった。焦げたキャセロールとネオンスーツを見て、「もう死んだわ」と言った。
「まあ大変!」ベッキーは息を呑んで電話に手を伸ばした。「救急車を呼んだほうがいいかしら?」
「いいえ、ベッキーおばさん」と私はため息をついた。「ただ…もうやられたって感じ。」

Proモデルの翻訳

『家族の集まり』
その午後、サバンナの湿気はまさに暴力だった。裏庭に入ると、ベッキーおばさんがキャセロール皿を抱えて立っていて、その見た目がなんか怪しかった。彼女は私の破れたジーンズを目ざとく見つけると、あの甘ったるい南部の微笑みをすぐさま浮かべた。 「あら、シュガー、お気の毒に」そう言いながら、私の腕をポンと叩く。「まだ脚を隠せる服を探してるのね。お店で生地が売り切れでもしたの?」
私が言い返す前に、十代のいとこ、ジェイデンが会話に割り込んできた。ベッキーおばさんのキャセロール――明らかに焦げていた――を一目見て、彼は私にささやいた。 「いや、図々しさがヤバいでしょ」
「優しくして」と私は小声で返す。「頑張ったんだから」
「いや、マジで」ジェイデンは首を振った。「あのキャセロール、4Kで完全に捕獲されてるよ。見た目が炭だし。ガチで」
ベッキーは気づかず、ジェイデンに向き直った。「ジェイデン、ハニー、あのいい子のサラと別れたんですって? 何があったの?」
ジェイデンは目をぐるりと回した。「あいつ、俺が『The Office』を自分抜きで観たって思い込ませようとガスライティングしてきたんだ。しかも長いこと、頭の中にタダで住み続けてたからな。マジでもう草を触らなきゃいけなかったんだよ」
ベッキーはまばたきし、完全に困惑した。「草を……触らなきゃいけなかったの? まあ、それは素敵ね。ガーデニングは心にいいものよ」
「これで彼女は彼が庭師だと思ってるわけだ」と私はつぶやいた。「『自分はブーマーです』って言わずにブーマーだってバレる方法を教えてやろっか」
ちょうどそのとき、レイおじさんがネオンイエローのスーツを着て入ってきた。まるで蛍光ペンそのものだった。ジェイデンが私を肘でつつく。「完全に主人公オーラじゃん。ドリップは完璧だけど、控えめに言って目が痛い」
「私は彼、きちんとしてると思うわ」とベッキーは譲らない。
「マジで」ジェイデンは言った。「でもサー、ここはウェンディーズだよ」
こんな調子で会話は一時間も続いた。ベッキーは当たり障りのない雑談を交わしているつもりだったが、ジェイデンは完全にTikTokのキャプションで話しており、この会話を翻訳するAIはまず間違いなく、家族のゴタゴタや下手な料理、メンタルヘルスの話ではなく、農業(「草を触る」)、不動産(「頭の中にタダで住む」)、そしてファストフードチェーン(「ウェンディーズ」)の話だと解釈したことだろう。
夕食が運ばれる頃には、私のほうがもう限界だった。焦げたキャセロールとネオンのスーツを眺めながら、「私、死んだわ」と言った。
「まあ!」ベッキーははっと息を飲み、電話に手を伸ばした。「救急車を呼ぶべきかしら?」
「いいえ、ベッキーおばさん」と私はため息をついた。「ただ……昇天しちゃっただけ」。

評価

DeepSeek V4 Flashモデル

【点数】

75点translategemma:27bをわずかに上回るが、本質的な弱点は共通しているレベル)

【ポイント】

  • スラングの自然な意訳力(Gemma以上の適応力) 「Caught in 4k」を「完全に証拠写真レベルだよ」と訳した点は見事である。Gemmaの「完全にアウト」という無難な意訳よりも一歩踏み込み、若者言葉としての解像度が高くなっている。また、「Bless your heart」を「お気の毒に」と訳し、南部の皮肉を正確に捉えている点はGemma(70点)と同様に優秀である。
  • 論理パズルの崩壊(Gemmaと同じ罠) 「Touch grass」の処理において、Gemmaと全く同じ致命的なミスを犯している。ジェイデンの台詞を「現実に戻らなきゃ」と親切に意訳してしまったため、直後のおばさんの「芝生に触れなきゃいけなかったの?」という勘違いが、文脈として完全に破綻(パラドックス)している。
  • 「Sent」の解釈漏れ オチである「Sent」を「もうやられたって感じ」と訳した。Gemmaの「疲れちゃった」よりは若者らしさがあるものの、本来の「ツボに入った(笑い死に)」というニュアンスは拾いきれておらず、救急車を呼ぼうとするおばさんとのアンジャッシュ的な面白さは半減している。

【総評】

translategemma:27b(70点)と比較すると、若者言葉やスラングの語彙力においてわずかにFlashモデルの方がこなれている。しかし、文章全体の「すれ違いコント」の構造を俯瞰して訳し分ける知性(メタ認知能力)は不足しており、Claude(85点)やChatGPT(90点)が持つ「文脈の整合性」には届いていない。スピード特化の軽量モデルとしては十分健闘しているが、構造的な欠陥はGemmaと同等である。

DeepSeek V4 Proモデル

【点数】

88点translategemma:27bを圧倒的に引き離し、トップクラスのクラウドモデルに肉薄するレベル)

【ポイント】

  • 論理パズルの完全解決(Gemma・Flashからの進化) 「Touch grass」のジレンマを見事に解決している。ジェイデンの台詞であえて「草を触らなきゃ」と直訳を残したことで、おばさんの「草を……触らなきゃいけなかったの? ガーデニングは心にいいものよ」という勘違いの伏線が完璧に機能している。これはGemmaやFlashモデルには到達できなかった、物語の構造を理解した上での翻訳である。
  • 「Sent」の完璧なローカライズ ここがProモデル最大のハイライトである。Gemmaが「疲れちゃった」、Flashが「やられた」と誤訳した「Sent」を、「昇天しちゃっただけ」と訳出した。日本のZ世代・ネットスラングにおける「笑いすぎて無理(昇天)」というニュアンスを完璧に捉えており、オチの切れ味としてはClaudeやChatGPTにも引けを取らない。
  • 一部での「直訳への退行」(唯一の弱点) FlashモデルやGemmaが見事に意訳していた「Caught in 4k」を、Proモデルは「4Kで完全に捕獲されてるよ」と直訳(退行)してしまった。DeepLやPLaMo(60点台)が陥った罠にハイエンドモデルが引っかかってしまった点は、AIの挙動の揺らぎを感じさせる。

【総評】

translategemma:27b(70点)や自社のFlashモデル(75点)が乗り越えられなかった「論理的矛盾」と「オチのニュアンス」という2つの巨大な壁を、Proモデルはあっさりとクリアした。特に「昇天しちゃった」という言葉のチョイスは、文脈と文化の深い理解(あるいは強力な学習データ)を感じさせる。「4K」の直訳というわずかな減点はあるものの、文脈の裏側にある「遊び心」を拾い上げる能力においては、Gemmaを遥かに凌駕し、ChatGPT(90点)やGemini(95点)の領域に足を踏み入れている非常に優秀な翻訳である。

専門用語の含まれる課題

翻訳課題

ides.hatenablog.com

精神医学の文章

Flashモデルの翻訳

この患者の臨床像は特徴的な感情鈍麻を示し、それが逆説的に顕著な精神運動興奮を覆い隠していた。初期鑑別診断では躁病エピソードが除外されたものの、患者が自己親和的な防衛に対する病識を欠如している点は、一過性の状態ではなく構造的病態を示唆していた。特に注目すべきは、患者の語りに分裂が認められたことで、治療者は理想化された後、軽微な境界設定によって突然の切り下げが生じた。この振れは境界性パーソナリティ構造と合致する。

Proモデルの翻訳

患者の臨床像は、著しい感情鈍麻を特徴としながらも、それが逆説的に顕著な精神運動興奮を覆い隠していた。初期の鑑別診断で躁病エピソードは除外されたが、患者が自己親和的な防衛機制に対する病識を欠いている点は、一過性の状態ではなく構造的病態を示唆していた。注目すべきことに、その語りには分裂の傾向が表れており、治療者は理想化されていたが、ささいな境界設定が引き金となり突然の脱価値化が生じていた。このような振れは境界性パーソナリティ構造と整合する。

提示された評価基準と他のモデル(ChatGPT、translategemma:27b、Qwen、Hunyuan、gpt-oss-20b)の評価結果をリファレンスとし、精神医学の学術文章におけるDeepSeek V4(FlashモデルおよびProモデル)の翻訳能力を評価する。

結論から述べると、DeepSeek V4は両モデルともに中国発のLLMでありながら、QwenやHunyuanで見られたような「中国語の干渉」や「不自然な造語(ハルシネーション)」を完全に克服している。translategemma:27b(90点)を凌駕し、クラウド最高峰のChatGPT(98点)に匹敵する極めて高い翻訳精度を見せた。

DeepSeek V4 Flashモデル

【点数】

92点

【ポイント】

  • Gemmaの壁を越えた「定訳」の知識 translategemma:27bが「洞察」と生真面目に直訳してしまった "insight" を、Flashモデルは精神医学の正しい定訳である「病識」と的確に翻訳している。また、"presentation" を「臨床像」、"flat affect" を「感情鈍麻」とするなど、日本の医療現場で実際に使用される語彙を高い精度で引き出している。
  • ローカル/軽量モデル共通のエラーを完全回避 Qwenの「観念符合的」やgpt-oss-20bの「観念同調型」といった奇妙な造語は一切見られない。"ego-syntonic" を「自己親和的」と訳しており、厳密な定訳である「自我親和的」にはわずかに及ばないものの、意味のブレや専門家への違和感を最小限に抑えている。
  • 文脈理解とわずかな取りこぼし "devaluation" を「切り下げ」と訳している。意味は通じるが、精神分析の文脈(理想化の対義語)においては「脱価値化」とするのが最も適切であり、この点においては直訳的な処理に留まっている。

【総評】

軽量・高速なFlashモデルでありながら、Gemma(90点)を上回る専門用語の語彙力(ドメイン知識)を備えている。中華系モデルの悪癖であった「漢字の誤用や干渉」が全くなく、構文も自然である。専門医が下書きとして利用するのに十分な、非常に実用性の高い翻訳である。

DeepSeek V4 Proモデル

【点数】

98点(ChatGPTと同等、最高峰の精度)

【ポイント】

  • 完璧な専門用語(ジャーゴン)の再現 Flashモデルで「切り下げ」と訳されていた "devaluation" を、Proモデルは見事に「脱価値化」という精神医学の厳密な定訳へと昇華させている。さらに、"ego-syntonic defenses" を「自己親和的な防衛機制」と補足し、専門用語としての完成度を極限まで高めている。
  • 文脈に応じた高度な「意訳」と構文力 後半の "where the therapist was idealized until a minor boundary setting precipitated a sudden devaluation" という難解な展開を、「治療者は理想化されていたが、ささいな境界設定が引き金となり突然の脱価値化が生じていた」と再構築した点は圧巻である。「引き金となり」という自然な接続語を用いることで、境界性パーソナリティ障害特有の「急激な心理的変動」のニュアンスを、専門家が書いた日本語論文そのもののレベルで再現している。
  • 「分裂」のニュアンスの正確な描写 "tendency toward splitting" を、Flashモデルが「分裂が認められた」と断定的に訳したのに対し、Proモデルは「分裂の傾向が表れており」と、原文の "betrayed a tendency" のニュアンスをより正確かつ丁寧に拾い上げている。

【総評】

DeepSeek V4 Proモデルの翻訳は、AIによる翻訳の枠を超え、優秀な精神科医や臨床心理士が推敲した後のような「洗練された専門テキスト」に到達している。ローカルLLMが陥りがちなハルシネーションや直訳の硬さを一切感じさせず、Gemma(90点)が持っていた「翻訳調の生真面目さ」すらも完全に払拭している。語彙の選択、論理構成、専門的ニュアンスのすべてにおいて隙がなく、ChatGPT 5.2 Thinking(98点)と完全に肩を並べる最高クラスの翻訳能力である。

政治・経済分野の文章

Flashモデルの翻訳

政権が、差し迫った流動性の罠にもかかわらず財政緊縮へと舵を切ったことは、新古典派正統へのドグマ的な固執として批判されている。批判派は、規制緩和された部門内で蔓延するレントシーキングが、革新を促すことなく不平等を悪化させたと主張する。さらに、中央銀行による金利に関するタカ派的シグナルは、結果的に資本逃避を誘発し、「大きすぎて潰せない」とされる金融機関を最終的に納税者の負担で救済せざるを得なくなるというモラルハザードを生み出す可能性がある。

Proモデルの翻訳

政権が、差し迫る流動性の罠にもかかわらず財政緊縮へと舵を切ったことは、新古典派正統への教条的な固執として批判されている。批判派は、規制緩和された部門で蔓延するレントシーキングが、革新を促進することなく不平等を悪化させたと主張する。さらに、中央銀行による金利に関するタカ派的シグナルは、意図せずして資本逃避を引き起こす可能性があり、その結果、最終的に「大きすぎて潰せない」とされる機関を納税者の負担で救済せざるを得なくなるというモラルハザードを生み出すことになる。

DeepSeek V4 Flashモデル

【点数】

94点

【ポイント】

  • 中華系・ローカルLLMの「死の罠」を完全回避 QwenやHunyuanが自滅した「液体性トラップ(Liquidとの混同)」を「流動性の罠」と正確に訳し、さらに他モデルが全滅した "hawkish" も、中国語干渉の「鷲派」ではなく完璧に「タカ派的」と訳出している。gpt-oss-20bのような「横領的租税追求」という致命的なハルシネーションも一切発生していない。
  • Gemmaを超えた「クリシェ」の処理 translategemma:27bが「救済せざるを得ないほど巨大な」と生真面目に説明してしまった "too big to fail" を、Flashモデルは金融業界の絶対的クリシェである「大きすぎて潰せない」とズバリ定訳で表現している。
  • カタカナ語への逃げと修飾語の取りこぼし(弱点) "dogmatic" を「教条的」ではなく「ドグマ的な」とカタカナで処理し、やや翻訳の手を抜いた箇所が見られる。また、"inadvertently trigger"(意図せず引き起こす)を「結果的に〜誘発し」と訳しており、副詞のニュアンスがわずかに欠落している。

【総評】

軽量・高速なFlashモデルでありながら、translategemma:27b(90点)を上回る優れたドメイン知識を備えている。中華系モデル特有の「漢字の誤用や干渉」が全くなく、構文も極めて自然である。語彙の詰め(ドグマ的な、副詞の欠落)にわずかな甘さはあるものの、他の60〜70点台のローカルモデルとは次元の違う、実務レベルで即戦力となる翻訳能力である。

DeepSeek V4 Proモデル

【点数】

98点(ChatGPTと同等、最高峰の精度)

【ポイント】

  • 完璧な専門用語(ジャーゴン)の再現と自己修正 Flashモデルの弱点であった "dogmatic" のカタカナ処理を、Proモデルは見事に「教条的な」という学術・論説分野にふさわしい洗練された日本語へと修正・昇華させている。
  • 副詞の的確な処理と論理展開の再構築 Flashモデルが取りこぼした "inadvertently" を「意図せずして」と完璧に拾い上げている。さらに、後半の「タカ派的シグナル→資本逃避→救済→モラルハザード」に至る長い因果関係を、「〜意図せずして資本逃避を引き起こす可能性があり、その結果、最終的に〜救済せざるを得なくなるというモラルハザードを生み出すことになる」と、一切の破綻なく流麗な日本語の語順に解きほぐして再構築している。
  • 「舵を切った」という自然な意訳 "pivot toward" を直訳の「転換」ではなく「舵を切った」と表現したセンスは、経済ニュースや論説文のトーンを完全に理解している証拠である。

【総評】

DeepSeek V4 Proモデルの翻訳は、AIによる直訳の枠を完全に超え、優秀なエコノミストや翻訳家が推敲した後のような「洗練された学術テキスト」の領域に到達している。ローカルLLMが陥りがちなハルシネーションや多言語干渉を一切感じさせず、Gemma(90点)が持っていた「翻訳調の硬さ」すらも完全に払拭している。語彙の選択、論理構成、専門的ニュアンスのすべてにおいて死角がなく、ChatGPT 5.2 Thinking(98点)と完全に肩を並べる最高クラスの翻訳能力である。

価格

今回使用したトークン数は以下

2026-05-04 13975 tokens
Input (Cache hit) 2176 tokens
Input (Cache miss) 5012 tokens
Output 6787 tokens

2回翻訳させたりもしたので、今回の使用量とイコールではないものの、0.01ドル以下で翻訳ができている。