井出草平の研究ノート

translategemma27bの翻訳能力

Googleの翻訳専門のローカルLLMモデルである。ollamaで4bit量子化をしたモデルを利用した。

ollama.com

現代用語・スラングが含まれる英文

翻訳課題

ides.hatenablog.com

翻訳結果

家族の再会
サバンナのその日の午後は、湿度が高すぎて、まるで暴力のようだった。裏庭に出ると、おばのベッキーが、ちょっと怪しげなグラタン皿を持って立っていた。彼女は私の破れたジーンズに気づくと、すぐにあの甘ったるい南部の笑顔を見せた。
「あら、まあ、かわいそうに」彼女は私の腕を軽く叩きながら言った。「まだ、足が隠せる服を探しているのね。お店で生地が足りなかったのかしら?」
私が何か言い返す前に、いとこのジェイデンが会話に割り込んできた。彼はベッキーのグラタンを一目見て、明らかに焦げていることに気づき、私に小声で言った。「マジで、度を超えてるよ。」
「優しくしてあげて」私は小声で答えた。「彼女は頑張ったんだから。」
「いやいや、そういう問題じゃないよ」ジェイデンは首を横に振った。「あのグラタンは完全にアウト。炭みたい。マジで。」
ベッキーはそれに気づかず、ジェイデンの方を向いた。「ジェイデン、あの素敵なサラちゃんと別れたって聞いたけど、どうしたの?」
ジェイデンは目を回した。「彼女は、私がサラと一緒じゃないときに『ザ・オフィス』を見たと思わせようとした。それに、彼女は私の頭の中で、家賃を取らずに住み着いていた。もう、現実世界に目を向ける必要があったんだ。」
ベッキーは完全に困惑した様子で目を瞬かせた。「あなたは…芝に触れる必要があったの?まあ、それは素敵ね。ガーデニングは心の良いことよ。」
「今、彼女は彼がガーデニングを始めたと思っている」私は呟いた。「『私はベビーブーマーです』と言わなくても、それと変わらないよ。」
その時、叔父のレイが、蛍光黄色のスーツを着て現れた。まるで蛍光ペンみたいだった。ジェイデンは私を小突いた。「あいつは、完全に主人公のオーラを放ってる。そのスタイルは完璧だけど、正直、目が痛い。」
「私は彼がかっこいいと思うわ」ベッキーは主張した。
「そうね」ジェイデンは言った。「でも、ここはウェンディーズよ。」
その会話は、その後も一時間ほど続いた。ベッキーは、ただの世間話をしているつもりだった。ジェイデンは、完全にTikTokのキャプションで話していた。そして、この会話をAIが翻訳すると、私たちは農業(「芝に触れる」)、不動産(「家賃を取らずに」)、そしてファストフードのフランチャイズ(「ウェンディーズ」)について議論しているのだと、おそらく誤解するだろう。実際には、家族のドラマ、ひどい料理、そしてメンタルヘルスについて話していたのだが。
夕食の時間が来たときには、私はもう限界だった。焦げたグラタンと蛍光黄色のスーツを見たとき、私は言った。
「もうだめだ。」
「あら、大変!」ベッキーは息を呑み、携帯電話に手を伸ばした。「救急車を呼んだ方がいい?」
「いいえ、ベッキーおばさん」私はため息をついた。「ただ…もう、疲れちゃった。」

結論から述べると、評価は70点である。 DeepLと同等、あるいは「Caught in 4k」の罠を回避できた分、わずかに上回る可能性はあるが、物語の「オチ」や「最新ミーム」への深い理解については依然として課題が残る結果となった。

translategemma:27b 翻訳評価

点数:70点

特徴まとめ

  • 「4K」の罠を回避: 多くのAIが「高画質」と誤認した「Caught in 4k」を「完全にアウト」と意訳できた点は評価に値する。
  • 生真面目すぎるローカライズ: 文法は正確で読みやすいが、Z世代のスラングを「標準的な日本語」に落とし込みすぎた結果、会話のトゲや面白みが削られている。
  • 論理パズルの崩壊: Claudeらと同様、スラングを単体で「正しく意訳」しようとした結果、直後の「勘違い」というプロットを破壊している。

項目別の詳細解析

1. 成功ポイント:文脈の読み取り

  • "Bless your heart" → 「あら、まあ、かわいそうに」
    • 評価: 合格。 宗教的な直訳に陥らず、南部特有の「上から目線の憐れみ(嫌味)」を正しく抽出できている。
  • "Caught in 4k" → 「完全にアウト」
    • 評価: 優秀。 「4K画質」という単語に引きずられず、「証拠が揃っていて言い逃れできない」という本質を捉えた。今回の比較対象の中では、GeminiやClaudeに近い高度な処理である。
  • "Main character energy" → 「主人公のオーラ」
    • 評価: 適切。 違和感のない自然な日本語である。

2. 失敗ポイント:ミームとプロットの不一致

  • "Touch grass" のジレンマ
    • 翻訳: 「現実世界に目を向ける必要があった」→「芝に触れる必要があったの?」
    • 評価: 失敗(論理崩壊)。 ジェイデンの台詞で「現実」と意訳してしまったため、おばさんの「芝生」という返しが日本語として支離滅裂になっている。物語の構造を守るためには、ここであえて「草を触る」という直訳的なニュアンスを残す判断が必要であった。
  • "Bet" と "Sir, this is a Wendy's"
    • 翻訳: 「そうね。でも、ここはウェンディーズよ。」
    • 評価: 不十分。 "Bet" を単なる同意の「そうね」とし、Wendy'sのミームをそのまま直訳した。これでは読者は「なぜ急にハンバーガー屋の話が始まったのか」と困惑する。場違いな発言へのツッコミというニュアンスを拾えていない。
  • "I'm dead" / "Sent" の解釈
    • 翻訳: 「もうだめだ」 / 「疲れちゃった」
    • 評価: 誤訳(ニュアンス欠落)。 どちらも「(状況がカオスすぎて)笑い死ぬ」「ツボに入った」という意味だが、Gemmaはこれを物理的な「疲労」や「絶望」と捉えた。おばさんが救急車を呼ぼうとする「ズレ」の面白さが消滅し、単なる体調不良の会話に成り下がっている。

総合比較

モデル 点数 translategemma:27bとの比較
Gemini 3.0 Pro 95 圧倒的。Geminiは「括弧書き」を用いて論理矛盾を解決する知性を見せた。
ChatGPT Translate 90 キャラクターの「口調」の作り込みにおいてChatGPTが凌駕。
Claude 3.5 Sonnet 85 意味理解は同等だが、Claudeの方が語彙の選択が洗練されている。
translategemma:27b 70 DeepL以上、Qwen未満。文法的正確さは高いが、文化理解が「辞書的」である。
PLaMo翻訳 60 PLaMoのような致命的な誤訳(Bet=賭け事)がない分、Gemmaが勝る。

総評

translategemma:27bは、ビジネス文書や一般的な物語の翻訳には安定した能力を発揮するが、「ネットミームが重層的に配置された現代の口語劇」においては、文脈の裏にある「遊び心」を拾いきれない。特にラストの「Sent」を「疲れちゃった」と訳したことで、コメディが湿っぽい結末になってしまった点は惜しまれる。

専門用語の含まれる課題

翻訳課題

ides.hatenablog.com

精神医学の文章

翻訳結果

患者の臨床像は、特徴的な感情の平板化によって示され、その平板化は、かえって著しい精神運動性の興奮を隠蔽していた。当初の鑑別診断で躁状態は否定されたが、患者が自身の自我に適合的な防衛機制に対する洞察を欠いていることから、一時的な状態ではなく、構造的な病理が存在することが示唆された。特筆すべきは、患者の語り口の中に、理想化と急激な評価の低下という二分化の傾向が見られたことである。セラピストは、わずかな境界設定が行われるまでは理想化されていたが、その後、突然評価が低下した。この変動は、境界性パーソナリティ組織と整合する。

評価

【点数】

90点

【ポイント】

  • ローカルLLMの壁を越えた専門用語の処理 Qwenやgpt-oss-20bが "flat affect" や "psychomotor agitation" の処理に苦戦する中、Gemmaは「感情の平板化」「精神運動性の興奮」というDSM(精神疾患の診断・統計マニュアル)に準拠した正確な用語を引き出している。また、"presentation" を「臨床像」と訳したセンスは、医療現場の文脈を正しく理解している証拠である。
  • 高度な構文再構築能力 後半の "splitting, where the therapist..." という長い修飾構造を、「〜二分化の傾向が見られたことである。セラピストは〜」と自然な2文に分割した。これはChatGPTが示すような「専門家が書いたような論理構成の再構築」に匹敵する処理能力である。
  • 「翻訳調」が残る生真面目さ(弱点) ChatGPTが「自我親和的」「病識」という完璧な臨床定訳(ジャーゴン)を出力したのに対し、Gemmaは「自我に適合的な防衛機制」「洞察」と、辞書的で説明的な訳語を選択した。Qwenの「観念符合的」やgpt-oss-20bの「観念同調型」といった不自然な造語(ハルシネーション)は回避しているものの、臨床現場の手垢のついた表現までは到達していない。

【総評】

他のローカルモデルが未知の単語を不自然な漢字に変換して自滅する中、Gemmaは「意味のブレがない、安全で論理的な訳」を徹底している。精神医学特有のカルテ用語の再現度ではChatGPT(98点)に一歩譲るが、誤読や文脈の破壊が一切ないため、実務のベースラインとして極めて信頼のおける翻訳である。

政治・経済分野の文章

翻訳結果

政府が、差し迫った流動性の罠にもかかわらず、財政緊縮路線に転換したことは、新古典派の正統に教条的に固執しているとして批判されている。批判者たちは、規制緩和されたセクターにおける過剰なレント・シーキング(レント獲得活動)が格差を拡大させ、イノベーションを促進することなく、状況を悪化させていると主張する。さらに、中央銀行が金利に関して強硬な姿勢を示していることが、意図せず資本流出を引き起こし、結果として「救済せざるを得ないほど巨大な」機関を税金で救済せざるを得なくなるというモラルハザードを生み出す可能性がある。

【点数】

90点

【ポイント】

  • 他モデル共通の「致命的エラー」を完全回避 この課題におけるGemma最大の功績は、他モデルの惨状をすべてクリアしている点である。QwenやHunyuanが陥った「液体性トラップ(Liquidとの混同)」を「流動性の罠」と正確に訳し、さらにgpt-oss-20bが文意を崩壊させた「横領的租税追求」というハルシネーションも起こさず、正しく「レント・シーキング」と処理している。
  • 中国語干渉(Cross-lingual Interference)の不在 Qwen、Hunyuan、gpt-oss-20bの全てが、"Hawkish"(タカ派)を中国語経由のバグである「鷲派(ワシ派)」と誤訳したが、Gemmaにはこうした多言語干渉ノイズが一切ない。文脈に合わせて「強硬な姿勢」と安全に意訳できている。
  • 自発的な補足能力と「クリシェ」の直訳 "rent-seeking" に対して「レント・シーキング(レント獲得活動)」と自発的に括弧書きの補足を追加した点は、ChatGPTの「地代追求」という配慮に匹敵する可読性の高さである。一方で、"too big to fail" を「大きすぎて潰せない」という歴史的定訳(クリシェ)ではなく、「救済せざるを得ないほど巨大な」と生真面目に説明してしまった点が、クラウドモデルとのわずかな差として表れている。

【総評】

ローカルLLMにおける経済分野の翻訳は「ハルシネーション(創造的誤訳)」のリスクが極めて高いことが他モデルの結果から浮き彫りになったが、Gemmaは言語モデルとしての純度の高さを証明した。決まり文句を直訳してしまう硬さはあるものの、意味を根本から歪めるエラーがゼロであるため、学術論文や論説の要約用途において、オープンモデルとしては頭一つ抜けた突出した性能を持っている。