井出草平の研究ノート

ローカルLLMとWhisperに関する雑記 文章の書き方は変わる、教育にAIは不可欠、コンテンツの言語の壁を取り除く

Whisperを用いた3つのシステムづくり

この3日間Whisperを活用して何か新しいシステムを構築できないかと考え、3つのシステムを作成した。

1. 録音音声の認識システム

最初のシステムは、録音した音声をWhisperで認識できるようにしたものだ。これはシステムというよりも、Whisperのデフォルト機能に多少コードを足しただけのものに過ぎないが、私が理事を務めるNPOの代表が本を書く際に役立てられるのではないかと考え、少しコードや編集方法をブラッシュアップしてみた。

今回のNPOの代表が本を書くという話題に限らず、文章や本の書き方自体が変化するのではないかと考えている。

最近では、私自身も文章を書く際に、まず音声認識を用いて大まかな内容を話し、その後ChatGPTとやり取りをしたり、キーボードで文章を整えるなどして読みやすい文章に仕上げていく。この方法により、キーボードで書くよりもはるかに速いスピードで執筆できるようになった。体感では10倍ぐらいに早くなっている。

私にとって革新的だと思うのは、文章表現に関してChatGPTと議論を重ねながら、適切な表現を見つけていける点である。文章のレベルが上がるだけでなく、普段使わない日本語表現をChatGPTを通じて学ぶことができ、文章を書きながら表現力も向上する教育の貴重な機会になっている。

AIを利用してレポートを作成することを禁止したり、AIを教育において悪とする理論も散見されるが、反AIは全くの的外れである。学校の課題を単なる単位取得の手段と考えることからして誤りである。課題の本来の目的はレポートを書いたりという作業を通じ知識を深め、学ぶ力を養うことにある。AIを適切に活用すれば文章の質が向上し、同時に本人の文章力も向上するのだ。AIを教育に活用しないというのは、教育の本来の目的を見失っていると言える。

AIの出力をそのまま提出する最も問題なのは、本人にとって何の学びにもなっていないという所である。AIを使って学びを行わないものは、AIがなくても学ばないのであって、AIがあろうとなかろうと基本的には変わりはない。AIがなかった時代も、図書館にある本やウェブにある記事を丸写したレポートなど存在しており、教員はそれに対処してきた。AIの登場によって根本的に何か大きな変動があったというわけではない。やや乱暴な意見かもしれないが、AIの出力をそのまま出しても合格点を出してもいいのではないかと思う。ただ実際のところ、AIの出力そのままであれば、読めばわかるし独自の視点がない。そういったレポートは、そもそも最低点である。

文章を書く者にとって、AIの活用は非常に有益であるが、聞き書きの手法にも影響を与える可能性がある。聞き書きとは、内容を話して録音し、それをライターがまとめて文章や本にする方法である。AIがあればライターの役割を代替できるため、聞き書きのために人を雇う必要がなくなる可能性があるし、既にその必要がない状況にあるかもしれない。

2. Windows音声認識システム

次に作成したのは、Windows上で使用できる音声認識システムである。Windows 11にも音声認識システムは標準で搭載されているが、残念ながら認識精度があまり高くない。Google音声認識の方が精度が高いため、GoogleAPIを利用することになるが、従量課金制であるためコストが気にかかる。そこで、ローカルのLLMであるWhisperを使用し、パソコンに搭載されたビデオカードで処理を行った。ビデオカード自体は高価なので、GoogleAPIを利用した方が、結果的にコストは抑えられるのだろうが、ローカルLLMでしかできないこともたくさんあるため、やはりビデオカード、しかもやや高価なビデオカードは不可欠なツールになってしまったている。

さて、Windows音声認識システムの方だが、WindowsGoogleのツールより精度の高いシステムが完成した。要は、WhisperTypingなどWhisper largeモデルを使っているツールと同等である。Google音声認識に実用レベルに達しているが、Googleドキュメントやスプレッドシートでのみ利用でき、Google以外の環境では使用できないのが問題である。Whisperを用いた音声認識システムはこうした制約がなく、様々な場面で音声認識が可能である。ちなみに、この文章もこのシステムで書いている。正確には「書いている」というより、ほとんど「喋っている」のではあるが。

APIを使用しないという選択は、別の分野でも重要かもしれない。APIはサーバーに情報を送るため、プライバシー保護が求められる場合には使用が難しい。特に医療分野の倫理審査を想定するとAPIの使用は難しい。サービス側が情報をログを残さないとはいっているものの、音声データ自体は送っているため、倫理的には問題となる。例えば、臨床心理学における心理療法のデータを分析する場合、ローカルのLLMで文字起こしを行う必要があるだろう。

3. 動画に字幕を追加するシステム

最後に開発したのは、動画からテキストを認識し、SRTファイルに変換するシステムである。SRTファイルとは、動画の字幕ファイルのことである。実験として、姉が見ている中国ドラマに字幕をつけてみたところ、非常に高精度な字幕が生成できることが分かった。自分が理解できない言語で視聴したいドラマや映画があり、それに日本語の字幕や吹き替えがない場合には、このシステムが役立つだろう。

ただし、このシステムはローカルのLLMだけでは完結できなかった。ローカルLLMで動作する翻訳ソフトには優れたものがないためである。翻訳ソフトとしてはDeepLが非常に優れているが、背景情報などを含めた翻訳ができないため、ドラマや映画の翻訳には向いていない。論文やニュースは的確に翻訳できるが、小説やドラマ・映画のスクリプトとなるとデタラメな結果を返してくる。そのため、今回はCloudを使い翻訳をした。字幕はドラマの背景や日本語の読みやすさを考慮した字数制限などの制限を加味したプロンプトにした。専門の字幕制作者が作るものと比べると劣るが、実際に視聴していて問題はまったく感じないレベルの字幕作成ができた。おそらく専門家に大きく劣っているのは、字幕に制限内に翻訳する要約翻訳力で、プロンプトを工夫しても専門レベルには到達できないだろう。翻訳とは文章を翻訳することはではなく文化を翻訳することであるので、AIが当面できそうにないことの一つであろう。

このシステムを活用するシーンを考えてみたとき、フランス映画「タンギー」が思い浮かんだ。この映画はフランスの引きこもりをテーマにしており、日本語字幕が作成されていない。何らかの方法で観ないといけないが、放置してしまっている映画の一つである。

また、このシステムを使用してみたい場面として、Mplusの開発者であるMuthenによる統計セミナーがある。Mplusのセミナーは内容が難しく、Muthenの英語もやや聞き取りづらい。私の英語力もダメなので、このような動画に日本語字幕をつければ、私のMplus力(統計解析能力とは異なる)も向上するに違いない。

さらに、先日ノルベルト・エリアスについて調べていた際に、エリアスに関するMOOCの講座を見つけた。最初は興味を持って視聴したが、やはり英語力の不足から次第に、楽しいが苦痛に変わっていった。こういったMOOCの講座に日本語字幕をつけるのも良さそうだ。MOOCには膨大な数の講座があり、それらに字幕をつけることで、学びの幅が広がるだろう。

自分の勉強以外の用途としても、教育教材の作成に適している。すぐにでも作ってみたいのは電気けいれん療法を説明した動画の字幕である。日本語で視聴できる電気けいれん療法の動画はほとんどないが、英語ではMax Finkが登場する有名な動画がある。この動画は比較的わかりやすく、英語もそれほど難しくないが、授業や教育場面で使用する際には日本語字幕をつけておくべきだろう。この例のように字幕入りの教育教材を作成する用途には非常に向いているシステムである。