会社でたまに議事録を作成するのですが、これ自動化できないかなと調べました。
今日は、この文字起こしについて書いてみます。
※自動文字起こしに限定します。
1: googleドキュメントの音声入力で文字起こし
文字起こしで簡単な方法に、googleドキュメントの音声入力を使う方法があるようです。
試しにyoutubeの動画を再生し、googleドキュメントの音声入力から文字起こししてみたところ、かなりの精度で文字起こしできました。
しかも、CPUなどの消費も少なく、非力なマシンでも、この方法は使えます。
…が、複数人が同時に喋ったりする会議などの文字起こしでは全く使えませんでした。
どれくらいできないかというと…聞いたまま文字起こしすると数十行になるところ、1行かけたかどうかで、意味も不明な内容でした。
2: OpenAIの文字起こしAI「Whisper」
pythonのライブラリで公開されているのか、pythonとffmpeg(メディアファイルに関するライブラリ)などを、
インストールしなくてはならず、ちょっと敷居が高いです。
Pythonのスクリプトで起動しようとしても何度もエラーがでて、かなりの時間を無駄にしました。
結果、コマンドプロンプトで直起動したところ文字起こしができました。
googleドキュメントの音声入力よりは比較にならないほど文字起こしできます。
…ただ、問題はマシンスペックが非常に問われます。高性能のGPU(CUDA対応)が必要だと思われました。
40分程度の動画から文字起こしを行ったのですが、CPUだけの処理で文字起こしをしたところ、半日かかりました。※正確にはそれでも終わらなかったです。
次に、妻のM1搭載のMacBookAirを拝借して試したところ…WindowsPC(Ryzen5800U)よりは処理が早かったですが※M1のGPU性能のおかげ?
ファンレスのMacBookAirの背面がすごい熱くなっていました。…1,2時間で文字起こしできそうなスピードでしたが…あまりの筐体の発熱が心配で途中で停止しました。
3: サブスクの文字起こし「notta」
プレミアムプランを契約してみました。月払いだと2,000円、年払いだと14,400円(月:1,200円)。
まずどれくらいの制度で文字起こしできるのか知りたかったので、月払いで契約。
これは有料だけあって、文字起こしの元となる動画のアップロード時間がかかったくらいで、
文字起こしは数分で終わりました。精度はなかなかいいです。他の2つと変わらないかもしれないけど、
発言者ごとに仕分けてくれる点はさすが有料の機能。数分で文字起こしでき、要約機能も利用できます。
これくらいの速度で文字起こしできると、手直し時間を考えると実用的かと思いました。
ただ、精度はもっと高いと思っていただけに、すこし残念。
まとめると、nottaで文字起こしし、手動で手直し、要約はchatGPTでするのが良い感じです。
いろいろ調べて検証するのに1週間かかりました。nottaは1週間前に見つけたけど有料だったので手を出さず無料できるものの検証を優先しました。
…有料ものでためし時間を節約するのも手ですね。今後の課題にします。