2023-03-28 [News] 「DeepL」が「Microsoft Store」に登場 ~自然な訳文が得られると人気の無料AI翻訳アプリ ---これは便利だ;あたり前だがもとの PDF がきれいでなければ(OCR が正確でなければ)あまり意味はない

食事、コンピューター、インドネシアについてのひとり言。 ときどき人類学なども。

[2023-03-28] [窓の杜]
この記事で紹介されている 翻訳アプリの DeepL、なかなかに便利そうだ。 Chrome の 拡張機能を Chrome にインストールしてみた。 さっそく(オランダ語の)植民地文書を翻訳してみる。 選んだ文書が 5 MB ほどあったので、 アップロード可能の上限 3 MB を越えていた。 まずは、 Kami で読み込むこととする。 Kami には OCR 機能があったので、 それを用いてテキスト化した。 [–DeepL に直接アップロードしても (テキスト化していないので)無駄だったことに気がついた。–]

さて、 Kami 上で PDF ファイルの一部を選択して CTRL-SHIFT-Y で翻訳をしてみる。

うまくいかない。

考えてみれば、当り前である — もとの文書(植民地文書)が汚ないので、 PDF ファイルも汚ない。 それで OCR がほとんどうまくいっていないのだ。 (たぶん 20 %前後だ) わりとめちゃくちゃなテキストを与えられてしまったので、 DeepL の翻訳も滅茶苦茶になってしまった、というわけだ。 次回はきれいな PDF ファイルを見つけて、 それをつかってみることにしよう。

いまのところ、植民地文書を読むためには、 DeepL の 翻訳窓をつかって、 文章を自力で入力するしかないだろう。 これでもないよりましだろう。

もちろんポルトガル語でもできる筈なので、 こんどいいデータがあったら、試してみることとする。