翻訳コストを最適化するパラグラフベースのMarkdown | オリジナル、AI翻訳

Home 2025.07.14

私のJekyllブログでは、段落を書くためにMarkdownを使用しています。英語で書いた後、DeepSeekやMistralのようなAIツールを使って8つの言語に翻訳しています。これらはすでに安価ですが、さらに改善の余地があります。

時々、単語や段落を編集しただけで、投稿全体が8つの言語に翻訳されます。この場合、トークン使用量が高くなります。もし1つの段落だけを再翻訳する場合、トークン使用量は低くなります。特に長い投稿の場合は。

しかし、私はMarkdownを使ってアイデアを記録したいと考えています。データベースで投稿を管理・更新するのは不便です。YAMLやJSONを使うのは面倒かもしれません。

重要なのは、編集前後のテキストの違いを特定することです。段落ベースのアプローチを使う場合、それはテキストを改行文字”\n”で分割することを意味します。

編集後の段落のうち、どの段落が変更されたか、どの段落が変更されていないかを知る必要があります。編集前後のテキスト間の段落の一対一のマッピングを知る必要があります。

段落ベースのアプローチを使うのは、AIモデルによる翻訳を更新したいからです。文ベースを使うと、正確性が低くなるかもしれません。

Markdownの場合、Markdown要素に基づいて翻訳を同期させることがより重要かもしれません。

しかし、コードブロックや特殊なMarkdown構文がない場合、段落ベースのアプローチを使うことができます。

簡単な段落ベースのアプローチでは、2つの段落の配列があり、それらがどのように対応するかを知る必要があります。

これらの2つの配列の任意の段落を比較する場合、2つの結果があります。同じか、違うかです。違う場合、いくつかのケースがあります。両方が新しく追加された、左側が新しく追加された、右側が新しく追加された。

私はコストを削減したいだけなので、トークン使用量を減らしたいです。他には何も必要ありません。私は各段落を翻訳し、結果をキャッシュします。次回は、各段落についてまず翻訳結果を探します。存在しない場合は、再翻訳する必要があります。

Markdownの場合は少し複雑です。コードブロックを翻訳したくありません。そのため、まずMarkdown解析ライブラリを使って、コードブロックと通常のテキストを異なる扱いにすることができます。


Back Donate