言語サポート:フォントとテキストトゥスピーチ
私のブログは現在9言語に対応しています:日本語(ja
)、スペイン語(es
)、ヒンディー語(hi
)、中国語(zh
)、英語(en
)、フランス語(fr
)、ドイツ語(de
)、アラビア語(ar
)、および繁體中国語(hant
)。サイトは https://lzwjava.github.io で見つけることができます。
コンピュータ環境で複数の言語を扱う際、いくつかの観点を考慮する必要があります。
フォントの処理
さまざまな言語は特定のフォントを使用して正しくレンダリングする必要があります、特にLaTeXを使用してPDFを生成する場合。以下のPythonコードは、オペレーティングシステムと言語に基づいて適切なフォントを選択する方法を示しています。
if platform.system() == "Darwin":
if lang == "hi":
CJK_FONT = "Kohinoor Devanagari"
elif lang == "ar":
CJK_FONT = "Geeza Pro"
elif lang in ["en", "fr", "de", "es"]:
CJK_FONT = "Helvetica"
elif lang == "zh":
CJK_FONT = "PingFang SC"
elif lang == "hant":
CJK_FONT = "PingFang TC"
elif lang == "ja":
CJK_FONT = "Hiragino Sans"
else:
CJK_FONT = "Arial Unicode MS"
else:
if lang == "hi":
CJK_FONT = "Noto Sans Devanagari"
elif lang == "ar":
CJK_FONT = "Noto Naskh Arabic"
elif lang in ["en", "fr", "de", "es"]:
CJK_FONT = "DejaVu Sans"
elif lang == "zh":
CJK_FONT = "Noto Sans CJK SC"
elif lang == "hant":
CJK_FONT = "Noto Sans CJK TC"
elif lang == "ja":
CJK_FONT = "Noto Sans CJK JP"
else:
CJK_FONT = "Noto Sans"
command = [
'pandoc',
input_markdown_path,
'-o', output_pdf_path,
'-f', 'markdown',
'--pdf-engine', 'xelatex',
'-V', f'romanfont={CJK_FONT}',
'-V', f'mainfont={CJK_FONT}',
'-V', f'CJKmainfont={CJK_FONT}',
'-V', f'CJKsansfont={CJK_FONT}',
'-V', f'CJKmonofont={CJK_FONT}',
'-V', f'geometry:{GEOMETRY}',
'-V', 'classoption=16pt',
'-V', 'CJKoptions=Scale=1.1',
'-V', 'linestretch=1.5'
]
重要なのは、このソリューションは完璧ではないことを指摘することです。例えば、コードブロックのコメント内のヒンディー文が期待通りにレンダリングされない可能性があります。
テキストに対する音声変換
私はGoogle Text-to-Speechを使用して、ブログ記事の音声バージョンを生成しています。以下のコードスニペットは、テキスト-to-スピーチエンジンに適切な言語コードを選択する方法を示しています。
synthesis_input = texttospeech.SynthesisInput(text=chunk)
if language_code == "en-US":
voice_name = random.choice(["en-US-Journey-D", "en-US-Journey-F", "en-US-Journey-O"])
elif language_code == "cmn-CN":
voice_name = random.choice(["cmn-CN-Wavenet-A", "cmn-CN-Wavenet-B", "cmn-CN-Wavenet-C", "cmn-CN-Wavenet-D"])
elif language_code == "es-ES":
voice_name = random.choice(["es-ES-Journey-D", "es-ES-Journey-F", "es-ES-Journey-O"])
elif language_code == "fr-FR":
voice_name = random.choice(["fr-FR-Journey-D", "fr-FR-Journey-F", "fr-FR-Journey-O"])
elif language_code == "yue-HK":
voice_name = random.choice(["yue-HK-Standard-A", "yue-HK-Standard-B", "yue-HK-Standard-C", "yue-HK-Standard-D"])
elif language_code == "ja-JP":
voice_name = random.choice(["ja-JP-Neural2-B", "ja-JP-Neural2-C", "ja-JP-Neural2-D"])
elif language_code == "hi-IN":
voice_name = random.choice(["hi-IN-Wavenet-A", "hi-IN-Wavenet-B", "hi-IN-Wavenet-C", "hi-IN-Wavenet-D", "hi-IN-Wavenet-E", "hi-IN-Wavenet-F"])
elif language_code == "de-DE":
voice_name = random.choice(["de-DE-Journey-D", "de-DE-Journey-F", "de-DE-Journey-O"])
elif language_code == "ar-XA":
voice_name = random.choice(["ar-XA-Wavenet-A", "ar-XA-Wavenet-B", "ar-XA-Wavenet-C", "ar-XA-Wavenet-D"])
text_to_speech(
text=article_text,
output_filename=output_filename,
task=task,
language_code=language_code,
dry_run=dry_run,
progress=progress
)
現在、中国語と英語のコンテンツに対して音声が生成されています。他の言語に対するサポートを拡大するには、対応する言語コードを設定する必要があります。
要約
言語は主に2つの観点で異なります:それぞれの書式とそれぞれの発音(発音)。フォントの選択とテキスト-to-スピーチの設定は、それぞれの観点に対応することを示しています。