语言识别代码与置信度 | AI生成和翻译
在 langid 中,classify(text) 函数返回一个元组 (lang, confidence),其中:
lang是双字母 ISO 639-1 语言代码(有时会扩展包含地区代码,如zh-cn或zh-tw)confidence是介于 0 到 1 之间的浮点数,表示模型的置信度
lang 的可能取值集合来自 langid.py 支持的语言。默认包含 97 种语言,常见示例如下:
en→ 英语zh/zh-cn/zh-tw→ 中文(通用/简体/繁体)ja→ 日语ko→ 韩语fr→ 法语de→ 德语es→ 西班牙语hi→ 印地语ar→ 阿拉伯语ru→ 俄语
此外还涵盖许多其他语言——完整列表包含世界上主要语种(南非荷兰语、孟加拉语、希腊语、希伯来语、意大利语、葡萄牙语、斯瓦希里语、泰语、土耳其语、越南语等)。
👉 如果您需要,我可以提供 langid 支持的 97 个语言代码完整列表。需要我输出这个列表吗?