अनुवाद लागत को अनुकूलित करना पैराग्राफ-आधारित मार्कडाउन के साथ | मूल, AI द्वारा अनुवादित

Home 2025.07.14

मेरा Jekyll ब्लॉग Markdown का उपयोग करके पैराग्राफ लिखने के लिए करता है। अंग्रेजी में लिखने के बाद, मैं AI टूल्स जैसे DeepSeek या Mistral का उपयोग करके आठ अन्य भाषाओं में अनुवाद करता हूँ। हालांकि वे पहले से ही सस्ते हैं, फिर भी सुधार के लिए स्थान है।

कभी-कभी, मैं सिर्फ एक शब्द या एक पैराग्राफ को संपादित करता हूँ, और फिर पूरे पोस्ट के टेक्स्ट को अन्य आठ भाषाओं में अनुवाद किया जाता है। इस मामले में, टोकन का उपयोग अधिक होता है। अगर मैं सिर्फ एक पैराग्राफ को फिर से अनुवाद करता हूँ, तो टोकन का उपयोग कम होगा, विशेष रूप से लंबे पोस्ट के लिए।

हालांकि, मैं अभी भी Markdown का उपयोग करके अपने विचारों को रिकॉर्ड करना चाहता हूँ। डेटाबेस का उपयोग करके पोस्ट्स को बनाए रखना और अपडेट करना आसान नहीं है। YAML या JSON का उपयोग करना भी अधिक जटिल हो सकता है।

मुद्दा यह है कि संपादन से पहले और बाद के टेक्स्ट के बीच अंतर को पहचानना है। अगर हम पैराग्राफ-आधारित दृष्टिकोण का उपयोग करते हैं, तो इसका मतलब है कि टेक्स्ट को न्यूलाइन कैरेक्टर “\n” का उपयोग करके विभाजित करना।

मुझे यह जानना होगा कि संपादन के बाद कौन से पैराग्राफ बदल गए हैं और कौन नहीं। हमें संपादन से पहले और बाद के टेक्स्ट के बीच पैराग्राफ के एक-से-एक मैपिंग्स के बारे में जानना होगा।

हम पैराग्राफ-आधारित दृष्टिकोण का उपयोग करते हैं क्योंकि हम AI मॉडल द्वारा किए गए अनुवादों को अपडेट करना चाहते हैं। अगर हम वाक्यों का उपयोग करते हैं, तो यह उतना सटीक नहीं हो सकता।

Markdown के लिए, यह Markdown तत्वों के आधार पर अनुवादों को सिंक्रनाइज़ करने के लिए Markdown पार्सिंग का उपयोग करना अधिक महत्वपूर्ण हो सकता है।

लेकिन अगर कोड ब्लॉक्स या विशेष Markdown सिंटैक्स नहीं हैं, तो हम पैराग्राफ-आधारित दृष्टिकोण का उपयोग कर सकते हैं।

एक सरल पैराग्राफ-आधारित दृष्टिकोण के लिए, हमारे पास दो पैराग्राफों के एरे हैं और हमें यह जानना होगा कि वे कैसे मिलते हैं।

इन दो एरे में किसी भी पैराग्राफ की तुलना करते समय, दो संभावित परिणाम होते हैं: वे या तो समान हैं या अलग हैं। अगर वे अलग हैं, तो कई मामले हैं: दोनों नए जोड़े गए हैं, बाएं वाला नया जोड़ा गया है, या दाएं वाला नया जोड़ा गया है।

मुझे सिर्फ खर्च कम करना है, इसलिए मैं टोकन का उपयोग कम करना चाहता हूँ। मुझे और कुछ नहीं चाहिए। मुझे हर पैराग्राफ का अनुवाद करना है, परिणाम को कैश करना है, और अगली बार, हर पैराग्राफ के लिए, मैं पहले अनुवाद परिणाम की तलाश करूँगा। अगर वह मौजूद नहीं है, तो मुझे उसे फिर से अनुवाद करना होगा।

Markdown के लिए, यह थोड़ा जटिल है। मैं कोड ब्लॉक्स का अनुवाद नहीं करना चाहता। इसलिए, हम पहले एक Markdown पार्सिंग लाइब्रेरी का उपयोग कर सकते हैं ताकि कोड ब्लॉक्स और सामान्य टेक्स्ट को अलग-अलग तरीके से संभाला जा सके।


Back Donate