कृत्रिम सामान्य बुद्धिमत्ता (Artificial General Intelligence) की दुनिया
अगर एक दिन, हम केवल एक AI को TikTok या YouTube जैसा ऐप बनाने के लिए एक ही कमांड दे सकें, और यह हमें लाखों लाइनों के कोड वाला एक पूरा प्रोजेक्ट प्रदान कर दे, तो यह वाकई अद्भुत होगा।
जब ChatGPT को नवंबर 2022 के अंत में जारी किया गया था, तो यह कोड के एक स्निपेट को ठीक करने और विभिन्न प्रश्नों के उत्तर देने जैसे कार्य कर सकता था। यह न्यूरल नेटवर्क जैसी अवधारणाओं को समझाने और विभिन्न प्रोग्रामिंग भाषाओं में “Hello, World!” उदाहरण प्रदान करने में उत्कृष्ट था। यह एक बहुत शक्तिशाली सर्च इंजन की तरह था जो सीधे उत्तर दे सकता था।
फिर, इसमें खोज कार्यक्षमता थी। मैं ChatGPT को किसी वेबसाइट से लिंक्स की सूची प्राप्त करने और उनके बारे में एक दस्तावेज़ बनाने का निर्देश दे सकता था।
फिर, ChatGPT 3.5, 4, 4o, o1-mini, और o1 जैसे संस्करण जारी किए गए।
अब, यह वेबसाइट पर डार्क मोड जोड़ने जैसे अनुरोधों को संभाल सकता है। यह HTML, CSS, या स्क्रिप्ट को अपडेट करने के लिए आवश्यक कोड और निर्देश प्रदान कर सकता है, और यहां तक कि डार्क मोड टॉगल जोड़ने का सुझाव भी दे सकता है। डार्क मोड को लागू करने में CSS को बदलना शामिल है, और यदि साइट Markdown का उपयोग करती है, तो उसे भी अपडेट करने की आवश्यकता होती है।
ऐसा लगता है कि AI सिर्फ कोड के टुकड़ों को ही नहीं, बल्कि पूरी सुविधाओं या कार्यक्षमताओं को लागू कर सकता है।
इन सुविधाओं को मिलाकर, हम एक एप्लिकेशन बना सकते हैं। इसलिए, एक दिन, अगर हम किसी AI टूल को टर्मिनल, ब्राउज़र, टू-डू लिस्ट, टास्क ऐप, कैलेंडर, कोड सहयोग टूल, या मीटिंग ऐप बनाने के लिए कहें, तो यह पूरा प्रोजेक्ट कोड प्रदान कर सकता है।
फिर हम कार्य को और जटिल बना सकते हैं। उदाहरण के लिए, हम AI से मौजूदा YouTube कोड को एकीकृत करने और YouTube में AI कार्यक्षमताएँ जोड़ने के लिए OpenAI, Claude, या Deepseek के APIs का उपयोग करने के लिए कह सकते हैं। इसमें एक स्मार्ट असिस्टेंट जोड़ना, वर्तमान अनुवादों को AI-संचालित अनुवादों से बदलना, AI के साथ खोज क्षमताओं को बढ़ाना, और यहां तक कि समर्पित शॉर्ट वीडियो क्यूरेट करना शामिल हो सकता है, जैसे कि YouTube से जापानी जीवन के बारे में 100 मजेदार शॉर्ट वीडियो प्रदान करने का अनुरोध करना।
तो, यह एक ऐप है। लेकिन और अधिक उन्नत कार्यों के बारे में क्या, जैसे कि एक ऑपरेटिंग सिस्टम बनाना? हम AI को एक नया, पूरी तरह से ओपन-सोर्स ऑपरेटिंग सिस्टम डिजाइन करने के लिए कह सकते हैं, जिसमें एक नया डिज़ाइन, बेसिक ऐप्स, एक टर्मिनल, एक कमांड लाइन, और एक स्केड्यूलर हो, जो Oberon की तरह हो, और प्रक्रियाओं के बीच इंटरैक्ट करने के लिए डेटा स्ट्रक्चर्स का उपयोग करे, स्ट्रिंग्स के बजाय।
आगे क्या? हम AI से नवीनतम Mac डिज़ाइन करने और उसके ऑपरेटिंग सिस्टम को अपडेट करने के लिए कह सकते हैं।
और फिर, आगे क्या? हम AI को पूरे घर को डिज़ाइन और अपडेट करने के लिए कह सकते हैं, हमारी गतिविधियों, नवीनतम ज्ञान और हमारी आवश्यकताओं के आधार पर सभी इलेक्ट्रिकल उत्पादों को अनुकूलित करके एक बेहतर रहने का वातावरण बना सकते हैं।
और फिर, आगे क्या? हम AI से एक पूरे शहर को डिजाइन करने के लिए कह सकते हैं, जो उसके नागरिकों के व्यवहार और नवीनतम ज्ञान के अनुरूप हो, ताकि उनके जीवन को बेहतर बनाया जा सके।
और अंत में, आगे क्या है? हम AI को यह बता सकते हैं कि वह पृथ्वी को बेहतर बनाए, सभी उपलब्ध ज्ञान और जानकारी का उपयोग करके हर किसी के जीवन को बेहतर बनाए।
मैं इस निबंध के लिए एक शीर्षक सोचने में संघर्ष कर रहा हूँ। इसे “कृत्रिम सामान्य बुद्धिमत्ता की दुनिया” कहते हैं।
डीपसीक के अनुसार, “आर्टिफिशियल जनरल इंटेलिजेंस (AGI) एक प्रकार की कृत्रिम बुद्धिमत्ता को संदर्भित करता है जो मानव बुद्धिमत्ता के समान स्तर पर विभिन्न कार्यों को समझने, सीखने और ज्ञान को लागू करने की क्षमता रखती है।” नैरो AI के विपरीत, जो विशिष्ट कार्यों जैसे चेहरे की पहचान, भाषा अनुवाद, या शतरंज खेलने के लिए डिज़ाइन किया गया है, AGI किसी भी बौद्धिक कार्य को कर सकता है जो एक मनुष्य कर सकता है।
जब AI के भविष्य पर विचार किया जाता है, तो दो मूल बिंदुओं को समझना आवश्यक है: एल्गोरिदम और कंप्यूटेशन। AI एल्गोरिदम मुख्य रूप से कैलकुलस, बैकप्रोपेगेशन, ट्रांसफॉर्मर्स, GPT, और मल्टीहेड लेटेंट अटेंशन से जुड़े होते हैं।
डिजिटल दुनिया में, X से Y तक मैपिंग होगी, जहां X टेक्स्ट, इमेज, वीडियो, ऑडियो, कोड, या किसी भी बाइट डेटा तक कुछ भी हो सकता है। Y भी इनमें से कुछ भी हो सकता है।
कंप्यूटर स्वाभाविक रूप से AGI को नहीं समझते हैं; यह केवल मनुष्यों द्वारा बनाई गई एक परिभाषा है और मशीनों के लिए इसका कोई खास महत्व नहीं है।
भौतिक दुनिया में AI का अनुप्रयोग स्वायत्त ड्राइविंग और रोबोटिक्स जैसे क्षेत्रों को शामिल करेगा। यदि डिजिटल दुनिया X को Y से मैप कर सकती है, तो भौतिक दुनिया भी इसका अनुसरण करेगी। उदाहरण के लिए, एक रोबोट सामग्री को व्यंजनों में बदल सकता है, लेगो बना सकता है, घर को सजा सकता है, फर्श पर टाइल लगा सकता है, एयर कंडीशनर स्थापित कर सकता है, और IKEA फर्नीचर को असेंबल कर सकता है।
पहले से ही औद्योगिक रोबोट उपयोग में हैं। जापान में उल्लेखनीय कंपनियों में FANUC, Kawasaki Heavy Industries, और Yaskawa Electric Corporation शामिल हैं।
तो घरों में और रोबोट क्यों नहीं हैं? उपभोक्ता रोबोट को बहुमुखी और कई कार्य करने में सक्षम होना चाहिए। उदाहरण के लिए, एक खाना पकाने वाला रोबोट केवल सामग्री को हिला और तल सकता है, जिसके लिए उपयोगकर्ताओं को सामग्री तैयार करनी होगी और बाद में सफाई करनी होगी।
भविष्य में, रोबोट घरों, दुकानों, स्कूलों, कार्यालयों, सिनेमाघरों और पर्यटक आकर्षणों में मौजूद होंगे—मूल रूप से वहाँ जहाँ वर्तमान में मानव कर्मचारी काम कर रहे हैं।
क्लाउड में एक वर्ल्ड मॉडल होगा, जो संभवतः लगभग 100 पेटाबाइट आकार का एक बहुत बड़ा मॉडल होगा। संदर्भ के लिए, 1 पेटाबाइट 1,024 टेराबाइट के बराबर होता है, और 1 टेराबाइट 1,024 गीगाबाइट के बराबर होता है। Llama 3 70B मॉडल का एक संस्करण 21.1 GB फाइल साइज़ का है।
दुनिया में रोबोट्स को कार्रवाई करने के लिए इस वर्ल्ड मॉडल को क्लाउड में कंसल्ट करने की आवश्यकता होगी। 100 मिलीसेकंड या यहां तक कि 1 सेकंड का नेटवर्क विलंब स्वीकार्य है, जब तक कि रोबोट अपने कार्यों को प्रभावी ढंग से पूरा कर सकता है।