भारतजेन: विश्व का पहला सरकारी वित्तपोषित मल्टीमॉडल लार्ज लैंग्वेज मॉडल

पाठ्यक्रम: GS3/ विज्ञान और प्रौद्योगिकी

समाचार में

  • विज्ञान एवं प्रौद्योगिकी मंत्रालय द्वारा शुरू की गई विश्व की पहली सरकारी वित्तपोषित मल्टीमॉडल LLM पहल “भारतजेन”।

भारतजेन के बारे में

  • उद्देश्य: भाषा, भाषण और कंप्यूटर विज़न में आधारभूत मॉडल विकसित करके सार्वजनिक सेवा वितरण में क्रांतिकारी परिवर्तन लाना और नागरिक सहभागिता को बढ़ाना।
  • कार्यान्वयन: राष्ट्रीय अंतःविषय साइबर-भौतिक प्रणाली मिशन (NM-ICPS) के तहत IIT बॉम्बे द्वारा
  • भारतजन की मुख्य विशेषताएँ:
    • बहुभाषी और बहुविध आधारभूत मॉडल।
    • भारत-केंद्रित डेटासेट के आधार पर निर्माण और प्रशिक्षण।
    • AI अनुसंधान और नवाचार को बढ़ावा देने के लिए ओपन-सोर्स प्लेटफ़ॉर्म।
    • इस परियोजना के 2026 तक पूरा होने की उम्मीद है, जिसमें AI अनुप्रयोगों के अनुसंधान, विकास और स्केलिंग जारी रहेगी।

महत्त्व

  • भारतजनरेशन टेक्स्ट और स्पीच दोनों को संबोधित करेगा, जिससे भारत के विविध भाषाई परिदृश्य में प्रतिनिधित्व सुनिश्चित होगा।
    •  बहुभाषी डेटासेट का उपयोग करके, यह भारतीय भाषाओं की बारीकियों को पकड़ेगा, जिन्हें प्रायः वैश्विक AI मॉडल में कम दर्शाया जाता है। डेटा संप्रभुता पर यह बल भारत को अपने डिजिटल संसाधनों और कथा पर अधिक नियंत्रण देता है। 
  • भारतजनरेशन सरकार, शिक्षा और निजी क्षेत्रों में AI तक पहुँच का लोकतंत्रीकरण करेगा, जिससे यह सुनिश्चित होगा कि AI समाज के सभी वर्गों, विशेष रूप से वंचित भारतीय भाषाओं को लाभ पहुँचाए।
  •  भारतजनरेशन विशेष रूप से भारत के लिए AI मॉडल विकसित करके आत्मनिर्भर भारत के दृष्टिकोण के साथ संरेखित है। (इन तकनीकों को घरेलू स्तर पर बनाकर।)

LLM क्या हैं?

  • बड़े भाषा मॉडल, जिन्हें LLM के रूप में भी जाना जाता है, बहुत बड़े डीप लर्निंग मॉडल हैं जो विशाल मात्रा में डेटा पर पहले से प्रशिक्षित होते हैं। 
  • LLM मानव भाषाओं या अन्य जटिल डेटा को पहचानने, व्याख्या करने और उत्पन्न करने के लिए मशीन लर्निंग तकनीकों का उपयोग करते हैं। 
  • उनकी क्षमताएँ संरचित और असंरचित डेटा को संभालने तक भी विस्तारित होती हैं, जिसमें भाषण, चित्र और अन्य मल्टीमॉडल इनपुट शामिल हैं, जो ग्राहक सेवा, स्वास्थ्य सेवा तथा शिक्षा जैसे क्षेत्रों में उनकी उपयोगिता को बढ़ाता है।
जनरेटिव AI (GenAI)
– यह एक आर्टिफिशियल इंटेलिजेंस (AI) तकनीक है जो प्राकृतिक भाषा के संवादी इंटरफेस में लिखे गए संकेतों के जवाब में स्वचालित रूप से सामग्री तैयार करती है।
– वर्तमान वेब पेजों को केवल क्यूरेट करने के बजाय, उपस्थित सामग्री का उपयोग करके, GenAI वास्तव में नई सामग्री तैयार करता है।
– सामग्री ऐसे प्रारूपों में दिखाई दे सकती है जिसमें मानव सोच के सभी प्रतीकात्मक प्रतिनिधित्व शामिल हैं: प्राकृतिक भाषा में लिखे गए पाठ, चित्र (फोटो से लेकर डिजिटल पेंटिंग और कार्टून तक), वीडियो, संगीत और सॉफ़्टवेयर कोड।
– GenAI को वेब पेजों, सोशल मीडिया वार्तालापों और अन्य ऑनलाइन मीडिया से एकत्र किए गए डेटा का उपयोग करके प्रशिक्षित किया जाता है। यह अपने द्वारा ग्रहण किए गए डेटा में शब्दों, पिक्सेल या अन्य तत्वों के वितरण का सांख्यिकीय रूप से विश्लेषण करके और सामान्य पैटर्न की पहचान करके और उन्हें दोहराकर अपनी सामग्री तैयार करता है।
– नवंबर 2022 में, OpenAI ने ChatGPT (चैट जेनरेटिव प्री-ट्रेन्ड ट्रांसफॉर्मर) को जनता के लिए जारी किया।

Source: BS