परियोजना वाणी

भारतको लागि समावेशी एआई निर्माण: परियोजना वाणीमा श्यापको भूमिका

भारत जस्तो सांस्कृतिक विविधता र भाषिक रूपमा धनी देशमा, समावेशी एआई निर्माण प्रतिनिधिमूलक, उच्च-गुणस्तरको डेटासेट सङ्कलनबाट सुरु हुन्छ। त्यो पछाडिको दृष्टिकोण हो परियोजना वाणी—को नेतृत्वमा रहेको एक ठूलो स्तरको, खुला स्रोत पहल ARTPARK का थप वस्तुहरू, आईआईएससी बेंगलुरु, र गुगल, प्रत्येक भारतीय भाषा र बोलीलाई आवाज दिने लक्ष्य राख्दै।

महत्वाकांक्षी लक्ष्य? सङ्कलन गर्ने १,५०,०००+ घण्टाको भाषण१५,०००+ घण्टाको ट्रान्सक्रिप्सन बाट 1 लाख मान्छे मार्फत २ जिल्लाहरु भारतको।

यस राष्ट्रिय अभियानको लागि एक प्रमुख विक्रेताको रूपमा, शैप स्वतःस्फूर्त वाणी डेटा, ट्रान्सक्रिप्शन, र मेटाडेटा सङ्कलन क्युरेट गर्नमा महत्त्वपूर्ण भूमिका खेलेको थियो - वास्तविक भारतको प्रतिनिधित्व गर्ने समतामूलक आवाज प्रविधिहरूको लागि आधार तयार पारेको थियो।

परियोजना वाणी पछाडिको दृष्टि

परियोजना वाणी सिर्जना गरेर एआई समावेशीकरण खाडललाई पूरा गर्न डिजाइन गरिएको हो सबैभन्दा ठूलो बहु-मोडल, बहुभाषी, खुला-स्रोत डेटासेट भारतमा। यो डेटा मातृभाषा भारतीय भाषाहरूमा सही वाक् पहिचान, अनुवाद, र जेनेरेटिभ एआई प्रणालीहरू विकास गर्न आधारभूत छ - जसमध्ये धेरै विश्वव्यापी प्राविधिक पारिस्थितिक प्रणालीहरूमा कम प्रतिनिधित्व गरिएका छन्।

दीर्घकालीन दृष्टिकोण भनेको प्रभावकारी अनुप्रयोगहरूलाई शक्ति प्रदान गर्नु हो:

प्रोजेक्ट वाणीमा श्यापको भूमिका

शैपलाई सङ्कलनको जिम्मा दिइएको थियो ८,००० घण्टाको सहज भाषण८०० घण्टाको म्यानुअली प्रमाणित ट्रान्सक्रिप्सनहाम्रो जिम्मेवारी स्पिकर अनबोर्डिङ, अडियो क्याप्चर, मेटाडेटा ट्यागिङ, ट्रान्सक्रिप्शन समन्वय, र गुणस्तर नियन्त्रणमा समेटिएको थियो।

8,000 घण्टा स्वतःस्फूर्त अडियो डेटाको

800 घण्टा उच्च गुणस्तरको म्यानुअल ट्रान्सक्रिप्शनहरूको

बाट रेकर्डिङहरू प्रति जिल्ला ४००+ मातृभाषीहरू, विभिन्न उमेर समूह, लिङ्ग र बोलीहरूको प्रतिनिधित्व गर्दै

८० जिल्ला, ढाकिएको

सुनिश्चित गर्न छवि-आधारित प्रम्प्टिङ प्राकृतिक, प्रासंगिक भाषण

हाम्रो दृष्टिकोणलाई अद्वितीय बनाउने कुरा यहाँ दिइएको छ:

जिल्ला स्तरीय विविधता

जिल्ला-स्तरीय विविधता

हामीले बिहार, उत्तर प्रदेश, कर्नाटक, पश्चिम बंगाल र महाराष्ट्र जस्ता राज्यहरूमा फैलिएका ८० जिल्लाहरूबाट रेकर्डिङहरू स्रोत गर्यौं। प्रत्येक जिल्लाले क्षेत्रीय सन्तुलन सुनिश्चित गर्दै १०० घण्टाको अडियो डेटा योगदान गर्‍यौं। हामीले मूलधारका एआई डेटासेटहरूमा प्रायः बेवास्ता गरिएका क्षेत्रीय उच्चारण र बोलीहरूको प्रतिनिधित्व सुनिश्चित गर्दै, मातृभाषीहरूलाई संलग्न गर्यौं।

भाषिक र जनसांख्यिकीय प्रतिनिधित्व

भाषिक र जनसांख्यिकीय प्रतिनिधित्व

हामीले बिहार, उत्तर प्रदेश, कर्नाटक, पश्चिम बंगाल र महाराष्ट्र जस्ता राज्यहरूमा फैलिएका ८० जिल्लाहरूबाट रेकर्डिङहरू स्रोत गर्यौं। प्रत्येक जिल्लाले क्षेत्रीय सन्तुलन सुनिश्चित गर्दै १०० घण्टाको अडियो डेटा योगदान गर्‍यौं। हामीले मूलधारका एआई डेटासेटहरूमा प्रायः बेवास्ता गरिएका क्षेत्रीय उच्चारण र बोलीहरूको प्रतिनिधित्व सुनिश्चित गर्दै, मातृभाषीहरूलाई संलग्न गर्यौं।

छवि-प्रोम्प्टेड भाषण

स्वतःस्फूर्त र प्राकृतिक शब्दावलीलाई उत्तेजित गर्न, सहभागीहरूलाई प्रति सत्र ४५-९० तस्बिरहरू देखाइयो र तिनीहरूलाई वर्णन गर्न भनियो। सहभागीहरूलाई उनीहरूको मातृभाषामा प्राकृतिक, सहज प्रतिक्रियाहरू प्राप्त गर्न सांस्कृतिक प्रतीकहरूदेखि दैनिक वस्तुहरूसम्मका विविध तस्बिरहरू प्रयोग गर्न प्रेरित गरियो। यसले रेकर्डिङहरूले वास्तविक-विश्व, प्रासंगिक भाषण प्रतिबिम्बित गर्ने कुरा सुनिश्चित गर्‍यो - उन्नत NLP प्रणालीहरू प्रशिक्षणको लागि आवश्यक।

उच्च-गुणस्तरको ट्रान्सक्रिप्शन मापदण्डहरू

उच्च-गुणस्तर ट्रान्सक्रिप्शन मानकहरू

भाषण डेटाको केवल १०% मात्र ट्रान्सक्राइब गरिएको थियो—८०० घण्टा बराबर। स्थानीय भाषाविद्हरूद्वारा वक्ताको २०-५० किलोमिटरको दायरा भित्र ट्रान्सक्रिप्शनहरू गरिएको थियो, जसले गर्दा बोली र सूक्ष्मताहरूसँग परिचितता सुनिश्चित भयो। दोस्रो-तहको जाँचले <५% शब्द त्रुटि दर (WER) सुनिश्चित गर्‍यो।

कडा गुणस्तर आश्वासन

अडियो डेटाले उच्च पट्टी पूरा गर्नुपर्थ्यो: कुनै पृष्ठभूमि आवाज, प्रतिध्वनि, फोन कम्पन, वा विकृतिहरू छैनन्। अडियो शान्त, प्रतिध्वनि-मुक्त वातावरणमा रेकर्ड गरिएको थियो। वाणी स्पष्टता, आवाज स्तर, मेटाडेटा शुद्धता, र स्पिकर प्रमाणीकरणको लागि दिशानिर्देशहरू पूरा गर्न फाइलहरूको कडा समीक्षा गरिएको थियो। मेटाडेटा ट्यागिङ सबै फाइलहरूमा सटीक हुनुपर्थ्यो, र सबै रेकर्डिङहरू स्पिकर र स्थान पङ्क्तिबद्धताको लागि जाँच गरिएको थियो।

हामीले समाधान गरेका चुनौतीहरू

हाम्रो सफलता सावधानीपूर्वक योजना, प्रविधि-संचालित प्रमाणीकरण, र प्रत्येक क्षेत्रको सांस्कृतिक सूक्ष्मता बुझ्ने स्थानीय टोलीहरूसँगको साझेदारीमा निर्भर छ।

प्रभाव र अनुप्रयोगहरू

शैपको योगदानले परियोजना वाणीको प्रगतिलाई मात्र तीव्र बनाएको छैन तर भारतमा समावेशी एआईको लागि जग पनि खडा गरेको छ। क्युरेट गरिएको स्पीच डेटासेट पहिले नै एआई मोडेलहरू निर्माण र फाइन-ट्यून गर्न प्रयोग भइरहेको छ:

  • स्थानीय भाषामा प्रयोग हुने आवाज सहायकहरू
  • क्षेत्रीय अनुवाद इन्जिनहरू
  • दृष्टिविहीनहरूका लागि पहुँचयोग्य सञ्चार उपकरणहरू
  • ग्रामीण विद्यार्थीहरूको लागि एआई-संचालित एडटेक प्लेटफर्महरू
  • ग्रामीण टेलिमेडिसिन
  • आवाजमा आधारित नागरिक सेवाहरू
  • वास्तविक-समय अनुवाद र ट्रान्सक्रिप्शन

निष्कर्ष

परियोजना वाणी समावेशी, पहुँचयोग्य एआई तर्फको एक साहसिक कदम हो - र शैपलाई आधारभूत भूमिका खेल्न पाउँदा सम्मानित गरिएको छ। प्रोजेक्ट वाणीमा शैपको कामले विविधता र प्रतिनिधित्वमा आधारित नैतिक, समावेशी एआई प्रणालीहरू निर्माण गर्ने हाम्रो प्रतिबद्धतालाई पुन: पुष्टि गर्दछ। ८,००० घण्टाभन्दा बढी भाषण सङ्कलन र ८०० घण्टा ट्रान्सक्राइब गरिएको, हामी भारतको सबैभन्दा दूरदर्शी डिजिटल समावेशीकरण परियोजनाहरू मध्ये एकमा भूमिका खेल्न पाउँदा गर्व गर्छौं।

प्रोजेक्ट वाणीले १५०,०००+ घण्टा डेटाको आफ्नो ठूलो लक्ष्यतर्फ अगाडि बढ्दै जाँदा, हामी एआई नवप्रवर्तनको अर्को सीमालाई समर्थन गर्न तयार छौं जसले प्रत्येक भारतीयलाई बोल्छ - र यसको लागि -।

वास्तविक संसार बुझ्ने एआई निर्माण गर्न हामीसँग साझेदारी गर्न चाहनुहुन्छ? www.shaip.com

सामाजिक साझेदारी