केस स्टडी: संवादात्मक एआई
3 भारतीय भाषाहरूमा ASR निर्माण गर्न 8k घण्टा भन्दा बढी डाटा सङ्कलन, विभाजन र ट्रान्सक्राइब गरिएको
भाशिनी, भारतको एआई-संचालित भाषा अनुवाद प्लेटफर्म, डिजिटल भारत पहलको एक महत्त्वपूर्ण भाग हो।
MSMEs, स्टार्टअपहरू, र स्वतन्त्र आविष्कारकहरूलाई कृत्रिम बुद्धिमत्ता (AI) र प्राकृतिक भाषा प्रशोधन (NLP) उपकरणहरू प्रदान गर्न डिजाइन गरिएको, भाशिनी प्लेटफर्मले सार्वजनिक स्रोतको रूपमा काम गर्दछ। यसको लक्ष्य भारतीय नागरिकहरूलाई आफ्नो मातृभाषाहरूमा देशको डिजिटल पहलहरूसँग अन्तरक्रिया गर्न सक्षम पारेर डिजिटल समावेशीकरणलाई बढावा दिनु हो।
थप रूपमा, यसले भारतीय भाषाहरूमा इन्टरनेट सामग्रीको उपलब्धतालाई उल्लेखनीय रूपमा विस्तार गर्ने लक्ष्य राखेको छ। यो विशेष गरी शासन र नीति, विज्ञान र प्रविधि आदि जस्ता सार्वजनिक चासोका क्षेत्रहरूमा लक्षित छ। फलस्वरूप, यसले नागरिकहरूलाई उनीहरूको सक्रिय सहभागितालाई बढावा दिँदै आफ्नै भाषामा इन्टरनेट प्रयोग गर्न प्रोत्साहित गर्नेछ।
योगदानकर्ता, साझेदार संस्थाहरू र नागरिकहरूको विविध इकोसिस्टम सक्षम बनाउन भाषा अवरोधहरू पार गर्ने उद्देश्यले एनएलपी प्रयोग गर्नुहोस्, जसले डिजिटल समावेश र सशक्तिकरण सुनिश्चित गर्दछ।
वास्तविक विश्व समाधान
डाटाको साथ स्थानीयकरणको शक्ति अनलाईन गर्दै
भारतलाई एउटा प्लेटफर्म चाहिन्छ जसले भारतीय भाषाहरूमा डिजिटल सेवाहरू प्रदान गर्न बहुभाषिक डाटासेटहरू र एआई-आधारित भाषा प्रविधि समाधानहरू सिर्जना गर्नमा ध्यान केन्द्रित गर्नेछ। यो पहल सुरु गर्न, इन्डियन इन्स्टिच्युट अफ टेक्नोलोजी, मद्रास (IIT मद्रास) ले बहु-भाषिक भाषण मोडेलहरू निर्माण गर्न भारतीय भाषा डाटासेटहरू सङ्कलन, खण्ड र ट्रान्सक्राइब गर्न Shaip सँग साझेदारी गर्यो।
चुनौतीहरू
ग्राहकलाई भारतीय भाषाहरूको लागि स्पीच टेक्नोलोजी स्पीच रोडम्यापको साथ सहयोग गर्न, टोलीले AI मोडेल निर्माण गर्न प्रशिक्षण डेटाको ठूलो मात्रा प्राप्त गर्न, खण्ड गर्न र ट्रान्सक्राइब गर्न आवश्यक थियो। ग्राहकको महत्वपूर्ण आवश्यकताहरू थिए:
तथ्यांक संकलन
- 3000 भारतीय भाषाहरूमा 8 घण्टाको प्रशिक्षण डेटा प्रति भाषा 4 बोलीहरू प्राप्त गर्नुहोस्।
- प्रत्येक भाषाको लागि, आपूर्तिकर्ताले Extempore Speech र सङ्कलन गर्नेछ
18-60 वर्षको उमेर समूहहरूबाट कुराकानीत्मक भाषण - उमेर, लिङ्ग, शिक्षा र बोली अनुसार वक्ताहरूको विविध मिश्रण सुनिश्चित गर्नुहोस्
- निर्दिष्टीकरण अनुसार रेकर्डिङ वातावरणको विविध मिश्रण सुनिश्चित गर्नुहोस्।
- प्रत्येक अडियो रेकर्डिङ कम्तिमा 16kHz तर प्राथमिकतामा 44kHz हुनुपर्छ
डाटा विभाजन
- 15 सेकेन्डको वाणी खण्डहरू सिर्जना गर्नुहोस् र प्रत्येक दिइएको स्पिकरको लागि मिलिसेकेन्डमा अडियो टाइमस्ट्याम्प गर्नुहोस्, ध्वनिको प्रकार (भाषण, बडबड, संगीत, आवाज), पालो, उच्चारण, र कुराकानीमा वाक्यांशहरू
- सुरु र अन्त्यमा 200-400 मिलिसेकेन्ड प्याडिङको साथ यसको लक्षित ध्वनि संकेतको लागि प्रत्येक खण्ड सिर्जना गर्नुहोस्।
- सबै खण्डहरूको लागि, निम्न वस्तुहरू भर्नु पर्छ जस्तै, सुरु समय, अन्त्य समय, खण्ड ID, लाउडनेस स्तर, ध्वनि प्रकार, भाषा कोड, स्पिकर आईडी, आदि।
डाटा ट्रान्सक्रिप्शन
- वर्णहरू र विशेष प्रतीकहरू, हिज्जे र व्याकरण, क्यापिटलाइजेशन, संक्षिप्ताक्षरहरू, संकुचनहरू, व्यक्तिगत स्पोकन अक्षरहरू, संख्याहरू, विरामहरू, एक्रोनिमहरू, विचलित, बोली, अस्पष्ट बोली, गैर-लक्ष्य भाषाहरू, गैर-लक्ष्य भाषाहरू, इत्यादिको वरिपरि विवरण ट्रान्सक्रिप्शन दिशानिर्देशहरू पालना गर्नुहोस्।
गुणस्तर जाँच र प्रतिक्रिया
- सबै रेकर्डिङहरू गुणस्तर मूल्याङ्कन र प्रमाणीकरणबाट गुज्रनका लागि, प्रमाणीकरण गरिएको भाषण मात्र डेलिभर गर्न सकिन्छ
समाधान
कुराकानीत्मक AI को हाम्रो गहिरो बुझाइको साथ, हामीले ग्राहकलाई 8 भारतीय भाषाहरूमा अडियो डेटासेटको ठूलो कोर्पस निर्माण गर्न विशेषज्ञ सङ्कलनकर्ता, भाषाविद् र एनोटेटरहरूको टोलीसँग डेटा सङ्कलन, खण्ड र ट्रान्सक्राइब गर्न मद्दत गर्यौं।
Shaip को लागि काम को दायरा समावेश थियो तर अडियो प्रशिक्षण डेटा को ठूलो मात्रा प्राप्त गर्न को लागी सीमित थिएन, धेरै मा अडियो रेकर्डिङ को विभाजन, डाटा ट्रान्सक्राइबिंग र मेटाडेटा [स्पीकरआईडी, उमेर, लिङ्ग, भाषा, बोली, संग सम्बन्धित JSON फाइलहरु लाई डेलिभर गर्न को लागी।
मातृभाषा, योग्यता, पेशा, डोमेन, फाइल ढाँचा, फ्रिक्वेन्सी, च्यानल, अडियोको प्रकार, वक्ताहरूको सङ्ख्या, विदेशी भाषाहरूको सङ्ख्या, प्रयोग गरिएको सेटअप, नारोब्यान्ड वा वाइडब्यान्ड अडियो, आदि]।
जटिल परियोजनाहरूका लागि स्पीच टेक्नोलोजी प्रशिक्षित गर्न आवश्यक गुणस्तरको इच्छित स्तर कायम राख्दै Shaip ले स्केलमा 3000 घण्टाको अडियो डेटा सङ्कलन गर्यो। प्रत्येक सहभागीबाट स्पष्ट सहमति फारम लिइएको थियो।
1। तथ्यांक संकलन