केस स्टडी: संवादात्मक एआई

3 भारतीय भाषाहरूमा ASR निर्माण गर्न 8k घण्टा भन्दा बढी डाटा सङ्कलन, विभाजन र ट्रान्सक्राइब गरिएको

वार्तालाप एआई
सरकारले भाषिनी परियोजना मार्फत आफ्ना नागरिकहरूलाई आफ्नै मातृभाषामा इन्टरनेट र डिजिटल सेवाहरूमा सहज पहुँच प्रदान गर्ने लक्ष्य राखेको छ।

भाशिनी, भारतको एआई-संचालित भाषा अनुवाद प्लेटफर्म, डिजिटल भारत पहलको एक महत्त्वपूर्ण भाग हो।

MSMEs, स्टार्टअपहरू, र स्वतन्त्र आविष्कारकहरूलाई कृत्रिम बुद्धिमत्ता (AI) र प्राकृतिक भाषा प्रशोधन (NLP) उपकरणहरू प्रदान गर्न डिजाइन गरिएको, भाशिनी प्लेटफर्मले सार्वजनिक स्रोतको रूपमा काम गर्दछ। यसको लक्ष्य भारतीय नागरिकहरूलाई आफ्नो मातृभाषाहरूमा देशको डिजिटल पहलहरूसँग अन्तरक्रिया गर्न सक्षम पारेर डिजिटल समावेशीकरणलाई बढावा दिनु हो।

थप रूपमा, यसले भारतीय भाषाहरूमा इन्टरनेट सामग्रीको उपलब्धतालाई उल्लेखनीय रूपमा विस्तार गर्ने लक्ष्य राखेको छ। यो विशेष गरी शासन र नीति, विज्ञान र प्रविधि आदि जस्ता सार्वजनिक चासोका क्षेत्रहरूमा लक्षित छ। फलस्वरूप, यसले नागरिकहरूलाई उनीहरूको सक्रिय सहभागितालाई बढावा दिँदै आफ्नै भाषामा इन्टरनेट प्रयोग गर्न प्रोत्साहित गर्नेछ।

योगदानकर्ता, साझेदार संस्थाहरू र नागरिकहरूको विविध इकोसिस्टम सक्षम बनाउन भाषा अवरोधहरू पार गर्ने उद्देश्यले एनएलपी प्रयोग गर्नुहोस्, जसले डिजिटल समावेश र सशक्तिकरण सुनिश्चित गर्दछ।

वास्तविक विश्व समाधान

डाटाको साथ स्थानीयकरणको शक्ति अनलाईन गर्दै

भारतलाई एउटा प्लेटफर्म चाहिन्छ जसले भारतीय भाषाहरूमा डिजिटल सेवाहरू प्रदान गर्न बहुभाषिक डाटासेटहरू र एआई-आधारित भाषा प्रविधि समाधानहरू सिर्जना गर्नमा ध्यान केन्द्रित गर्नेछ। यो पहल सुरु गर्न, इन्डियन इन्स्टिच्युट अफ टेक्नोलोजी, मद्रास (IIT मद्रास) ले बहु-भाषिक भाषण मोडेलहरू निर्माण गर्न भारतीय भाषा डाटासेटहरू सङ्कलन, खण्ड र ट्रान्सक्राइब गर्न Shaip सँग साझेदारी गर्यो।

चुनौतीहरू

ग्राहकलाई भारतीय भाषाहरूको लागि स्पीच टेक्नोलोजी स्पीच रोडम्यापको साथ सहयोग गर्न, टोलीले AI मोडेल निर्माण गर्न प्रशिक्षण डेटाको ठूलो मात्रा प्राप्त गर्न, खण्ड गर्न र ट्रान्सक्राइब गर्न आवश्यक थियो। ग्राहकको महत्वपूर्ण आवश्यकताहरू थिए:

तथ्यांक संकलन

  • 3000 भारतीय भाषाहरूमा 8 घण्टाको प्रशिक्षण डेटा प्रति भाषा 4 बोलीहरू प्राप्त गर्नुहोस्।
  • प्रत्येक भाषाको लागि, आपूर्तिकर्ताले Extempore Speech र सङ्कलन गर्नेछ
    18-60 वर्षको उमेर समूहहरूबाट कुराकानीत्मक भाषण
  • उमेर, लिङ्ग, शिक्षा र बोली अनुसार वक्ताहरूको विविध मिश्रण सुनिश्चित गर्नुहोस्
  • निर्दिष्टीकरण अनुसार रेकर्डिङ वातावरणको विविध मिश्रण सुनिश्चित गर्नुहोस्।
  • प्रत्येक अडियो रेकर्डिङ कम्तिमा 16kHz तर प्राथमिकतामा 44kHz हुनुपर्छ

डाटा विभाजन

  • 15 सेकेन्डको वाणी खण्डहरू सिर्जना गर्नुहोस् र प्रत्येक दिइएको स्पिकरको लागि मिलिसेकेन्डमा अडियो टाइमस्ट्याम्प गर्नुहोस्, ध्वनिको प्रकार (भाषण, बडबड, संगीत, आवाज), पालो, उच्चारण, र कुराकानीमा वाक्यांशहरू
  • सुरु र अन्त्यमा 200-400 मिलिसेकेन्ड प्याडिङको साथ यसको लक्षित ध्वनि संकेतको लागि प्रत्येक खण्ड सिर्जना गर्नुहोस्।
  • सबै खण्डहरूको लागि, निम्न वस्तुहरू भर्नु पर्छ जस्तै, सुरु समय, अन्त्य समय, खण्ड ID, लाउडनेस स्तर, ध्वनि प्रकार, भाषा कोड, स्पिकर आईडी, आदि।

डाटा ट्रान्सक्रिप्शन

  • वर्णहरू र विशेष प्रतीकहरू, हिज्जे र व्याकरण, क्यापिटलाइजेशन, संक्षिप्ताक्षरहरू, संकुचनहरू, व्यक्तिगत स्पोकन अक्षरहरू, संख्याहरू, विरामहरू, एक्रोनिमहरू, विचलित, बोली, अस्पष्ट बोली, गैर-लक्ष्य भाषाहरू, गैर-लक्ष्य भाषाहरू, इत्यादिको वरिपरि विवरण ट्रान्सक्रिप्शन दिशानिर्देशहरू पालना गर्नुहोस्।

गुणस्तर जाँच र प्रतिक्रिया

  • सबै रेकर्डिङहरू गुणस्तर मूल्याङ्कन र प्रमाणीकरणबाट गुज्रनका लागि, प्रमाणीकरण गरिएको भाषण मात्र डेलिभर गर्न सकिन्छ

समाधान

कुराकानीत्मक AI को हाम्रो गहिरो बुझाइको साथ, हामीले ग्राहकलाई 8 भारतीय भाषाहरूमा अडियो डेटासेटको ठूलो कोर्पस निर्माण गर्न विशेषज्ञ सङ्कलनकर्ता, भाषाविद् र एनोटेटरहरूको टोलीसँग डेटा सङ्कलन, खण्ड र ट्रान्सक्राइब गर्न मद्दत गर्‍यौं।

Shaip को लागि काम को दायरा समावेश थियो तर अडियो प्रशिक्षण डेटा को ठूलो मात्रा प्राप्त गर्न को लागी सीमित थिएन, धेरै मा अडियो रेकर्डिङ को विभाजन, डाटा ट्रान्सक्राइबिंग र मेटाडेटा [स्पीकरआईडी, उमेर, लिङ्ग, भाषा, बोली, संग सम्बन्धित JSON फाइलहरु लाई डेलिभर गर्न को लागी।
मातृभाषा, योग्यता, पेशा, डोमेन, फाइल ढाँचा, फ्रिक्वेन्सी, च्यानल, अडियोको प्रकार, वक्ताहरूको सङ्ख्या, विदेशी भाषाहरूको सङ्ख्या, प्रयोग गरिएको सेटअप, नारोब्यान्ड वा वाइडब्यान्ड अडियो, आदि]। 

जटिल परियोजनाहरूका लागि स्पीच टेक्नोलोजी प्रशिक्षित गर्न आवश्यक गुणस्तरको इच्छित स्तर कायम राख्दै Shaip ले स्केलमा 3000 घण्टाको अडियो डेटा सङ्कलन गर्‍यो। प्रत्येक सहभागीबाट स्पष्ट सहमति फारम लिइएको थियो।

1। तथ्यांक संकलन

2. डेटा विभाजन

  • सङ्कलन गरिएको अडियो डेटालाई प्रत्येक 15 सेकेन्डको वाणी खण्डहरूमा विभाजन गरिएको थियो र प्रत्येक दिइएको स्पिकरको लागि मिलिसेकेन्डमा टाइमस्ट्याम्प गरिएको थियो, आवाजको प्रकार, पालो, उच्चारण, र कुराकानीमा वाक्यांशहरू।
  • ध्वनि संकेतको सुरु र अन्त्यमा 200-400 मिलिसेकेन्ड प्याडिङको साथ यसको लक्षित ध्वनि संकेतको लागि प्रत्येक खण्ड सिर्जना गरियो।
  • सबै खण्डहरूका लागि, निम्न वस्तुहरू उपस्थित र भरिएका थिए जस्तै, सुरु समय, अन्त्य समय, खण्ड ID, लाउडनेस स्तर (लाउड, सामान्य, शान्त), प्राथमिक ध्वनि प्रकार (स्पीच, बबल, संगीत, आवाज, ओभरल्याप), भाषा कोड स्पिकर। आईडी, ट्रान्सक्रिप्शन आदि।

3. गुणस्तर जाँच र प्रतिक्रिया

  • सबै रेकर्डिङहरू गुणस्तरको लागि मूल्याङ्कन गरिएको थियो र 90% को WER र 90% को TER सँग मात्र प्रमाणित भाषण रेकर्डिङहरू डेलिभर गरियो।
  • गुणस्तर चेकलिस्ट पालना गरियो:
       » खण्ड लम्बाइको अधिकतम १५ सेकेन्ड
       » विशिष्ट डोमेनहरूबाट ट्रान्सक्रिप्शन, अर्थात्: मौसम, विभिन्न प्रकारका समाचार, स्वास्थ्य, कृषि, शिक्षा, रोजगारी वा वित्त
       » कम पृष्ठभूमि शोर
       » कुनै अडियो क्लिप बन्द छैन - कुनै विकृति छैन
       » ट्रान्सक्रिप्शनको लागि सही अडियो विभाजन

4. डाटा ट्रान्सक्रिप्शन
सबै बोलिएका शब्दहरू, हिचकिचाहट, फिलर शब्दहरू, गलत सुरुहरू, र अन्य मौखिक टिकहरू सहित, ट्रान्सक्रिप्शनमा सही रूपमा कैद गरियो। हामीले क्यापिटल र लोअरकेस अक्षरहरू, हिज्जे, क्यापिटलाइजेसन, संक्षिप्त रूपहरू, संकुचनहरू, संख्याहरू,
विरामचिह्न, एक्रोनिम्स, डिफ्लुएन्ट स्पीच, गैर-स्पीच नाइजेस आदि। यसबाहेक सङ्कलन र ट्रान्सक्रिप्शनको लागि अनुसरण गरिएको कार्यप्रवाह निम्नानुसार छ:

परिणाम

विशेषज्ञ भाषाविद्हरूबाट प्राप्त उच्च-गुणस्तरको अडियो डाटाले भारतीय प्रविधि संस्थान - मद्रासलाई निर्धारित समयमा विभिन्न बोलीहरू भएका ८ भारतीय भाषाहरूमा बहुभाषिक वाक् पहिचान मोडेलहरू सही रूपमा तालिम दिन र निर्माण गर्न सक्षम बनाउँछ। वाक् पहिचान मोडेलहरू प्रयोग गर्न सकिन्छ:

  • नागरिकहरूलाई उनीहरूको आफ्नै मातृभाषामा पहलहरूमा जोडेर डिजिटल समावेशको लागि भाषा अवरोधहरू पार गर्नुहोस्।
  • डिजिटल शासन प्रवर्द्धन गर्दछ
  • उत्प्रेरक भारतीय भाषाहरूमा सेवा र उत्पादनहरूको लागि एक पारिस्थितिकी तंत्र गठन गर्न
  • सार्वजनिक चासो, विशेष गरी, शासन र नीति को डोमेन मा अधिक स्थानीयकृत डिजिटल सामग्री
सुनौलो-५-तारे

हामी संवादात्मक एआई स्पेसमा शाइपको विशेषज्ञताबाट प्रभावित भयौं। कडा समयरेखा र दिशानिर्देशहरू भित्र 8 भाषाहरूमा विशेषज्ञ भाषाविद्हरूबाट आवश्यक प्रशिक्षण डेटा सोर्सिङ, विभाजन, ट्रान्सक्राइबिङ र डेलिभर गर्ने तिनीहरूको समग्र परियोजना कार्यान्वयन क्षमता; अझै पनि गुणस्तरको स्वीकार्य स्तर कायम राख्दै।"

तपाइँको वार्तालाप AI लाई गति दिनुहोस्
100% द्वारा आवेदन विकास

विशेष ग्राहकहरु

विश्वको अग्रणी एआई उत्पादनहरु को निर्माण टीमहरु लाई सशक्त बनाउन।