केस स्टडी: स्वचालित वाक् पहिचान
परिचय
भारतीय भाषाहरूमा डिजिटल सेवाहरू उपलब्ध गराउनको लागि भारतलाई बहुभाषिक डाटासेटहरू र एआई-आधारित भाषा प्रविधि समाधानहरू सिर्जना गर्नमा ध्यान केन्द्रित गर्ने प्लेटफर्म चाहिन्छ। यो पहल सुरु गर्न, क्लाइन्टले बहु-भाषिक भाषण मोडेलहरू निर्माण गर्न भारतीय भाषा सङ्कलन गर्न र ट्रान्सक्राइब गर्न Shaip सँग साझेदारी गर्यो।
खण्ड
चुनौतीहरू
ग्राहकलाई भारतीय भाषाहरूको लागि स्पीच टेक्नोलोजी स्पीच रोडम्यापको साथ सहयोग गर्न, टोलीले AI मोडेल निर्माण गर्न प्रशिक्षण डेटाको ठूलो मात्रा प्राप्त गर्न, खण्ड गर्न र ट्रान्सक्राइब गर्न आवश्यक थियो। ग्राहकको महत्वपूर्ण आवश्यकताहरू थिए:
तथ्यांक संकलन
- भारतको दुर्गम स्थानहरूबाट 8000 घण्टाको प्रशिक्षण डेटा प्राप्त गर्नुहोस्
- 20-70 वर्षको उमेर समूहहरूबाट सहज भाषण सङ्कलन गर्ने आपूर्तिकर्ता
- उमेर, लिङ्ग, शिक्षा र बोली अनुसार वक्ताहरूको विविध मिश्रण सुनिश्चित गर्नुहोस्
- प्रत्येक अडियो रेकर्डिङ 16 बिट/नमूनाको साथ कम्तिमा 16kHz हुनुपर्छ।
डाटा ट्रान्सक्रिप्शन
वर्ण र विशेष प्रतीकहरू, हिज्जे र व्याकरण, क्यापिटलाइजेशन, संक्षिप्ताक्षरहरू, संकुचनहरू, व्यक्तिगत स्पोकन अक्षरहरू, संख्याहरू, विरामहरू, एक्रोनिमहरू र इनिशियलिज्महरू, अव्यवस्थित बोली, अस्पष्ट बोली, गैर-लक्ष्य भाषाहरू, भाषाहरू वरपर विवरण ट्रान्सक्रिप्शन दिशानिर्देशहरू पालना गर्नुहोस्।
गुणस्तर जाँच र प्रतिक्रिया
सबै रेकर्डिङहरू गुणस्तर मूल्याङ्कन र प्रमाणीकरणबाट गुज्रनका लागि, केवल प्रमाणित भाषण रेकर्डिङहरू डेलिभर गरिनु पर्छ
समाधान
कुराकानीात्मक AI को हाम्रो गहिरो बुझाइको साथ, हामीले ग्राहकलाई भारतको दुर्गम भागहरूबाट अडियो डेटाको ठूलो कोर्पस निर्माण गर्न विशेषज्ञ सङ्कलनकर्ता, भाषाविद् र एनोटेटरहरूको टोलीसँग अडियो डेटा सङ्कलन गर्न, ट्रान्सक्राइब गर्न मद्दत गर्यौं।
Shaip को लागि काम को दायरा समावेश थियो तर अडियो प्रशिक्षण डाटा को ठूलो मात्रा प्राप्त गर्न को लागी सीमित थिएन, डाटा ट्रान्सक्राइब गर्न र मेटाडेटा [दुबै स्पिकर र ट्रान्सक्राइबरहरु को लागी संगत JSON फाइलहरु लाई डेलिभर गर्न को लागी। प्रत्येक वक्ताको लागि, मेटाडेटाले अज्ञात स्पिकर ID, उपकरण विवरणहरू, जनसांख्यिकीय जानकारी जस्तै लिङ्ग, उमेर, र शिक्षा, तिनीहरूको पिनकोड, सामाजिक-आर्थिक स्थिति, बोलिने भाषाहरू, र तिनीहरूको जीवनको अवधिको रेकर्ड समावेश गर्दछ। प्रत्येक ट्रान्सक्राइबरको लागि, डेटाले अज्ञात ट्रान्स्क्राइबर ID, स्पिकरहरू जस्तै जनसांख्यिकीय विवरणहरू, तिनीहरूको ट्रान्सक्रिप्शन अनुभव अवधि, र तिनीहरूले पढ्न, लेख्न र बोल्न सक्ने भाषाहरूको पूर्ण विच्छेद समावेश गर्दछ।
शैप संकलन भयो 8000 जटिल परियोजनाहरूका लागि वाणी प्रविधिलाई प्रशिक्षित गर्न आवश्यक गुणस्तरको इच्छित स्तरहरू कायम राख्दै 800 घण्टाको अडियो डेटा / सहज भाषण स्केलमा र XNUMX घण्टा ट्रान्सक्राइब गरिएको। प्रत्येक सहभागीबाट स्पष्ट सहमति फारम लिइएको थियो। / संकलित सहज भाषण विश्वविद्यालय-प्रदान गरिएका छविहरूमा आधारित थियो। को 3500 तस्वीर 1000 सामान्य र 2500 जिल्ला-विशिष्ट संस्कृति, चाडपर्वहरू, आदिसँग सम्बन्धित छन्। छविहरूले विभिन्न डोमेनहरू जस्तै रेल स्टेशनहरू, बजारहरू, मौसम, र थप चित्रण गर्दछ।
तथ्यांक संकलन
राज्य | जिल्लाहरू | अडियो घण्टा | ट्रान्सक्रिप्शन (घन्टा) |
बिहार | सारण, पूर्वी चम्पारण, गोपालगंज, सीतामढी, समस्तीपुर, दरभंगा, मधेपुरा, भागलपुर, गया, किशनगंज, वैशाली, लखीसराय, सहरसा, सुपौल, अररिया, बेगुसराय, जहाँाबाद, पूर्णिया, मुजफ्फरपुर, जमुई | 2000 | 200 |
उत्तरप्रदेश | देवरिया, वाराणसी, गोरखपुर, गाजीपुर, मुजफ्फरनगर, एटा, हमीरपुर, ज्योतिबा फुले नगर, बुडौन, जालौन | 1000 | 100 |
राजस्थान | नागौर, चुरु | 200 | 20 |
उत्तराखंड | टिहरी गढवाल, उत्तरकाशी | 200 | 20 |
छत्तीसगढ | बिलासपुर, रायगढ़, कबीरधाम, सरगुजा, कोरबा, जशपुर, राजनन्दगाउँ, बलरामपुर, बस्तर, सुकमा | 1000 | 100 |
पश्चिम बङ्गाल | पश्चिम मेदिनीपुर, मालदा, जलपाईगुड़ी, पुरुलिया, कोलकाता, झारग्राम, उत्तर 24 परगना, दक्षिण दिनाजपुर | 800 | 80 |
झारखंड | साहेबगञ्ज, जामतारा | 200 | 20 |
AP | गुंटूर, चित्तूर, विशाखापट्टनम, कृष्णा, अनन्तपुर, श्रीकाकुलम | 600 | 60 |
telangana | करीमनगर, नलगोंडा | 200 | 20 |
गोवा | उत्तर + दक्षिण गोवा | 100 | 10 |
कर्नाटक | दक्षिण कन्नड़, गुलबर्गा, धारवाड, बेल्लारी, मैसूर, शिमोगा, बीजापुर, बेलगाम, रायचुर, चामराजनगर | 1000 | 100 |
महाराष्ट्र | सिन्धुदुर्ग, धुले, नागपुर, पुणे, औरंगाबाद, चन्द्रपुर, सोलापुर | 700 | 70 |
कुल | 8000 | 800 |
सामान्य दिशानिर्देशहरू
ढाँचा
- 16 kHz मा अडियो, 16 बिट/नमूना।
- एकल च्यानल।
- ट्रान्सकोडिङ बिना कच्चा अडियो।
शैली
- सहज भाषण।
- विश्वविद्यालय-प्रदान गरिएका छविहरूमा आधारित वाक्यहरू। 3500 छविहरू मध्ये, 1000 सामान्य छन् र 2500 जिल्ला-विशेष संस्कृति, चाडपर्व, आदिसँग सम्बन्धित छन्। छविहरूले विभिन्न डोमेनहरू जस्तै रेल स्टेशनहरू, बजारहरू, मौसम, र थप चित्रण गर्दछ।
रेकर्डिङ पृष्ठभूमि
- शान्त, इको-मुक्त वातावरणमा रेकर्ड गरियो।
- रेकर्डिङको समयमा कुनै स्मार्टफोन अवरोधहरू (कम्पन वा सूचनाहरू) छैनन्।
- क्लिपिङ वा टाढा-फिल्ड प्रभावहरू जस्ता कुनै विकृतिहरू छैनन्।
- फोनबाट कम्पनहरू अस्वीकार्य; यदि अडियो स्पष्ट छ भने बाह्य कम्पनहरू सहन योग्य छन्।
स्पिकर विशिष्टता
- प्रति जिल्ला सन्तुलित लैङ्गिक वितरणको साथ 20-70 वर्ष सम्मको उमेर दायरा।
- प्रत्येक जिल्लामा न्यूनतम 400 देशी वक्ताहरू।
- वक्ताहरूले आफ्नो मातृभाषा/बोली प्रयोग गर्नुपर्छ।
- सबै सहभागीहरूको लागि सहमति फारम अनिवार्य छ।
गुणस्तर जाँच र आलोचनात्मक गुणस्तर आश्वासन
QA प्रक्रियाले अडियो रेकर्डिङ र ट्रान्सक्रिप्सनहरूको लागि गुणस्तर आश्वासनलाई प्राथमिकता दिन्छ। अडियो मानकहरू सटीक मौनता, खण्ड अवधि, एकल-वक्ता स्पष्टता, र उमेर र सामाजिक-आर्थिक स्थिति सहित विस्तृत मेटाडेटामा केन्द्रित हुन्छन्। ट्रान्सक्रिप्शन मापदण्डले ट्याग शुद्धता, शब्द सत्यता, र सही खण्ड विवरणहरूमा जोड दिन्छ। स्वीकृति बेन्चमार्कले बताउँछ कि यदि अडियो ब्याचको 20% भन्दा बढी यी मापदण्डहरू असफल भएमा, यसलाई अस्वीकार गरिन्छ। 20% भन्दा कम विसंगतिहरूको लागि, समान प्रोफाइलहरूसँग प्रतिस्थापन रेकर्डिङ आवश्यक छ।
डाटा ट्रान्सक्रिप्शन
ट्रान्सक्रिप्शन दिशानिर्देशहरूले शब्दहरू स्पष्ट र बुझ्ने हुँदा मात्र शुद्धता र शब्दबद्ध ट्रान्सक्रिप्सनलाई जोड दिन्छ। अस्पष्ट शब्दहरूलाई मुद्दाको आधारमा [अस्पष्ट] वा [अश्रव्य] भनी चिन्ह लगाइन्छ। लामो अडियोमा वाक्य सीमाहरू सँग चिन्ह लगाइन्छ, र व्याकरणीय त्रुटिहरूको कुनै पनि व्याख्या वा सुधारलाई अनुमति छैन। Verbatim ट्रान्सक्रिप्शनले त्रुटिहरू, स्ल्याङ्हरू, र दोहोर्याइहरू समेट्छ तर गलत सुरुहरू, फिलर ध्वनिहरू, र stutters लाई हटाउँछ। पृष्ठभूमि र अग्रभूमि आवाजहरू वर्णनात्मक ट्यागहरूसँग ट्रान्सक्राइब गरिएका छन्, जबकि उचित नामहरू, शीर्षकहरू, र संख्याहरूले विशिष्ट ट्रान्सक्रिप्शन नियमहरू पालना गर्छन्। स्पिकर लेबलहरू प्रत्येक वाक्यको लागि प्रयोग गरिन्छ, र अपूर्ण वाक्यहरू संकेत गरिएको छ।
परियोजना कार्यप्रवाह
कार्यप्रवाहले अडियो ट्रान्सक्रिप्शन प्रक्रियाको वर्णन गर्दछ। यो अनबोर्डिङ र प्रशिक्षण सहभागीहरूसँग सुरु हुन्छ। तिनीहरू एक एप प्रयोग गरेर अडियो रेकर्ड गर्छन्, जुन QA प्लेटफर्ममा अपलोड हुन्छ। यो अडियो गुणस्तर जाँच र स्वचालित विभाजनबाट गुज्रिरहेको छ। प्राविधिक टोलीले त्यसपछि ट्रान्सक्रिप्शनको लागि खण्डहरू तयार गर्दछ। म्यानुअल ट्रान्सक्रिप्शन पछि, त्यहाँ गुणस्तर आश्वासन चरण छ। ट्रान्सक्रिप्सनहरू ग्राहकलाई पठाइन्छ, र यदि स्वीकार गरियो भने, डेलिभरी पूरा भएको मानिन्छ। यदि होइन भने, ग्राहक प्रतिक्रियाको आधारमा परिमार्जन गरिन्छ।
परिणाम
विशेषज्ञ भाषाविद्हरूबाट प्राप्त उच्च-गुणस्तरको अडियो डेटाले हाम्रा ग्राहकहरूलाई निर्धारित समयमा विभिन्न भारतीय भाषाहरूमा विभिन्न बोलीहरू भएका बहुभाषिक वाक् पहिचान मोडेलहरू सही रूपमा तालिम दिन र निर्माण गर्न सक्षम बनाउँछ। वाक् पहिचान मोडेलहरू प्रयोग गर्न सकिन्छ:
- नागरिकहरूलाई उनीहरूको आफ्नै मातृभाषामा पहलहरूमा जोडेर डिजिटल समावेशको लागि भाषा अवरोधहरू पार गर्नुहोस्।
- डिजिटल शासन प्रवर्द्धन गर्दछ
- उत्प्रेरक भारतीय भाषाहरूमा सेवा र उत्पादनहरूको लागि एक पारिस्थितिकी तंत्र गठन गर्न
- सार्वजनिक चासो, विशेष गरी, शासन र नीति को डोमेन मा अधिक स्थानीयकृत डिजिटल सामग्री
हामी संवादात्मक एआई क्षेत्र मा Shaip को विशेषज्ञता को डर मा छ। 8000 विविध जिल्लाहरूमा 800 घण्टाको ट्रान्सक्रिप्शनको साथ 80 घण्टा अडियो डाटा ह्यान्डल गर्ने कार्य महत्त्वपूर्ण थियो, कम्तिमा भन्नुपर्दा। यो शैपको यस डोमेनको जटिल विवरण र सूक्ष्मताहरूको गहिरो समझ थियो जसले यस्तो चुनौतीपूर्ण परियोजनाको सफल कार्यान्वयन सम्भव बनायो। उच्च स्तरको गुणस्तर सुनिश्चित गर्दै डाटाको यो विशाल मात्राको जटिलताहरू मार्फत निर्बाध रूपमा व्यवस्थापन र नेभिगेट गर्ने तिनीहरूको क्षमता साँच्चै प्रशंसनीय छ।
तपाईंको कुराकानीत्मक एआई अनुप्रयोग विकासलाई १००% ले तीव्र पार्नुहोस्।