केस स्टडी: कथन संग्रह

वास्तविक विश्व समाधान
डाटा जसले विश्वव्यापी वार्तालापहरूलाई शक्ति दिन्छ
कथन प्रशिक्षणको आवश्यकता उत्पन्न हुन्छ किनभने सबै ग्राहकहरूले आफ्नो आवाज सहायकहरूलाई स्क्रिप्ट गरिएको ढाँचामा अन्तर्क्रिया गर्दा वा प्रश्नहरू सोध्दा सही शब्द वा वाक्यांशहरू प्रयोग गर्दैनन्। त्यसकारण विशिष्ट भ्वाइस एप्लिकेसनहरूलाई सहज वाक् डाटामा तालिम दिइनुपर्छ। उदाहरणका लागि, "सबैभन्दा नजिकको अस्पताल कहाँ छ?" "मेरो नजिकैको अस्पताल खोज्नुहोस्" वा "के नजिकैको अस्पताल छ?" सबैले एउटै खोज अभिप्रायलाई संकेत गर्छ तर फरक-फरक वाक्यांशमा उल्लेख गरिएको छ।

समस्या
विश्वव्यापी भाषाहरूको लागि ग्राहकहरूको डिजिटल सहायकको भाषण रोडम्याप कार्यान्वयन गर्न, टोलीले भाषण पहिचान एआई मोडेलको लागि ठूलो मात्रामा प्रशिक्षण डेटा प्राप्त गर्न आवश्यक थियो। ग्राहकको महत्वपूर्ण आवश्यकताहरू थिए:
- 3 विश्वव्यापी भाषाहरूमा वाक् पहिचान सेवाहरूको लागि प्रशिक्षण डेटाको ठूलो मात्रा प्राप्त गर्नुहोस् (एकल स्पिकर उच्चारण प्रम्प्टहरू 30-13 सेकेन्ड भन्दा बढी लामो छैन)।
- प्रत्येक भाषाको लागि, आपूर्तिकर्ताले स्पिकरहरूलाई रेकर्ड गर्न पाठ प्रम्प्टहरू उत्पन्न गर्नेछ (जबसम्म
ग्राहक आपूर्ति) र परिणामस्वरूप अडियो ट्रान्सक्राइब गर्नुहोस्। - सम्बन्धित JSON फाइलहरूसँग रेकर्ड गरिएका उच्चारणहरूको अडियो डेटा र ट्रान्सक्रिप्शन प्रदान गर्नुहोस्
सबै रेकर्डिङका लागि मेटाडेटा समावेश। - उमेर, लिङ्ग, शिक्षा र बोली अनुसार वक्ताहरूको विविध मिश्रण सुनिश्चित गर्नुहोस्
- निर्दिष्टीकरण अनुसार रेकर्डिङ वातावरणको विविध मिश्रण सुनिश्चित गर्नुहोस्।
- प्रत्येक अडियो रेकर्डिङ कम्तिमा 16kHz तर प्राथमिकतामा 44kHz हुनुपर्छ
तपाईंको कुराकानीत्मक एआई अनुप्रयोग विकासलाई १००% ले तीव्र पार्नुहोस्।
"धेरै विक्रेताहरूको मूल्याङ्कन गरेपछि, ग्राहकले कुराकानीत्मक एआई परियोजनाहरूमा उनीहरूको विशेषज्ञताको कारणले श्यापलाई रोजे। हामी श्यापको परियोजना कार्यान्वयन क्षमता, कडा समयसीमा भित्र र आवश्यक गुणस्तरका साथ १३ भाषाहरूमा विशेषज्ञ भाषाविद्हरूबाट आवश्यक उच्चारणहरू स्रोत, ट्रान्सक्राइब र डेलिभर गर्ने उनीहरूको विशेषज्ञताबाट प्रभावित भयौं।"
समाधान
कुराकानीत्मक AI को हाम्रो गहिरो बुझाइको साथ, हामीले ग्राहकलाई विशेषज्ञ भाषाविद् र एनोटेटरहरूको टोलीसँग डेटा सङ्कलन गर्न, ट्रान्सक्राइब गर्न र एनोटेट गर्न मद्दत गर्यौं।
Shaip को लागि काम को दायरा समावेश थियो तर भाषण पहिचान को लागी अडियो प्रशिक्षण डेटा को ठूलो मात्रा प्राप्त गर्न को लागी सीमित थिएन, हाम्रो टियर 1 र टियर 2 भाषा रोडम्याप मा सबै भाषाहरु को लागी धेरै भाषाहरु को लागी अडियो रेकर्डिङ ट्रान्सक्राइब गर्न, र संगत को वितरण गर्न को लागी सीमित थिएन। JSON मेटाडेटा समावेश फाइलहरू। Shaip ले जटिल परियोजनाहरूको लागि ML मोडेलहरू तालिम दिन आवश्यक गुणस्तरको इच्छित स्तर कायम राख्दै स्केलमा 3-30 सेकेन्डको कथनहरू सङ्कलन गरे।
- अडियो सङ्कलन, ट्रान्सक्रिप्ट र एनोटेटेड: 22,250 घण्टा
- समर्थित भाषाहरू: 13 (डेनिस, कोरियाली, साउदी अरबी अरबी, डच, मुख्य भूमि र ताइवान चाइनिज, फ्रान्सेली क्यानाडाली, मेक्सिकन स्पेनिश, टर्की, हिन्दी, पोलिश, जापानी, रुसी)
- उच्चारण संख्या: 7M +
- समय: 7-8 महिना
16 kHz मा अडियो कथनहरू सङ्कलन गर्दा, हामीले विभिन्न रेकर्डिङ वातावरणहरूमा उमेर, लिङ्ग, शिक्षा, र बोलीहरू अनुसार स्पिकरहरूको स्वस्थ मिश्रण सुनिश्चित गर्यौं।
परिणाम
विशेषज्ञ भाषाविद्हरूबाट उच्च-गुणस्तरको कथन अडियो डेटाले ग्राहकलाई 13 ग्लोबल टियर 1 र 2 भाषाहरूमा उनीहरूको बहुभाषिक वाक् पहिचान मोडेललाई सही रूपमा तालिम दिन सक्षम बनायो। गोल्ड-स्ट्यान्डर्ड प्रशिक्षण डेटासेटहरूको साथ, ग्राहकले भविष्यको वास्तविक-विश्व समस्याहरू समाधान गर्न बुद्धिमानी र बलियो डिजिटल सहायता प्रदान गर्न सक्छ।
हाम्रो विशेषज्ञता
सिफारिस गरिएका संसाधनहरू
क्रेताको मार्गदर्शक
क्रेताको गाइड: संवादात्मक एआई
तपाईंले कुराकानी गर्नुभएको च्याटबोट एक उन्नत संवादात्मक एआई प्रणालीमा चल्छ जुन प्रशिक्षित, परीक्षण गरिएको छ, र धेरै वाक् पहिचान डेटासेटहरू प्रयोग गरेर बनाइएको छ।
ब्लग
द स्टेट अफ कन्भर्सेसनल एआई २०२१
कन्भर्सेशनल एआई २०२१ इन्फोग्राफिक्सले कन्भर्सेशनल एआई के हो, यसको विकास, प्रकार, क्षेत्रअनुसार कन्भर्सेशनल एआई मार्केट, प्रयोगका केसहरू, चुनौतीहरू, आदि बारे कुरा गर्छ।
ब्लग
सिरी र एलेक्साले तपाइँ के भन्दै हुनुहुन्छ भनेर कसरी बुझ्छन्?
आवाज सहायकहरू यी सुन्दर, मुख्यतया महिला आवाजहरू हुन सक्छन् जसले निकटतम रेस्टुरेन्ट वा मलको सबैभन्दा छोटो मार्ग फेला पार्नका लागि तपाईंको अनुरोधहरूको जवाफ दिन्छ।
हामीलाई बताउनुहोस् कि हामी तपाइँको अर्को AI पहल संग कसरी मद्दत गर्न सक्छौं।