श्याप अब युबिक्विटी इकोसिस्टमको हिस्सा हो: उही टोली - अब ग्राहकहरूलाई ठूलो मात्रामा सहयोग गर्न विस्तारित स्रोतहरूद्वारा समर्थित। |
कथन डाटा संग्रह

एआईमा "उद्धरण" भनेको के हो?: उदाहरणहरू, डेटासेटहरू, र उत्तम अभ्यासहरू

के तपाईंले कहिल्यै सोच्नुभएको छ कि कसरी च्याटबटहरू र भर्चुअल सहायकहरू उठ्छन् जब तपाईंले 'हे ​​सिरी' वा 'एलेक्सा' भन्नुहुन्छ? यो सफ्टवेयरमा इम्बेड गरिएका पाठ कथन सङ्कलन वा ट्रिगर शब्दहरूको कारण हो जसले प्रोग्राम गरिएको वेक शब्द सुन्ने बित्तिकै प्रणाली सक्रिय गर्दछ।

यद्यपि, ध्वनि र उच्चारण डेटा सिर्जना गर्ने समग्र प्रक्रिया त्यति सरल छैन। यो वांछित नतिजाहरू प्राप्त गर्न सही प्रविधिको साथ चलाउनु पर्ने प्रक्रिया हो। तसर्थ, यस ब्लगले राम्रो उच्चारण/ट्रिगर शब्दहरू सिर्जना गर्ने मार्ग साझा गर्नेछ जुन तपाईंको संवादात्मक एआईसँग निर्बाध रूपमा काम गर्दछ।

एआईमा "उद्धरण" भनेको के हो?

कुराकानीत्मक एआई (च्याटबट, भ्वाइस सहायक) मा, एक उच्चारण भनेको प्रयोगकर्ता इनपुटको छोटो अंश हो - एक व्यक्तिले भनेको वा टाइप गरेको ठ्याक्कै शब्दहरू। मोडेलहरूले प्रयोगकर्ताको उद्देश्य (लक्ष्य) र कुनै पनि संस्थाहरू (मिति, उत्पादन नाम, रकम जस्ता विवरणहरू) पत्ता लगाउन उच्चारणहरू प्रयोग गर्छन्।

सरल उदाहरणहरू

ई-कमर्स बोट

भनाइ: “मेरो अर्डर १२३-४५६ ट्र्याक गर्नुहोस्। "

  • उद्देश्य: ट्र्याकअर्डर
  • निकाय: अर्डर_आईडी = १२३-४५६

टेलिकम बोट

भनाइ: “मेरो डेटा योजना अपग्रेड गर्नुहोस्। "

  • उद्देश्य: योजना परिवर्तन गर्नुहोस्
  • निकाय: plan_type = डेटा

बैंकिङ भ्वाइस सहायक

उच्चारण (बोलिएको): “Wआज मेरो चेकिङ ब्यालेन्स छ?"

  • उद्देश्य: चेकब्यालेन्स
  • संस्थाहरू: खाता_प्रकार = जाँच, मिति = आज

तपाईंको कुराकानीत्मक एआईलाई किन राम्रो उच्चारण डेटा चाहिन्छ

यदि तपाईं आफ्नो च्याटबट वा भ्वाइस सहायकलाई सहयोगी महसुस गराउन चाहनुहुन्छ - भंगुर होइन - राम्रो उच्चारण डेटाबाट सुरु गर्नुहोस्। उच्चारणहरू मानिसहरूले कामहरू सम्पन्न गर्न भनिने वा टाइप गर्ने कच्चा वाक्यांशहरू हुन् ("भोलिको लागि मलाई कोठा बुक गर्नुहोस्," "मेरो योजना परिवर्तन गर्नुहोस्," "स्थिति के छ?")। तिनीहरूले उद्देश्य वर्गीकरण, संस्था निकासी, र अन्ततः ग्राहक अनुभवलाई शक्ति दिन्छन्। जब उच्चारणहरू विविध, प्रतिनिधि, र राम्रोसँग लेबल गरिएका हुन्छन्, तपाईंका मोडेलहरूले उद्देश्यहरू बीचको सही सीमाहरू सिक्छन् र अव्यवस्थित, वास्तविक-विश्व इनपुटलाई सन्तुलित रूपमा ह्यान्डल गर्छन्।

तपाईंको उच्चारण भण्डार निर्माण गर्दै: एक साधारण कार्यप्रवाह

उच्चारण भण्डार निर्माण गर्दै

१. वास्तविक प्रयोगकर्ता भाषाबाट सुरु गर्नुहोस्

मेरो च्याट लगहरू, खोज प्रश्नहरू, IVR ट्रान्सक्रिप्टहरू, एजेन्ट नोटहरू, र ग्राहक इमेलहरू। प्रयोगकर्ता लक्ष्य अनुसार तिनीहरूलाई समूहबद्ध गर्नुहोस् ताकि उद्देश्यहरू बीज गर्न सकियोस्। (तपाईंले बोलचाल र मानसिक मोडेलहरू कैद गर्नुहुनेछ जुन तपाईंले कोठामा सोच्नुहुन्न।)

२. उद्देश्य अनुसार भिन्नता सिर्जना गर्नुहोस्

प्रत्येक उद्देश्यको लागि, लेखकले विविध उदाहरणहरू दिन्छन्:

  • क्रिया र संज्ञाहरूलाई पुन: वाक्यांश गर्नुहोस् ("रद्द गर्नुहोस्," "रोक्नुहोस्," "अन्त्य गर्नुहोस्"; "योजना गर्नुहोस्," "सदस्यता")।
  • वाक्यको लम्बाइ र संरचनाहरू (प्रश्न, निर्देशन, खण्ड) मिलाउनुहोस्।
  • टाइपो गल्ती, संक्षिप्त रूप, इमोजी (च्याटको लागि), सान्दर्भिक भएमा कोड-स्विचिंग समावेश गर्नुहोस्।
  • उस्तै देखिने तर हुनु पर्ने नकारात्मक केसहरू थप्नुहोस् छैन यस उद्देश्यको लागि नक्सा।

३. आफ्नो कक्षाहरू सन्तुलित गर्नुहोस्

अत्यन्तै एकतर्फी प्रशिक्षण (जस्तै, एउटा उद्देश्यका लागि ५०० उदाहरणहरू र अरूका लागि १०) ले भविष्यवाणीको गुणस्तरलाई हानि पुर्‍याउँछ। राख्नुहोस् उद्देश्य आकारहरू तुलनात्मक रूपमा समान छन् र ट्राफिकले सिकाउँदा तिनीहरूलाई सँगै बढाउनुहोस्।

४. तालिम लिनुअघि गुणस्तर प्रमाणित गर्नुहोस्

निम्न-सिग्नल डेटा ब्लक गर्नुहोस् मान्यकर्ताहरू लेखन/संग्रहको समयमा:

  • भाषा पत्ता लगाउने: उदाहरणहरू लक्षित भाषामा छन् भनी सुनिश्चित गर्नुहोस्।
  • अस्पष्ट डिटेक्टर: अर्थहीन तारहरू समात्नुहोस्।
  • डुप्लिकेट/नजिकैको डुप्लिकेट जाँचहरू: विविधता उच्च राख्नुहोस्।
  • रेजेक्स/हिज्जे र व्याकरण: आवश्यक परेमा शैली नियमहरू लागू गर्नुहोस्।
    स्मार्ट मान्यकर्ताहरू (एपेनले प्रयोग गरे जस्तै) ले यस गेटकिपिङको ठूलो भागलाई स्वचालित गर्न सक्छन्।

५. संस्थाहरूलाई निरन्तर लेबल गर्नुहोस्

स्लट प्रकारहरू (मिति, उत्पादनहरू, ठेगानाहरू) परिभाषित गर्नुहोस् र एनोटेटरहरू देखाउनुहोस् सीमा कसरी चिन्ह लगाउने। जस्तै ढाँचाहरू कुनै पनि ढाँचा बनाउनुहोस् LUIS मा मोडेलहरूलाई भ्रमित गर्ने लामो, परिवर्तनशील स्प्यानहरू (जस्तै, कागजात नामहरू) लाई अस्पष्ट पार्न सक्छ।

६. उत्पादन जस्तै परीक्षण गर्नुहोस्

पुस नदेखिने भविष्यवाणी अन्त्य बिन्दु वा स्टेजिङ बटमा वास्तविक भनाइहरू, गलत वर्गीकरणहरूको समीक्षा, र प्रचार गर्नुहोस् तालिममा अस्पष्ट उदाहरणहरू। यसलाई एउटा लूप बनाउनुहोस्: सङ्कलन → तालिम → समीक्षा → विस्तार गर्नुहोस्।

"अस्तव्यस्त वास्तविकता" को अर्थ के हो (र यसलाई कसरी सम्हाल्ने)

वास्तविक प्रयोगकर्ताहरू विरलै पूर्ण वाक्यहरूमा बोल्छन्। अपेक्षा गर्नुहोस्:

  • अंश: "ढुवानी शुल्क फिर्ता"
  • संयुक्त लक्ष्यहरू: "अर्डर रद्द गर्नुहोस् र निलो रंगमा पुन: अर्डर गर्नुहोस्"
  • अन्तर्निहित निकायहरू: "मेरो कार्यालयमा पठाउनुहोस्" (तपाईंलाई कुन कार्यालय थाहा हुनुपर्छ)
  • अस्पष्टता: "मेरो योजना परिवर्तन गर्नुहोस्" (कुन योजना? कहिले प्रभावकारी हुन्छ?)

व्यावहारिक समाधानहरू

  • प्रदान गर्नुहोस् स्पष्टीकरण प्रम्प्टहरू आवश्यक पर्दा मात्र; धेरै सोध्नबाट बच्नुहोस्।
  • कब्जा सन्दर्भ क्यारीओभर ("त्यो क्रम," "अन्तिम" जस्ता सर्वनामहरू)।
  • प्रयोग फलब्याक इन्टेन्टहरू लक्षित पुनर्प्राप्ति सहित: "म योजनाहरू रद्द गर्न वा परिवर्तन गर्न मद्दत गर्न सक्छु - तपाईं के चाहनुहुन्छ?"
  • मनिटर उद्देश्य स्वास्थ्य (भ्रम, टक्कर) र जहाँ कमजोर छ त्यहाँ डेटा थप्नुहोस्

आवाज सहायक र जगाउने शब्दहरू: फरक डेटा, समान नियमहरू

आवाज सहायक र जगाउने शब्दहरू वेक शब्दहरू ("हे सिरी," "एलेक्सा," कस्टम वेक वाक्यांशहरू) बलियो ध्वनिक अवरोधहरू भएको एक विशेष उच्चारण उपसमूह हो, तर कभरेज मानसिकता अझै पनि लागू हुन्छ: विविध स्पिकरहरू, उपकरणहरू, र वातावरणहरू। उठेपछि, भाषा उच्चारणहरू वास्तविक कामको लागि जिम्मेवारी लिनुहोस् ("बत्ती बाल्नुहोस्," "ज्याज बजाउनुहोस्")। आफ्नो जागकार्य डेटासेटहरू अलग गर्नुहोस्, र तिनीहरूलाई छुट्टै मूल्याङ्कन गर्नुहोस्।

कहिले (र कसरी) अफ-द-सेल्फ बनाम कस्टम डेटा प्रयोग गर्ने

अफ-द-सेल्फ बनाम कस्टम डेटा

  • अफ-द-शेल्फ: नयाँ स्थानहरूमा जम्प-स्टार्ट कभरेज, त्यसपछि कहाँ भ्रम छ भनेर मापन गर्नुहोस्।
  • अनुकूलन: तपाईंको डोमेन भाषा (नीति सर्तहरू, उत्पादन नामहरू) र "ब्रान्ड आवाज" खिच्नुहोस्।
  • मिश्रित: विस्तृत रूपमा सुरु गर्नुहोस्, त्यसपछि सबैभन्दा बढी विक्षेपन वा राजस्व प्रभाव भएका उद्देश्यहरूको लागि उच्च-परिशुद्धता डेटा थप्नुहोस्।

यदि तपाईंलाई द्रुत अन-र्‍याम्प चाहिन्छ भने, Shaip ले प्रदान गर्दछ कथन संग्रह र धेरै भाषाहरूमा अफ-द-सेल्फ भाषण/च्याट डेटासेटहरू; बहुभाषी सहायक रोलआउटको लागि केस स्टडी हेर्नुहोस्।

कार्यान्वयन चेकलिस्ट

कार्यान्वयन चेकलिस्ट

  • उदाहरणहरू सहित उद्देश्य र संस्थाहरू परिभाषित गर्नुहोस् र नकारात्मक घटनाहरू
  • लेखक विविध, सन्तुलित प्रत्येक उद्देश्यका लागि भनाइहरू (सानो सुरु गर्नुहोस्, साप्ताहिक रूपमा बढाउनुहोस्)
  • तालिम अघि मान्यकर्ताहरू (भाषा, बकवास, डुप्लिकेट, रेजेक्स) थप्नुहोस्।
  • सेटअप गर्नुहोस् समीक्षा लूपहरू वास्तविक ट्राफिकबाट; अस्पष्ट वस्तुहरूलाई प्रशिक्षणमा प्रवर्द्धन गर्नुहोस् 
  • ट्रैक उद्देश्य स्वास्थ्य र टक्करहरू; नयाँ उच्चारणहरूसँग समाधान गर्नुहोस्
  • चाँडै बहाव पत्ता लगाउन च्यानल/स्थान अनुसार पुन: मूल्याङ्कन गर्नुहोस्।

शेपले कसरी मद्दत गर्न सक्छ

  • अनुकूलित उच्चारण सङ्कलन र लेबलिङ (च्याट + आवाज) गुणस्तर उच्च राख्न प्रमाणकहरूसँग।
  • प्रयोग गर्न तयार डेटासेटहरू द्रुत बुटस्ट्र्यापिङको लागि १५०+ भाषाहरू/भेरियन्टहरूमा।
  • निरन्तर समीक्षा कार्यक्रमहरू जसले प्रत्यक्ष ट्राफिकलाई उच्च-सिग्नल प्रशिक्षण डेटामा परिणत गर्दछ—सुरक्षित रूपमा (PII नियन्त्रणहरू)।

हाम्रो बहुभाषी अन्वेषण गर्नुहोस् उच्चारण सङ्कलन केस स्टडी।

सामाजिक साझेदारी