NLP के हो?
NLP (प्राकृतिक भाषा प्रशोधन) ले कम्प्युटरहरूलाई मानव भाषा बुझ्न मद्दत गर्दछ। यो कम्प्युटरलाई पढ्न, बुझ्न र पाठ र बोलीमा प्रतिक्रिया दिन मानिसहरूले जस्तै सिकाउनु जस्तै हो।
NLP के गर्न सक्छ?
- गन्दा पाठलाई व्यवस्थित डेटामा बदल्नुहोस्
- बुझ्नुहोस् कि टिप्पणीहरू सकारात्मक वा नकारात्मक छन्
- भाषाहरू बीच अनुवाद गर्नुहोस्
- लामो पाठहरूको सारांशहरू सिर्जना गर्नुहोस्
- र धेरै धेरै!
- NLP को साथ सुरु गर्दै:
राम्रो NLP प्रणालीहरू निर्माण गर्न, तपाइँलाई तिनीहरूलाई तालिम दिन धेरै उदाहरणहरू चाहिन्छ - जस्तै मानिसहरूले कसरी थप अभ्यासको साथ अझ राम्रो सिक्छन्। सुसमाचार यो हो कि त्यहाँ धेरै नि: शुल्क स्रोतहरू छन् जहाँ तपाइँ यी उदाहरणहरू फेला पार्न सक्नुहुन्छ: अनुहार अँध्यारो अनुहार, Kaggle र GitHub
NLP बजार आकार र वृद्धि:
2023 को रूपमा, प्राकृतिक भाषा प्रशोधन (NLP) बजार लगभग $ 26 बिलियन मा मूल्यवान थियो। यो 30 देखि 2023 सम्म लगभग 2030% को चक्रवृद्धि वार्षिक वृद्धि दर (CAGR) संग उल्लेखनीय रूपमा वृद्धि हुने अपेक्षा गरिएको छ। यो वृद्धि स्वास्थ्य सेवा, वित्त, र ग्राहक सेवा जस्ता उद्योगहरूमा NLP अनुप्रयोगहरूको बढ्दो मागद्वारा संचालित छ।
राम्रो NLP डेटासेट कसरी छनौट गर्ने, निम्न कारकहरू विचार गर्नुहोस्:
- प्रसंग: निश्चित गर्नुहोस् कि डेटासेट तपाईंको विशिष्ट कार्य वा डोमेनसँग पङ्क्तिबद्ध छ।
- आकार: ठूला डेटासेटहरूले सामान्यतया मोडेलको कार्यसम्पादनमा सुधार गर्छ, तर गुणस्तरसँग सन्तुलन आकार।
- विविधता: मोडेलको सुदृढता बढाउन विभिन्न भाषा शैली र सन्दर्भहरू भएका डेटासेटहरू खोज्नुहोस्।
- गुणस्तर: त्रुटिहरूको परिचयबाट बच्नको लागि राम्रोसँग लेबल गरिएको र सही डाटाको लागि जाँच गर्नुहोस्।
- पहुँच: डेटासेट प्रयोगको लागि उपलब्ध छ भनी सुनिश्चित गर्नुहोस् र कुनै पनि इजाजतपत्र प्रतिबन्धहरू विचार गर्नुहोस्।
- प्रिप्रोसेसिing: यदि डेटासेटलाई महत्त्वपूर्ण सफाई वा पूर्व प्रक्रिया आवश्यक छ भने निर्धारण गर्नुहोस्।
- समुदाय समर्थन: लोकप्रिय डेटासेटहरूमा प्राय: धेरै स्रोतहरू र सामुदायिक समर्थन हुन्छ, जुन उपयोगी हुन सक्छ।
यी कारकहरू मूल्याङ्कन गरेर, तपाईंले आफ्नो परियोजनाका आवश्यकताहरू अनुरूप उपयुक्त हुने डेटासेट चयन गर्न सक्नुहुन्छ
शीर्ष 33 NLP को लागि खुला डाटासेटहरू हेर्नै पर्छ
सामान्य
UCI को स्प्याम्बास (लिंक)
स्प्यामबेस, Hewlett-Packard Labs मा सिर्जना गरिएको, प्रयोगकर्ताहरू द्वारा स्प्याम इमेलहरूको संग्रह छ, व्यक्तिगत स्प्याम फिल्टर विकास गर्ने लक्ष्य राख्दै। यसमा इमेल सन्देशहरूबाट 4600 भन्दा बढी अवलोकनहरू छन्, जसमध्ये लगभग 1820 स्प्याम छन्।
एनरन डाटासेट (लिंक)
एनरोन डाटासेटमा अज्ञात 'वास्तविक' इमेलहरूको विशाल संग्रह छ जुन जनतालाई उनीहरूको मेसिन लर्निङ मोडेलहरू तालिम दिन उपलब्ध छ। यसले 150 भन्दा बढी प्रयोगकर्ताहरूबाट आधा मिलियन भन्दा बढी इमेलहरू समेट्छ, मुख्य रूपमा एनरोनको वरिष्ठ व्यवस्थापन। यो डेटासेट संरचित र असंरचित ढाँचामा प्रयोगको लागि उपलब्ध छ। असंरचित डाटालाई सदुपयोग गर्न, तपाईंले डाटा प्रशोधन प्रविधिहरू लागू गर्नुपर्छ।
सिफारिस गर्ने प्रणाली डेटासेट (लिंक)
Recommender System dataset विभिन्न सुविधाहरू समावेश गर्ने विभिन्न डेटासेटहरूको विशाल संग्रह हो जस्तै,
- उत्पादन समीक्षाहरू
- तारा मूल्याङ्कन
- स्वास्थ्य ट्र्याकिंग
- गीत डेटा
- सामाजिक संजाल
- टाइमस्ट्याम्पहरू
- प्रयोगकर्ता/वस्तु अन्तरक्रिया
- जीपीएस डाटा
पेन ट्रीबैंक (लिंक)
यो कोर्पस, वाल स्ट्रीट जर्नलबाट, अनुक्रम लेबलिङ मोडेलहरूको परीक्षणको लागि लोकप्रिय छ।
NLTK (लिंक)
यो पाइथन पुस्तकालयले NLP का लागि १०० भन्दा बढी कर्पोरा र लेक्सिकल स्रोतहरूमा पहुँच प्रदान गर्दछ। यसमा NLTK पुस्तक, पुस्तकालय प्रयोग गर्ने तालिम पाठ्यक्रम पनि समावेश छ।
विश्वव्यापी निर्भरता (लिंक)
UD ले 100 भन्दा बढी भाषाहरूमा स्रोतहरू, 200 ट्रीब्याङ्कहरू, र 300 सामुदायिक सदस्यहरूबाट समर्थन सहित, व्याकरण एनोटेट गर्ने एक सुसंगत तरिका प्रदान गर्दछ।
सेन्मेन्ट विश्लेषण
चलचित्र र वित्त को लागी शब्दकोश (लिंक)
चलचित्र र वित्त डेटासेटका लागि शब्दकोशले वित्त भरण र चलचित्र समीक्षाहरूमा सकारात्मक वा नकारात्मक ध्रुवताको लागि डोमेन-विशिष्ट शब्दकोशहरू प्रदान गर्दछ। यी शब्दकोशहरू IMDb र US फारम-8 फिलिंगहरूबाट कोरिएका हुन्।भावना 140 (लिंक)
सेन्टीमेन्ट 140 सँग 160,000 बिभिन्न क्षेत्रहरूमा वर्गीकृत विभिन्न इमोटिकनहरूसँग 6 भन्दा बढी ट्वीटहरू छन्: ट्वीट मिति, ध्रुवता, पाठ, प्रयोगकर्ता नाम, ID, र क्वेरी। यो डेटासेटले तपाईलाई एउटा ब्रान्ड, उत्पादन, वा Twitter गतिविधिमा आधारित विषयको भावना पत्ता लगाउन सम्भव बनाउँछ। यो डेटासेट स्वचालित रूपमा सिर्जना गरिएको हुनाले, अन्य मानव-एनोटेट ट्वीटहरू भन्दा फरक, यसले सकारात्मक भावनाहरू र नकारात्मक भावनाहरू भएका ट्वीटहरूलाई प्रतिकूल रूपमा वर्गीकृत गर्दछ।
बहु-डोमेन भावना डेटासेट (लिंक)
यो बहु-डोमेन भावना डेटासेट विभिन्न उत्पादनहरूको लागि Amazon समीक्षाहरूको भण्डार हो। केही उत्पादन कोटीहरू, जस्तै पुस्तकहरू, हजारौंमा चलिरहेको समीक्षाहरू छन्, जबकि अरूसँग केवल केही सय समीक्षाहरू छन्। साथै, तारा मूल्याङ्कन भएका समीक्षाहरूलाई बाइनरी लेबलहरूमा रूपान्तरण गर्न सकिन्छ।
Standford Sentiment TreeBank (लिंक)
Rotten Tomatoes को यो NLP डेटासेटले लामो वाक्यांश र थप विस्तृत पाठ उदाहरणहरू समावेश गर्दछ।
ब्लग लेखकत्व कोर्पस (लिंक)
यस संग्रहमा लगभग 1.4 मिलियन शब्दहरू भएका ब्लग पोस्टहरू छन्, प्रत्येक ब्लग छुट्टै डाटासेट हो।
OpinRank डाटासेट (लिंक)
Edmunds र TripAdvisor बाट 300,000 समीक्षाहरू, कार मोडेल वा यात्रा गन्तव्य र होटल द्वारा व्यवस्थित।
पाठ
-
Wiki QA Corpus (लिंक)
खुला-डोमेन प्रश्न र उत्तर अनुसन्धानमा मद्दत गर्न सिर्जना गरिएको, WiKi QA Corpus सबैभन्दा व्यापक सार्वजनिक रूपमा उपलब्ध डाटासेटहरू मध्ये एक हो। Bing खोज इन्जिन क्वेरी लगहरूबाट कम्पाइल गरिएको, यो प्रश्न-उत्तर जोडीहरूसँग आउँछ। यसमा 3000 भन्दा बढी प्रश्नहरू र 1500 लेबल गरिएका उत्तर वाक्यहरू छन्।
-
कानूनी मामला रिपोर्ट डाटासेट (लिंक)
कानूनी मामला रिपोर्ट डाटासेट मा 4000 कानूनी मामलाहरु को एक संग्रह छ र स्वचालित पाठ सारांश र उद्धरण विश्लेषण को लागी प्रशिक्षण को लागी प्रयोग गर्न सकिन्छ। प्रत्येक कागजात, क्याचफ्रेजहरू, उद्धरण वर्गहरू, उद्धरण क्याचफ्रेजहरू, र थप प्रयोग गरिन्छ।
-
Jeopardy (लिंक)
Jeopardy dataset एउटा Reddit प्रयोगकर्ताद्वारा ल्याइएका लोकप्रिय क्विज टिभी कार्यक्रममा प्रस्तुत गरिएका २००,००० भन्दा बढी प्रश्नहरूको सङ्ग्रह हो। प्रत्येक डाटा पोइन्टलाई यसको प्रसारित मिति, एपिसोड नम्बर, मान, राउन्ड, र प्रश्न/उत्तर द्वारा वर्गीकृत गरिएको छ।
-
20 समाचार समूहहरू (लिंक)
20,000 कागजातहरूको सङ्कलनले 20 समाचार समूहहरू र विषयहरू समावेश गर्दछ, धर्मदेखि लोकप्रिय खेलहरूसम्मका विषयहरूको विवरण।
-
रोयटर्स समाचार डाटासेट (लिंक)
पहिलो पटक 1987 मा देखा परेको, यो डेटासेटलाई मेसिन लर्निङ उद्देश्यका लागि लेबल, अनुक्रमणिका र कम्पाइल गरिएको छ।
-
ArXiv (लिंक)
यो पर्याप्त 270 GB डाटासेटमा सबै arXiv अनुसन्धान पत्रहरूको पूर्ण पाठ समावेश छ।
-
युरोपेली संसदको कार्यवाही समानान्तर कर्पस (लिंक)
संसदको कार्यवाहीबाट वाक्य जोडीहरूमा 21 युरोपेली भाषाहरूका प्रविष्टिहरू समावेश छन्, जसमा मेसिन लर्निङ कर्पोराका लागि केही कम सामान्य भाषाहरू छन्।
-
बिलियन शब्द बेन्चमार्क (लिंक)
WMT 2011 News Crawl बाट व्युत्पन्न, यो भाषा मोडलिङ डेटासेटले अभिनव भाषा मोडलिङ प्रविधिहरू परीक्षण गर्न लगभग एक अरब शब्दहरू समावेश गर्दछ।
अडियो भाषण
-
स्पोकन विकिपीडिया कर्पोरा (लिंक)
-
2000 HUB5 अंग्रेजी (लिंक)
2000 HUB5 अंग्रेजी डाटासेटमा अंग्रेजी भाषामा 40 टेलिफोन कुराकानी ट्रान्सक्रिप्टहरू छन्। तथ्याङ्क राष्ट्रिय मानक र प्रविधि संस्थान द्वारा प्रदान गरिएको छ, र यसको मुख्य फोकस कुराकानीको बोली पहिचान गर्न र भाषणलाई पाठमा रूपान्तरण गर्न हो।
-
LibriSpeech (लिंक)
LibriSpeech डेटासेट लगभग 1000 घन्टाको अंग्रेजी भाषणको संग्रह हो र यसलाई प्राकृतिक भाषा प्रशोधनका लागि उत्तम उपकरण बनाउँदै अडियो पुस्तकहरूका अध्यायहरूमा विषयहरूद्वारा सही रूपमा विभाजन गरिएको छ।
-
फ्री स्पोकन डिजिट डाटासेट (लिंक)
यो NLP डेटासेटले अंग्रेजीमा बोल्ने अंकहरूको 1,500 भन्दा बढी रेकर्डिङहरू समावेश गर्दछ।
-
M-AI ल्याब्स स्पीच डाटासेट (लिंक)
डेटासेटले ट्रान्सक्रिप्सनको साथ लगभग 1,000 घण्टा अडियो प्रदान गर्दछ, धेरै भाषाहरू समेट्छ र पुरुष, महिला, र मिश्रित आवाजहरू द्वारा वर्गीकृत गर्दछ।
-
शोर भाषण डाटाबेस (लिंक)
यो डेटासेटले समानान्तर शोर र सफा बोली रेकर्डिङहरू समावेश गर्दछ, वाणी वृद्धि सफ्टवेयर विकासको लागि तर चुनौतीपूर्ण परिस्थितिहरूमा भाषण प्रशिक्षणको लागि पनि लाभदायक छ।
समीक्षा
-
Yelp समीक्षाहरू (लिंक)
Yelp डेटासेटसँग 8.5 प्लस व्यवसाय, तिनीहरूको समीक्षा, र प्रयोगकर्ता डेटाको लगभग 160,000 मिलियन समीक्षाहरूको विशाल संग्रह छ। समीक्षाहरू तपाईंको मोडेलहरूलाई भावना विश्लेषणमा तालिम दिन प्रयोग गर्न सकिन्छ। साथै, यस डेटासेटमा आठ महानगरीय स्थानहरू समेट्ने 200,000 भन्दा बढी तस्बिरहरू छन्।
-
IMDB समीक्षाहरू (लिंक)
IMDB समीक्षाहरू 50 हजार भन्दा बढी चलचित्रहरूको लागि कास्ट जानकारी, मूल्याङ्कन, विवरण, र विधा समावेश गर्ने सबैभन्दा लोकप्रिय डेटासेटहरू हुन्। यो डेटासेट तपाईको मेसिन लर्निङ मोडेलहरूको परीक्षण र तालिम दिन प्रयोग गर्न सकिन्छ।
-
Amazon समीक्षा र मूल्याङ्कन डाटासेट (लिंक)
Amazon समीक्षा र मूल्याङ्कन डेटासेटले 1996 देखि 2014 सम्म जम्मा गरिएका मेटाडेटा र Amazon बाट विभिन्न उत्पादनहरूको समीक्षाहरूको मूल्यवान संग्रह समावेश गर्दछ - लगभग 142.8 मिलियन रेकर्डहरू। मेटाडेटाले मूल्य, उत्पादन विवरण, ब्रान्ड, कोटी र थप कुराहरू समावेश गर्दछ, जबकि समीक्षाहरूमा पाठको गुणस्तर, पाठको उपयोगिता, मूल्याङ्कनहरू र थप कुराहरू हुन्छन्।
प्रश्न र उत्तर
-
स्ट्यानफोर्ड प्रश्न र उत्तर डाटासेट (Squad) (लिंक)
यस पठन समझ डेटासेटमा 100,000 उत्तरदायी प्रश्नहरू र 50,000 अनुत्तरित प्रश्नहरू छन्, सबै विकिपिडिया भीड कार्यकर्ताहरूले सिर्जना गरेका हुन्।
-
प्राकृतिक प्रश्नहरू (लिंक)
यस प्रशिक्षण सेटमा 300,000 भन्दा बढी प्रशिक्षण उदाहरणहरू, 7,800 विकास उदाहरणहरू, र 7,800 परीक्षण उदाहरणहरू छन्, प्रत्येक गुगल क्वेरी र मिल्दो विकिपीडिया पृष्ठको साथ।
-
TriviaQA (लिंक)
यो चुनौतीपूर्ण प्रश्न सेटमा 950,000 QA जोडीहरू छन्, दुबै मानव-प्रमाणित र मेसिन-उत्पन्न सबसेटहरू सहित।
-
CLEVR (रचनात्मक भाषा र प्राथमिक दृश्य तर्क) (लिंक)
यस भिजुअल प्रश्नको जवाफ दिने डेटासेटमा थ्रीडी रेन्डर गरिएका वस्तुहरू र दृश्य दृश्यका बारेमा विवरणहरू सहित हजारौं प्रश्नहरू छन्।
त्यसोभए, तपाईंले आफ्नो मेसिन लर्निङ मोडेललाई तालिम दिन कुन डेटासेट रोज्नुभएको छ?
हामी जाने क्रममा, हामी तपाईंलाई एक साथ छोड्नेछौं प्रो-टिप।
तपाइँको आवश्यकताहरु को लागी एक NLP डेटासेट छनोट गर्नु अघि README फाइल को माध्यम बाट जानुहोस् सुनिश्चित गर्नुहोस्। डेटासेटले तपाईलाई आवश्यक पर्ने सबै आवश्यक जानकारी समावेश गर्दछ, जस्तै डेटासेटको सामग्री, विभिन्न मापदण्डहरू जसमा डेटा वर्गीकृत गरिएको छ, र डेटासेटको सम्भावित प्रयोग केसहरू।
तपाईले जुनसुकै मोडेलहरू निर्माण गर्नुभयो भने, हाम्रा मेसिनहरूलाई हाम्रो जीवनसँग अझ नजिक र आन्तरिक रूपमा एकीकृत गर्ने रोमाञ्चक सम्भावना छ। NLP संग, व्यापार, चलचित्र, वाक् पहिचान, वित्त, र अधिक को लागी संभावनाहरु धेरै गुणा बढेको छ।