अप्टिकल क्यारेक्टर पहिचान प्रयोगमा भएको वृद्धिलाई मुख्य रूपमा स्वचालित पहिचान प्रणालीको उत्पादनमा भएको वृद्धिलाई श्रेय दिन सकिन्छ। नतिजाको रूपमा, OCR टेक्नोलोजीको विश्वव्यापी बजार मूल्य, अनुमानित $ 8.93 अर्ब 2021 मा, 15.4 र 2022 बीच 2030% को CAGR मा बढ्ने भविष्यवाणी गरिएको छ।
तर वास्तवमा OCR प्रविधि के हो? र किन यो कुशल एआई मोडेलहरू विकास गर्ने व्यवसायहरूको लागि खेल परिवर्तक हो? आउनुहोस् पत्ता लगाउनुहोस्।
OCR (Optical Character Recognition) भनेको के हो?
OCR एउटा प्रविधि हो जसले विभिन्न प्रकारका कागजातहरू, जस्तै स्क्यान गरिएका कागज कागजातहरू, PDF हरू, वा पाठका छविहरूलाई सम्पादन योग्य र खोजीयोग्य डेटामा रूपान्तरण गर्छ। यसले काम गर्दछ:
- छविमा पाठको संरचनाको विश्लेषण गर्दै
- पाठलाई रेखा र वर्णहरूमा विभाजन गर्दै
- यी भिजुअल क्यारेक्टरहरूलाई मेसिन-पढ्न सकिने पाठमा रूपान्तरण गर्दै
सामान्य प्रयोगहरू समावेश छन्:
- स्क्यान गरिएका कागजातहरूलाई सम्पादन योग्य पाठ फाइलहरूमा रूपान्तरण गर्दै
- छापिएका पुस्तकहरू डिजिटाइज गर्ने
- तस्बिरहरूबाट पाठ निकाल्दै
- हस्तलिखित प्रिस्क्रिप्शनहरूलाई डिजिटल पाठमा रूपान्तरण गर्दै
- लाइसेन्स प्लेट पहिचान
खुला स्रोत डाटासेटका फाइदाहरू र चुनौतीहरू
व्यवसायहरूले उनीहरूको ML अनुप्रयोगहरूको लागि निःशुल्क-टु-प्रयोग डेटा रोज्नु पर्छ कि भनेर बुझ्नको लागि एकअर्काको विरुद्धमा फाइदाहरू र चुनौतीहरू खडा गर्न आवश्यक छ।
लाभ
- डाटा पहुँच गर्न सजिलै उपलब्ध छ। डाटा उपलब्धताको कारण, अनुप्रयोग विकासको लागत उल्लेखनीय रूपमा कम भएको छ।
- डाटासेट सजिलै उपलब्ध भएकोले अनुप्रयोगको लागि डेटा सङ्कलन गर्न खर्च गरिएको समय र प्रयास उल्लेखनीय रूपमा कम हुन्छ।
- त्यहाँ सामुदायिक फोरमहरू वा मद्दत समूहहरूको प्रशस्तता छ जसले डेटासेटलाई सिक्न, अनुकूलन गर्न र अनुकूलन गर्न मद्दत गर्दछ।
- खुला-स्रोत डेटासेटको प्रमुख फाइदाहरू मध्ये एक यो हो कि यसले अनुकूलनमा कुनै प्रतिबन्धहरू राख्दैन।
- खुला-स्रोत डेटा जनसंख्याको ठूलो भागमा पहुँचयोग्य छ, विश्लेषण र नवीनतालाई मौद्रिक अवरोध बिना सम्भव बनाउँछ।
चुनौतीहरू
- परियोजनाको लागि विशिष्ट डाटा प्राप्त गर्न गाह्रो छ। थप रूपमा, त्यहाँ जानकारी हराउने र उपलब्ध डाटाको गलत प्रयोगको सम्भावना छ।
- स्वामित्व डेटा प्राप्त गर्न समय, र प्रयास लाग्छ र महँगो छ
- जबकि डाटा प्राप्त गर्न सजिलो हुन सक्छ, ज्ञान र विश्लेषण लागत प्रारम्भिक लाभ भन्दा बढी हुन सक्छ।
- अन्य विकासकर्ताहरूले पनि एप्लिकेसनहरू विकास गर्न उही डेटा प्रयोग गर्छन्।
- यी डेटासेटहरू सुरक्षा उल्लङ्घन, गोपनीयता, र सहमतिको लागि उच्च जोखिममा छन्।
22 उत्तम हस्तलेखन र मेसिन लर्निंगको लागि OCR डाटासेटहरू
पाठ पहिचान अनुप्रयोग विकासको लागि धेरै खुला स्रोत डेटासेटहरू उपलब्ध छन्। केहि उत्कृष्ट 22 हो
NIST डाटाबेस
NIST वा नेशनल इन्स्टिच्युट अफ साइन्सले 3600 भन्दा बढी क्यारेक्टर छविहरू सहित 810,000 भन्दा बढी हस्तलेखन नमूनाहरूको निःशुल्क प्रयोग-गर्न-सङ्ग्रह प्रदान गर्दछ।
MNIST डाटाबेस
NSIT को विशेष डाटाबेस 1 र 3 बाट व्युत्पन्न, MNIST डाटाबेस तालिम सेटका लागि 60,000 हस्तलिखित नम्बरहरू र परीक्षण सेटका लागि 10,000 उदाहरणहरूको संकलित संग्रह हो। यो खुला स्रोत डाटाबेसले प्रि-प्रोसेसिङमा कम समय खर्च गर्दा ढाँचाहरू पहिचान गर्न ट्रेन मोडेलहरूलाई मद्दत गर्दछ।
पाठ पत्ता लगाउने
खुला स्रोत डाटाबेस, टेक्स्ट डिटेक्शन डाटासेटले साइनबोर्डहरू, ढोका प्लेटहरू, सावधानी प्लेटहरू, र थपको लगभग 500 भित्री र बाहिरी छविहरू समावेश गर्दछ।
स्ट्यानफोर्ड ओसीआर
स्ट्यानफोर्ड द्वारा प्रकाशित, यो नि:शुल्क प्रयोग गर्न सकिने डेटासेट MIT स्पोकन ल्याङ्ग्वेज सिस्टम्स ग्रुप द्वारा हस्तलिखित शब्द संग्रह हो।
सडक दृश्य पाठ
Google Street View छविहरूबाट सङ्कलन गरिएको, यो डेटासेटमा मुख्य रूपमा बोर्डहरू र सडक-स्तर चिन्हहरूको पाठ पत्ता लगाउने छविहरू छन्।
कागजात डाटाबेस
कागजात डाटाबेस 941 लेखकहरूबाट तालिकाहरू, सूत्रहरू, रेखाचित्रहरू, रेखाचित्रहरू, सूचीहरू, र थप सहित 189 हस्तलिखित कागजातहरूको संग्रह हो।
गणित अभिव्यक्ति
गणित अभिव्यक्तिहरू 101 गणितीय प्रतीकहरू र 10,000 अभिव्यक्तिहरू समावेश गर्ने डाटाबेस हो।
सडक दृश्य घर नम्बरहरू
Google Street View बाट संकलन गरिएको, यो Street View House Numbers 73257 Street House Number अंकहरू भएको डाटाबेस हो।
प्राकृतिक वातावरण OCR
प्राकृतिक वातावरण OCR, विश्वव्यापी लगभग 660 छविहरू र 5238 पाठ एनोटेसनहरूको डेटासेट हो।
गणित अभिव्यक्ति
१०१+ गणित प्रतीकहरूसँग १०,००० भन्दा बढी अभिव्यक्तिहरू।
हस्तलिखित चिनियाँ क्यारेक्टरहरू
909,818 हस्तलिखित चिनियाँ क्यारेक्टर छविहरूको डेटासेट, लगभग 10 समाचार लेखहरू बराबर।
अरबी मुद्रित पाठ
113,284 अरबी फन्टहरू प्रयोग गरेर 10 शब्दहरूको शब्दकोश।
हस्तलिखित अंग्रेजी पाठ
1700 भन्दा बढी प्रविष्टिहरूको साथ सेतोबोर्डमा हस्तलिखित अंग्रेजी पाठ।
3000 वातावरण छविहरू
विभिन्न प्रकाश अन्तर्गत बाहिरी र भित्री दृश्यहरू सहित विभिन्न वातावरणबाट 3000 छविहरू।
Chars74K डाटा
अंग्रेजी र कन्नड अंकको 74,000 छविहरू।
IAM (IAM हस्तलेखन)
IAM डेटाबेसमा ब्रिटिश अंग्रेजीको Lancaster-Oslo/Bergen Corpus बाट 13,353 लेखकहरूद्वारा 657 हस्तलिखित पाठ छविहरू छन्।
FUNSD (शोर स्क्यान गरिएका कागजातहरूमा फारम बुझाइ)
FUNSD मा 199 एनोटेटेड, स्क्यान गरिएका फारमहरू समावेश छन् जसमा विभिन्न र शोरयुक्त उपस्थितिहरू छन्, फारम बुझ्नका लागि चुनौतीपूर्ण।
OCR पाठ गर्नुहोस्
TextOCR प्राकृतिक तस्बिरहरूमा मनमानी आकारको दृश्य-पाठमा पाठ पहिचानलाई बेन्चमार्क गर्दछ।
ट्विटर 100k
Twitter100k कमजोर रूपमा पर्यवेक्षित क्रस-मिडिया पुन: प्राप्तिको लागि ठूलो डेटासेट हो।
SSIG-SegPlate - लाइसेन्स प्लेट क्यारेक्टर सेग्मेन्टेसन (LPCS)
यो डेटासेटले 101 दिनको सवारीका छविहरूसँग लाइसेन्स प्लेट क्यारेक्टर सेग्मेन्टेसन (LPCS) को मूल्याङ्कन गर्छ।
105,941 छविहरू प्राकृतिक दृश्यहरू 12 भाषाहरूको OCR डाटा
डाटामा 12 भाषाहरू (6 एसियाली, 6 युरोपेली) र विभिन्न प्राकृतिक दृश्यहरू र कोणहरू समावेश छन्। यसले रेखा-स्तर बाउन्डिङ बक्सहरू र पाठ ट्रान्सक्रिप्सनहरू सुविधा दिन्छ। यो बहु-भाषा OCR कार्यहरूको लागि उपयोगी छ।
भारतीय साइनबोर्ड छवि डाटासेट
डेटासेटमा वर्गीकरण र पत्ता लगाउनका लागि भारतीय ट्राफिक साइन छविहरू छन्, दिन, साँझ र रातमा विभिन्न मौसम परिस्थितिहरूमा लिइन्छ।
यी पाठ पत्ता लगाउने अनुप्रयोगहरूको लागि एमएल मोडेलहरू प्रशिक्षणको लागि शीर्ष खुला स्रोत डेटासेटहरू थिए। तपाइँको व्यवसाय र आवेदन आवश्यकताहरु संग पङ्क्तिबद्ध एक छनोट गर्न समय र प्रयास लाग्न सक्छ। यद्यपि, तपाईंले उपयुक्त डेटासेटहरू निर्णय गर्नु अघि यी डेटासेटहरू प्रयोग गर्नुपर्छ।
[यो पनि पढ्नुहोस्: OCR इन्फोग्राफिक - परिभाषा, फाइदाहरू, चुनौतीहरू, र केसहरू प्रयोग गर्नुहोस्]
तपाईलाई भरपर्दो र कुशल पाठ पत्ता लगाउने अनुप्रयोग तर्फ प्रगति गर्न मद्दतको लागि Shaip - उच्च श्रेणीको प्रविधि समाधान प्रदायक हो। हामी विभिन्न ग्राहक परियोजनाहरूको लागि अनुकूलन योग्य, अनुकूलित, र कुशल OCR प्रशिक्षण डेटासेटहरू सिर्जना गर्न हाम्रो प्राविधिक अनुभवको लाभ उठाउँछौं। हाम्रो क्षमताहरू पूर्ण रूपमा बुझ्नको लागि, आज हामीलाई सम्पर्क गर्नुहोस्।