In today’s world, healthcare is increasingly powered by machine learning (ML). From predicting diseases to enhancing diagnostics, ML is transforming healthcare outcomes. However, every ML project begins with one cornerstone: quality datasets.
In this blog, we’ve compiled free and open medical datasets across categories like general healthcare, medical imaging, genomics, and hospital. Whether you’re a researcher or a developer, these datasets will help you build robust and innovative healthcare models.
What are Healthcare Data Sets?
A healthcare or medical dataset is a collection of health-related information, like patient records, lab results, medical images, or treatment histories. These datasets are used to study diseases, improve treatments, and develop tools like AI models for better diagnosis and care. They play a key role in advancing research and improving patient outcomes.
तपाईंको मेसिन लर्निङ मोडेललाई तालिम दिन स्वास्थ्य सेवा डाटासेटहरूको महत्त्व
हेल्थकेयर डेटासेटहरू बिरामी जानकारीको संग्रह हो, जस्तै मेडिकल रेकर्ड, निदान, उपचार, आनुवंशिक डेटा, र जीवनशैली विवरणहरू। तिनीहरू आजको संसारमा धेरै महत्त्वपूर्ण छन्, जहाँ एआई अधिक र अधिक प्रयोग गरिन्छ। यहाँ कारण छ:
बिरामीको स्वास्थ्य बुझ्ने:
मेडिकल नोट डेटासेटले डाक्टरहरूलाई बिरामीको स्वास्थ्यको पूर्ण तस्वीर दिन्छ। उदाहरणका लागि, बिरामीको चिकित्सा इतिहास, औषधि र जीवनशैलीको बारेमा डेटाले उनीहरूलाई दीर्घकालीन रोग लाग्न सक्छ कि भनेर भविष्यवाणी गर्न मद्दत गर्न सक्छ। यसले डाक्टरहरूलाई चाँडै नै कदम चाल्न र त्यो बिरामीको लागि उपचार योजना बनाउन दिन्छ।
चिकित्सा अनुसन्धानमा सहयोग:
स्वास्थ्य सेवा डेटासेटहरू अध्ययन गरेर, चिकित्सा अनुसन्धानकर्ताहरूले क्यान्सर रोगीहरूलाई कसरी उपचार गरिन्छ र तिनीहरू कसरी निको हुन्छन् भनेर हेर्न सक्छन्। तिनीहरूले वास्तविक संसारमा राम्रो काम गर्ने उपचारहरू फेला पार्न सक्छन्। उदाहरणका लागि, बायोब्याङ्क र बिरामी उपचार इतिहासमा ट्युमर नमूनाहरू हेरेर, अनुसन्धानकर्ताहरूले कसरी विशिष्ट उत्परिवर्तन र क्यान्सर प्रोटीनहरूले विभिन्न उपचारहरूमा प्रतिक्रिया गर्छन् भनेर सिक्न सक्छन्। यो डेटा-संचालित दृष्टिकोणले प्रचलनहरू फेला पार्न मद्दत गर्दछ जसले राम्रो रोगी परिणामहरूको नेतृत्व गर्दछ।
राम्रो निदान र उपचार:
एआई-संचालित उपकरणहरूले डाक्टरहरूलाई रोगहरूको निदान र उपचार गर्न अझ प्रभावकारी रूपमा मद्दत गर्ने ढाँचाहरू पत्ता लगाउन मेडिकल डायग्नोसिस डेटासेटहरू प्रयोग गर्छन्। रेडियोलोजीमा, एआईले प्रभावशाली शुद्धताका साथ स्क्यानमा असामान्यताहरू द्रुत रूपमा पहिचान गर्न सक्छ, जसले गर्दा रोगको प्रारम्भिक पहिचान सम्भव हुन्छ। यी डेटासेटहरू विकसित हुँदै जाँदा, मेडिकल इमेज एनोटेसन जस्ता आविष्कारहरूले निदान प्रक्रियाहरूलाई थप परिष्कृत गर्दैछन्, जसले गर्दा बिरामीहरूको लागि राम्रो स्वास्थ्य सेवा परिणामहरू प्राप्त हुन्छन्।
जनस्वास्थ्य पहलहरूलाई मद्दत गर्दै:
एउटा सानो सहरको कल्पना गर्नुहोस् जहाँ स्वास्थ्य विशेषज्ञहरूले फ्लूको प्रकोप ट्र्याक गर्न डेटासेटहरू प्रयोग गरे। तिनीहरूले ढाँचाहरू हेरे र प्रभावित क्षेत्रहरू भेट्टाए। यस तथ्याङ्कको साथ, उनीहरूले लक्षित खोप अभियान र स्वास्थ्य शिक्षा अभियान सुरु गरे। यो डेटा-संचालित दृष्टिकोणले फ्लू समावेश गर्न मद्दत गर्यो। यसले देखाउँछ कि कसरी स्वास्थ्य सेवा डेटासेटहरूले सार्वजनिक स्वास्थ्य पहलहरूलाई सक्रिय रूपमा मार्गदर्शन र सुधार गर्न सक्छ।
चिकित्सा र जीवन विज्ञान शिक्षाको लागि 22 खुला र नि: शुल्क डाटासेटहरू अन्वेषण गर्नुहोस्
कुनै पनि मेसिन लर्निङ मोडेल राम्रोसँग काम गर्नका लागि खुला डाटासेटहरू आवश्यक हुन्छन्। मेसिन लर्निङ पहिले नै जीवन विज्ञान, स्वास्थ्य सेवा, र औषधिमा प्रयोग भइरहेको छ, र यसले उत्कृष्ट परिणामहरू देखाउँदैछ। यसले रोगहरूको भविष्यवाणी गर्न र तिनीहरू कसरी फैलिन्छन् भनेर बुझ्न मद्दत गर्दछ। मेसिन लर्निङले हामी कसरी समुदायमा बिरामी, वृद्ध र अस्वस्थ व्यक्तिहरूको उचित हेरचाह गर्न सक्छौं भन्ने बारे पनि विचारहरू दिइरहेको छ। राम्रो डेटासेटहरू बिना, यी मेसिन लर्निङ मोडेलहरू सम्भव हुने थिएन।
सामान्य र सार्वजनिक स्वास्थ्य:
- data.gov: धेरै प्यारामिटरहरू प्रयोग गरेर सजिलैसँग खोजी गर्न सकिने युएस-उन्मुख स्वास्थ्य सेवा डेटामा फोकस गर्दछ। डाटासेटहरू संयुक्त राज्य अमेरिकामा बस्ने व्यक्तिहरूको कल्याण बढाउन डिजाइन गरिएको हो; यद्यपि, जानकारी अनुसन्धान वा थप सार्वजनिक स्वास्थ्य डोमेनहरूमा अन्य प्रशिक्षण सेटहरूको लागि पनि लाभदायक साबित हुन सक्छ।
- WHO: विश्वव्यापी स्वास्थ्य प्राथमिकताहरूमा केन्द्रित डाटासेटहरू प्रदान गर्दछ। प्लेटफर्मले प्रयोगकर्ता-अनुकूल खोज प्रकार्य समावेश गर्दछ र हातमा रहेका विषयहरूको विस्तृत बुझाइको लागि डेटासेटहरूसँगै बहुमूल्य अन्तर्दृष्टिहरू प्रदान गर्दछ।
- Re3Data: धेरै फराकिलो क्षेत्रहरूमा वर्गीकृत 2,000 भन्दा बढी अनुसन्धान विषयहरू फैलिएको डाटा प्रदान गर्दछ। जबकि सबै डेटासेटहरू स्वतन्त्र रूपमा पहुँचयोग्य छैनन्, प्लेटफर्मले स्पष्ट रूपमा संरचनालाई संकेत गर्दछ र शुल्क, सदस्यता आवश्यकताहरू, र प्रतिलिपि अधिकार प्रतिबन्धहरू जस्ता कारकहरूमा आधारित सजिलो खोजको लागि अनुमति दिन्छ।
- मानव मृत्यु डाटाबेस 35 राष्ट्रहरूको लागि मृत्यु दर, जनसंख्या तथ्याङ्क, र विभिन्न स्वास्थ्य र जनसांख्यिकीय तथ्याङ्कहरूमा डेटा पहुँच प्रदान गर्दछ।
- CHDS: बाल स्वास्थ्य र विकास अध्ययन डेटासेटहरूले रोग र स्वास्थ्यको अन्तर-पुस्ताको प्रसारणको अनुसन्धान गर्ने लक्ष्य राख्छन्। यसले जीनोमिक अभिव्यक्ति मात्र होइन तर रोग र स्वास्थ्यमा सामाजिक, वातावरणीय र सांस्कृतिक कारकहरूको प्रभावलाई पनि अनुसन्धान गर्न डेटासेटहरू समावेश गर्दछ।
- Merck आणविक गतिविधि चुनौती: विभिन्न अणु संयोजनहरू बीचको सम्भावित अन्तरक्रियाको अनुकरण गरेर औषधि खोजमा मेसिन लर्निङको प्रयोगलाई बढावा दिन डिजाइन गरिएको डाटासेटहरू प्रस्तुत गर्दछ।
- १०,००० जेनोम परियोजना: 2,500 विभिन्न जनसंख्यामा 26 व्यक्तिहरूको अनुक्रमण डेटा समावेश गर्दछ, यसलाई सबैभन्दा ठूलो पहुँचयोग्य जीनोम भण्डारहरू मध्ये एक बनाउँछ। यो अन्तर्राष्ट्रिय सहयोग AWS मार्फत पहुँच गर्न सकिन्छ। (ध्यान दिनुहोस् कि अनुदानहरू जीनोम परियोजनाहरूको लागि उपलब्ध छन्।)
Medical Image Datasets for Life Sciences, Healthcare and Medicine:
- न्यूरो खोल्नुहोस्: एक नि:शुल्क र खुला प्लेटफर्मको रूपमा, OpenNeuro ले MRI, MEG, EEG, iEEG, ECoG, ASL, र PET डेटा सहित मेडिकल छविहरूको विस्तृत श्रृंखला साझा गर्दछ। 563 सहभागीहरूलाई कभर गर्ने 19,187 मेडिकल डेटासेटहरूको साथ, यसले अनुसन्धानकर्ताहरू र स्वास्थ्य सेवा पेशेवरहरूको लागि अमूल्य स्रोतको रूपमा कार्य गर्दछ।
- ओएसिस: ओपन एक्सेस सिरिज अफ इमेजिङ स्टडीज (OASIS) बाट सुरु भएको, यो डाटासेटले वैज्ञानिक समुदायको फाइदाको लागि जनतालाई नि:शुल्क न्यूरोइमेजिङ डाटा उपलब्ध गराउने प्रयास गर्छ। यसले 1,098 MR सत्रहरू र 2,168 PET सत्रहरूमा 1,608 विषयहरू समावेश गर्दछ, जसले अनुसन्धानकर्ताहरूको लागि जानकारीको सम्पत्ति प्रदान गर्दछ।
- अल्जाइमर रोग न्यूरोइमेजिंग पहल: अल्जाइमर रोग न्यूरोइमेजिङ इनिसिएटिभ (ADNI) ले अल्जाइमर रोगको प्रगति परिभाषित गर्न समर्पित विश्वभरका अन्वेषकहरूद्वारा सङ्कलन गरिएको डाटा प्रदर्शन गर्दछ। डाटासेटले MRI र PET छविहरू, आनुवंशिक जानकारी, संज्ञानात्मक परीक्षणहरू, र CSF र रक्त बायोमार्करहरूको विस्तृत संग्रह समावेश गर्दछ, यस जटिल अवस्थालाई बुझ्नको लागि बहुआयामिक दृष्टिकोणको सुविधा दिन्छ।
- MIMIC-III: A comprehensive database of ICU patient data, including imaging reports and clinical information, is available through MIMIC-III. This de-identified resource supports critical care research and predictive modeling
- CheXpert: For automated chest X-ray interpretation, a vast dataset of over 224,000 chest X-ray images with uncertainty labels is provided by CheXpert. It plays a crucial role in radiology research and disease detection.
- HAM10000: Advancing dermatology research and skin cancer prediction, HAM10000 offers 10,000 dermatoscopic images for detecting pigmented skin lesions.
अस्पताल डाटासेट:
- प्रदायक डाटा क्याटलग: डायलिसिस सुविधाहरू, चिकित्सक अभ्यासहरू, गृह स्वास्थ्य सेवाहरू, धर्मशाला हेरचाह, अस्पतालहरू, बिरामी पुनर्वास, दीर्घकालीन हेरचाह अस्पतालहरू, पुनर्वास सेवाहरू भएका नर्सिङ होमहरू, चिकित्सकको कार्यालय भ्रमण लागतहरू, र आपूर्तिकर्ता निर्देशिकाहरू लगायतका क्षेत्रमा व्यापक प्रदायक डेटासेटहरू पहुँच र डाउनलोड गर्नुहोस्।
- स्वास्थ्य सेवा लागत र उपयोग परियोजना (HCUP): यो व्यापक, राष्ट्रव्यापी डाटाबेस स्वास्थ्य सेवा उपयोग, पहुँच, शुल्क, गुणस्तर, र परिणामहरूमा राष्ट्रिय प्रवृतिहरू पहिचान गर्न, ट्र्याक गर्न र विश्लेषण गर्न सिर्जना गरिएको थियो। HCUP भित्रको प्रत्येक मेडिकल डेटासेटले सबै बिरामीको बसाइ, आपतकालीन विभागको भ्रमण, र अमेरिकी अस्पतालहरूमा एम्बुलेटरी शल्यक्रियाहरू बारे मुठभेड-स्तर जानकारी समावेश गर्दछ, अनुसन्धानकर्ताहरू र नीति निर्माताहरूका लागि डाटाको सम्पत्ति प्रदान गर्दछ।
- MIMIC क्रिटिकल केयर डाटाबेस: कम्प्युटेसनल फिजियोलोजीको उद्देश्यका लागि MIT द्वारा विकसित गरिएको, यो खुला रूपमा उपलब्ध मेडिकल डाटासेटमा 40,000 भन्दा बढी गम्भीर हेरचाह बिरामीहरूबाट पहिचान गरिएको स्वास्थ्य डेटा समावेश छ। MIMIC डाटासेटले महत्वपूर्ण हेरचाह अध्ययन गर्ने र नयाँ कम्प्युटेशनल विधिहरू विकास गर्ने अनुसन्धानकर्ताहरूको लागि मूल्यवान स्रोतको रूपमा कार्य गर्दछ।
क्यान्सर डाटासेट:
- सीटी मेडिकल छविहरू: CT छवि डेटामा प्रवृतिहरू जाँच गर्न वैकल्पिक विधिहरू सहज बनाउन डिजाइन गरिएको, यो डेटासेटले क्यान्सर रोगीहरूको CT स्क्यानहरू, कन्ट्रास्ट, मोडालिटी, र बिरामीको उमेर जस्ता कारकहरूमा ध्यान केन्द्रित गर्दछ। अन्वेषकहरूले नयाँ इमेजिङ प्रविधिहरू विकास गर्न र क्यान्सर निदान र उपचारमा ढाँचाहरू विश्लेषण गर्न यो डाटाको लाभ उठाउन सक्छन्।
- क्यान्सर रिपोर्टिङमा अन्तर्राष्ट्रिय सहयोग (ICCR): The medical datasets within the ICCR have been developed and provided to promote an evidence-based approach to cancer reporting worldwide. By standardizing cancer reporting, the ICCR aims to improve the quality and comparability of cancer data across institutions and countries.
- SEER क्यान्सर घटना: अमेरिकी सरकारले उपलब्ध गराएको, यो क्यान्सर डेटा आधारभूत जनसांख्यिकीय भिन्नताहरू जस्तै जाति, लिङ्ग र उमेरको प्रयोग गरी विभाजन गरिएको छ। SEER डाटासेटले अनुसन्धानकर्ताहरूलाई विभिन्न जनस्वास्थ्य उपसमूहहरूमा क्यान्सरका घटनाहरू र बाँच्ने दरहरू पत्ता लगाउन, सार्वजनिक स्वास्थ्य पहलहरू र अनुसन्धान प्राथमिकताहरू सूचित गर्न अनुमति दिन्छ।
- फोक्सोको क्यान्सर डाटा सेट: यो नि:शुल्क डाटासेटले 1995 मा भएको फोक्सोको क्यान्सरका केसहरूमा जानकारी दिन्छ। अन्वेषकहरूले यो डाटालाई फोक्सोको क्यान्सरको घटना, उपचार, र परिणामहरूमा दीर्घकालीन प्रवृत्तिहरू अध्ययन गर्नका साथै नयाँ निदान र प्रोग्नोस्टिक उपकरणहरू विकास गर्न प्रयोग गर्न सक्छन्।
हेल्थकेयर डाटाका लागि अतिरिक्त स्रोतहरू:
- Kaggle: एक बहुमुखी डाटासेट रिपोजिटरी - Kaggle स्वास्थ्य सेवा क्षेत्र मा सीमित छैन, डेटासेट को एक विस्तृत सरणी को लागी एक उत्कृष्ट प्लेटफर्म बनेको छ। विभिन्न विषयहरूमा शाखा विस्तार गर्नेहरूका लागि वा मोडेल तालिमका लागि विविध डेटासेटहरूको आवश्यकता भएकाहरूका लागि आदर्श, Kaggle एउटा जाने स्रोत हो।
- सबरेडिट: एक समुदाय-संचालित खजाना ट्रोभ - सही subreddit छलफलहरू खुला डाटासेटहरूको लागि सुनको खान हुन सक्छ। सार्वजनिक डाटासेटहरूद्वारा सम्बोधन नगरिएका विशिष्ट वा विशिष्ट प्रश्नहरूको लागि, Reddit समुदायले जवाफ राख्न सक्छ।
शैपको प्रिमियम, प्रयोग गर्न तयार मेडिकल डाटासेटहरूका साथ तपाईंको हेल्थकेयर एआई परियोजनाहरूलाई गति दिनुहोस्।
डाक्टर र रोगी कुराकानी डाटासेट
हाम्रो डेटासेटमा डाक्टरहरू र बिरामीहरू बीच उनीहरूको स्वास्थ्य र उपचार योजनाहरूको बारेमा कुराकानीको अडियो फाइलहरू छन्। फाइलहरूले 31 विभिन्न चिकित्सा विशेषताहरू समावेश गर्दछ।
के समावेश छ?
- 257,977 घन्टाको वास्तविक डाक्टर डिक्टेशन अडियो स्वास्थ्य सेवा भाषण मोडेलहरू तालिम दिन
- फोन, डिजिटल रेकर्डर, स्पीच माइक र स्मार्टफोन जस्ता विभिन्न यन्त्रहरूबाट अडियो
- व्यक्तिगत जानकारी सहितको अडियो र ट्रान्सक्रिप्टहरू गोपनीयता कानूनहरू पालना गर्न हटाइयो
CT SCAN छवि डाटासेट
हामी अनुसन्धान र चिकित्सा निदानको लागि शीर्ष-निशान सीटी स्क्यान छवि डेटासेटहरू प्रदान गर्दछौं। हामीसँग वास्तविक बिरामीहरूबाट हजारौं उच्च-गुणस्तरका तस्बिरहरू छन्, नवीनतम प्रविधिहरू प्रयोग गरेर प्रशोधन गरिएको। हाम्रो डेटासेटहरूले डाक्टर र अनुसन्धानकर्ताहरूलाई विभिन्न स्वास्थ्य समस्याहरू, जस्तै क्यान्सर, मस्तिष्क विकारहरू, र हृदय रोगहरू राम्रोसँग बुझ्न मद्दत गर्दछ।
डाटाले संकेत गर्दछ कि सबैभन्दा सामान्य सीटी स्क्यानहरू छाती (6000) र टाउको (4350) को हुन्, पेट, श्रोणि र शरीरका अन्य भागहरूको लागि पनि उल्लेखनीय संख्यामा स्क्यानहरू गरिन्छ। तालिकाले यो पनि प्रकट गर्दछ कि CT Covid HRCT र एंजियो पल्मोनरी जस्ता केही विशेष स्क्यानहरू मुख्य रूपमा भारत, एशिया, युरोप र अन्यमा सञ्चालन गरिन्छ।
इलेक्ट्रोनिक स्वास्थ्य रेकर्ड (EHR) डाटासेट
इलेक्ट्रोनिक हेल्थ रेकर्ड्स (EHR) बिरामीको चिकित्सा इतिहासको डिजिटल संस्करण हो। तिनीहरूमा निदान, औषधिहरू, उपचार योजनाहरू, खोप मितिहरू, एलर्जीहरू, चिकित्सा छविहरू (जस्तै CT स्क्यान, MRI, र एक्स-रेहरू), प्रयोगशाला परीक्षणहरू, र थप जस्ता जानकारीहरू समावेश छन्।
हाम्रो प्रयोग गर्न तयार EHR डेटासेट सुविधाहरू:
- 5.1 मिलियन भन्दा बढी रेकर्डहरू र चिकित्सक अडियो फाइलहरू 31 चिकित्सा विशेषताहरू फैलिएका छन्
- क्लिनिकल NLP र अन्य कागजात AI मोडेलहरू प्रशिक्षणको लागि प्रामाणिक मेडिकल रेकर्डहरू आदर्श
- बेनामी MRN, भर्ना र डिस्चार्ज मितिहरू, बस्ने लम्बाइ, लिङ्ग, बिरामी वर्ग, भुक्तानीकर्ता, वित्तीय वर्ग, राज्य, डिस्चार्ज स्वभाव, उमेर, DRG, DRG विवरण, प्रतिपूर्ति, AMLOS, GMLOS, मृत्युको जोखिम, बिरामीको गम्भीरता, सहित मेटाडेटा। ग्रुपर, र अस्पताल जिप कोड
- सबै रोगी वर्गहरू समेट्ने रेकर्डहरू: इनपेशेन्ट, आउट पेशेन्ट (क्लिनिकल, रिह्याब, पुनरावर्ती, सर्जिकल डे केयर), र आपतकालीन
- HIPAA सेफ हार्बर दिशानिर्देशहरूको पालना गर्दै व्यक्तिगत रूपमा पहिचान योग्य जानकारी (PII) भएका कागजातहरू सुधार गरियो।
एमआरआई छवि डाटासेट
हामीले चिकित्सा अनुसन्धान र निदानलाई समर्थन गर्न प्रिमियम एमआरआई छवि डेटासेटहरू प्रदान गर्दछौं। हाम्रो विस्तृत संग्रहमा वास्तविक बिरामीहरूबाट हजारौं उच्च-रिजोल्युसन छविहरू समावेश छन्, सबै अत्याधुनिक विधिहरू प्रयोग गरेर प्रशोधन गरिएका छन्। हाम्रो डेटासेटहरू प्रयोग गरेर, स्वास्थ्य सेवा पेशेवरहरू र अन्वेषकहरूले चिकित्सा अवस्थाहरूको विस्तृत दायराको बारेमा आफ्नो बुझाइलाई अझ गहिरो बनाउन सक्छन्, अन्ततः बढि बिरामी परिणामहरूतर्फ अग्रसर हुन्छन्।
शरीरका विभिन्न अंगहरूको एमआरआई छवि डेटासेट, मेरुदण्ड र मस्तिष्क प्रत्येक 5000 मा उच्चतम गणना भएको। डाटा भारत, मध्य एशिया र युरोप, र मध्य एशिया क्षेत्रहरूमा वितरण गरिएको छ।
एक्स-रे छवि डाटासेट
अनुसन्धान र चिकित्सा निदानको लागि उत्कृष्ट गुणस्तर एक्स-रे छवि डेटासेटहरू। हामीसँग वास्तविक बिरामीहरूबाट हजारौं उच्च-रिजोल्युसन छविहरू छन्, नवीनतम प्रविधिहरू प्रयोग गरेर प्रशोधन गरिएको। Shaip को साथ, तपाईं आफ्नो अनुसन्धान र बिरामी परिणाम सुधार गर्न भरपर्दो चिकित्सा डाटा पहुँच गर्न सक्नुहुन्छ।
शरीरका विभिन्न अंगहरूमा एक्स-रे डाटासेट वितरण, मध्य एशियामा सबैभन्दा बढी 1000 मा छातीको गणना भएको। तल्लो र माथिल्लो छेउमा प्रत्येक 850 को कुल गणना छ, मध्य एशिया र मध्य एशिया र युरोप क्षेत्रहरू बीच वितरित।