Mashinalarni o'rganish va ma'lumot olish uchun bepul ochiq ma'lumotlar bazalari | AI tomon

Mashinalarni o'rganish va ma'lumotlar ilmi uchun eng yaxshi ommaviy ma'lumotlar to'plami

Mashinani o'rganish uchun eng yaxshi ma'lumotlar to'plamlari qanday? Bir necha soatdan keyin veb-saytlarni qirib tashlaganimizdan so'ng, biz yuqori sifatli va turli xil mashinalarni o'rganish uchun ma'lumotlar to'plamini yaratish uchun ajoyib hiyla varaqasini yaratdik.

Mualliflar:

Steysi Stenford, Machine Living Memoirs Inc.

Roberto Iriondo, Karnegi Mellon universiteti, Mashinasozlik bo'limi.

Nashr qilingan:

2018 yil 2 oktyabr

SO'NGGI MAHSULOTLAR:

2019 yil 15 may

Yuqori sifatli ma'lumotlar to'plamini qidirishda yodda tutish kerak bo'lgan bir nechta narsalar:

1.- Yuqori sifatli ma'lumotlar to'plamiga aralashmaslik kerak, chunki siz ma'lumotlarni tozalash uchun ko'p vaqt sarflashni xohlamaysiz.

2.- Yuqori sifatli ma'lumotlar to'plamida qatorlar yoki ustunlar bo'lmasligi kerak, shuning uchun ular bilan ishlash oson.

3.- Ma'lumotlar qanchalik toza bo'lsa, shuncha yaxshi - katta ma'lumotlar to'plamini tozalash juda ko'p vaqt talab qilishi mumkin.

4.- Sizning maqsadingiz javob berish uchun savol / qarorga ega bo'lishi kerak, o'z navbatida ma'lumotlar bilan javob berish mumkin.

Ma'lumotlar bazasini qidiruvchilar

Google ma'lumotlar bazasini qidirish: Google Scholar qanday ishlashiga o'xshab, Dataset qidiruvi ma'lumotlar to'plamini qaerda bo'lishingizdan qat'i nazar, har qanday joyda, nashriyot saytida, raqamli kutubxonada yoki muallifning shaxsiy veb-sahifasida bo'lishga imkon beradi.

Kaggle: Turli xil qiziqarli ma'lumotlar to'plamiga tashqi hissa qo'shgan ma'lumotlarga oid sayt. Siz uning asosiy ro'yxatida barcha turdagi tok ma'lumot to'plamlarini topishingiz mumkin, bu reytinglarni tortib basketbol ma'lumotlari va hatto Sietl uy hayvonlari litsenziyalarigacha.

UCI Machine Learning Repository: Internetdagi eng qadimgi manbalardan biri va qiziqarli ma'lumotlarni qidirishda birinchi ajoyib to'xtash joyi. Ma'lumotlar to'plamlari foydalanuvchi tomonidan yaratilgan va shuning uchun har xil tozaligiga ega bo'lishiga qaramay, ularning aksariyati toza. Siz ma'lumotlarni to'g'ridan-to'g'ri UCI Machine Learning omboridan ro'yxatdan o'tmasdan yuklab olishingiz mumkin.

VisualData: Kategoriya bo'yicha kompyuter ko'rish ma'lumotlar to'plamini kashf eting, bu qidiruv so'rovlariga imkon beradi.

Ma'lumotlar to'plamlarini topish | CMU kutubxonalari: Huajin Wang, CMU to'plami tufayli yuqori sifatli ma'lumotlar to'plamini toping.

Umumiy ma'lumotlar to'plami

Davlat boshqaruvi ma'lumotlari

Data.gov: Ushbu sayt AQShning ko'plab davlat idoralaridan ma'lumotlarni yuklab olish imkoniyatini beradi. Davlat byudjetidan tortib maktabdagi ballargacha bo'lgan ma'lumotlar o'zgarishi mumkin. Shunga qaramay ogohlantiring: ko'pgina ma'lumotlar qo'shimcha tadqiqotlarni talab qiladi.

Oziq-ovqat muhiti atlasi: Mahalliy oziq-ovqat tanlovlari AQShdagi parhezga qanday ta'sir qilishi to'g'risida ma'lumotlarni o'z ichiga oladi.

Maktab tizimining moliyalashtirilishi: AQShda maktab tizimlarini moliyalashtirish bo'yicha so'rov.

Surunkali kasalliklar to'g'risida ma'lumot: AQShning turli hududlaridagi surunkali kasallik ko'rsatkichlari to'g'risidagi ma'lumotlar.

AQSh Ta'lim statistikasi bo'yicha milliy markazi: AQSh va butun dunyo bo'yicha ta'lim muassasalari va ta'lim demografiyasi to'g'risidagi ma'lumotlar.

UK Data Service: Buyuk Britaniyaning eng yirik ijtimoiy, iqtisodiy va aholiga oid ma'lumotlar to'plami.

Ma'lumotlar AQSh: AQSh ommaviy ma'lumotlarining vizual ko'rinishi.

Uy-joy ma'lumotlari

Boston uy-joy ma'lumotlar bazasi: Boston massasi hududida joylashgan uy-joy masalalari bo'yicha AQSh aholini ro'yxatga olish xizmati tomonidan to'plangan ma'lumotlar StatLib arxividan olingan va algoritmlarni aniqlash uchun barcha adabiyotlarda keng qo'llanilgan.

Geografik ma'lumotlar bazalari

Google-Landmarks-v2: Belgilarni aniqlash va olish uchun yaxshilangan ma'lumotlar to'plami. Ushbu ma'lumotlar to'plamida Wiki Commons hamjamiyati tomonidan qidirib topilgan va izohlanadigan dunyoning turli burchaklaridan olingan 200k + rasmlarning 5M + rasmlari mavjud.

Moliya va iqtisodiy ma'lumotlar bazalari

Quandl: Iqtisodiy va moliyaviy ma'lumotlar uchun yaxshi manba - iqtisodiy ko'rsatkichlar yoki aksiyalar narxini bashorat qilish uchun modellarni yaratish uchun foydalidir.

Jahon bankining ochiq ma'lumotlari: butun dunyo bo'ylab aholining demografiyasini, ko'plab iqtisodiy va rivojlanish ko'rsatkichlarini qamrab oluvchi ma'lumotlar to'plami.

Xalqaro valyuta jamg'armasi ma'lumotlari: Xalqaro valyuta jamg'armasi xalqaro moliya, qarz stavkalari, valyuta zaxiralari, tovar narxlari va investitsiyalar to'g'risidagi ma'lumotlarni e'lon qiladi.

Financial Times Market Ma'lumotlari: Dunyoning turli mamlakatlaridagi moliyaviy bozorlar, shu jumladan aktsiyalar, tovarlar va valyuta narxlari indekslari to'g'risidagi eng so'nggi ma'lumotlar.

Google Trends: Internetda qidiruv faoliyati va dunyo bo'ylab ommabop yangiliklarni o'rganish va tahlil qilish.

Amerika Iqtisodiy Assotsiatsiyasi (AEA): AQShning makroiqtisodiy ma'lumotlarini topish uchun yaxshi manba.

Mashin o'rganish bo'yicha ma'lumotlar bazalari:

Tasvirlash ma'lumotlar bazalari

xView: xView - bu rasmlarning eng katta ommabop ma'lumotlar to'plamlaridan biri. Unda butun dunyodagi murakkab sahnalardan olingan tasvirlar mavjud bo'lib, ular cheklangan maydonlar yordamida izohlanadi.

Labelme: izohlangan rasmlarning katta to'plami.

ImageNet: WordNet ierarxiyasiga muvofiq tashkil etilgan yangi algoritmlar uchun haqiqatdan ham haqiqatdagi rasmlar to'plami, unda yuzlab va minglab rasmlar ierarxiyaning har bir tugunini tasvirlaydi.

LSUN: Ko'plab yordamchi vazifalar bilan sahna tushunchasi (xonaning joylashishini taxmin qilish, aniqlikni taxmin qilish va hk).

MS COCO: Umumiy tasvirni tushunish va sarlavha qo'yish.

COIL100: Har xil burchaklarda 360 ta aylanishda tasvirlangan 100 xil ob'ektlar.

Vizual Genom: ~ 100K rasmlarni sarlavhasi bilan juda batafsil vizual bilimlar bazasi.

Google-ning ochiq rasmlari: Creative Commons qoshidagi "6000 dan ortiq toifalarga teglar bilan yorliqlangan" 9 million URL-rasmlardan iborat to'plam.

Yovvoyi tabiatdagi yorliqli yuzlar: inson tanasining 13000 yorliqli tasvirlari, yuzni aniqlashni o'z ichiga olgan ilovalarni ishlab chiqarishda foydalanish uchun.

Stenford itlarining ma'lumotlar to'plami: 20,580 rasm va 120 xil it zotlari toifalarini o'z ichiga oladi.

Bino ichida sahnani aniqlash: juda aniq ma'lumotlar to'plami va juda foydali, chunki sahnani aniqlash modellarining aksariyati "tashqarida" yaxshiroqdir. Ichki kategoriya 67 va 15620 rasmni o'z ichiga oladi.

Sentimentlarni tahlil qilish ma'lumotlar bazalari

Multidomain fikrlarni tahlil qilish bo'yicha ma'lumotlar to'plami: Amazon-dan mahsulot sharhlari mavjud bo'lgan biroz eski ma'lumotlar to'plami.

IMDB sharhlari: Ikki hissiyotni tasniflash uchun eski, nisbatan kichik ma'lumotlar to'plami 25000 ta film sharhlari.

Stenford Sentiment Treebank: Hislar izohlari bilan standart hissiyotlar to'plami.

Sentiment140: Mashhur ma'lumotlar to'plami, unda oldindan o'chirilgan o'chirildi.

Twitter US Airline Sentiment: AQSh aviakompaniyalarining Twitter-dagi ma'lumotlari 2015 yil fevral oyidan ijobiy, salbiy va neytral tvitlar deb tasniflanadi.

Tabiiy tillarni qayta ishlash ma'lumotlar bazalari

HotspotQA ma'lumotlar bazasi: Savollarga javob berishning yanada aniqroq tizimlarini yaratish uchun dalillarni qo'llab-quvvatlash uchun kuchli nazorat bilan, tabiiy, ko'p xopli savollarga javob beradigan savollarga javob beradigan ma'lumotlar to'plami.

Enron Dataset: Enron yuqori rahbariyatining elektron pochta ma'lumotlari, papkalarga joylashtirilgan.

Amazon sharhlari: Amazon 18 yildan beri 35 millionga yaqin sharhlarni o'z ichiga oladi. Ma'lumotlarga mahsulot va foydalanuvchi to'g'risidagi ma'lumotlar, reytinglar va oddiy matnni ko'rib chiqish kiradi.

Google Books Ngrams: Google kitoblaridan so'zlar to'plami.

Blogger Corpus: Blogger.com saytidan 681 288 bloglar to'plamlari to'plami. Har bir blogda kamida 200 marta ishlatiladigan inglizcha so'zlar mavjud.

Vikipediya havolalari ma'lumotlari: Vikipediyaning to'liq matni. Ma'lumotlar to'plamida 4 milliondan ortiq maqoladan deyarli 1,9 milliard so'z mavjud. Siz so'z, ibora yoki paragrafning bir qismi bo'yicha qidirishingiz mumkin.

Gutenberg elektron kitoblari ro'yxati: Project Gutenberg tomonidan nashr etilgan elektron kitoblarning sharhlangan ro'yxati.

Kanada Parlamentining Hansards matni: 36-Kanada parlamentining yozuvlaridan 1,3 million juft matn.

Jeopardy: "Jeopardy" viktorinasidagi 200 000 dan ortiq savollarning arxivi.

Rotten Tomatoes Reviews: 480,000 dan ortiq tanqidiy sharhlarning arxivi (yangi yoki chirigan).

Ingliz tilidagi SMS Spam To'plami: 5574 inglizcha SMS spam xabarlaridan iborat ma'lumotlar to'plami

Yelp Sharhlari: Yelp tomonidan chiqarilgan ochiq ma'lumotlar to'plami 5 milliondan ortiq sharhlarni o'z ichiga oladi.

UCI ning Spambase: Spam-filtrlar uchun foydali bo'lgan katta elektron pochta ma'lumotlari to'plami.

O'z-o'zini boshqarish (avtonom haydash) ma'lumotlar bazasi

Berkeley DeepDrive BDD100k: Hozirgi kunda o'zini o'zi boshqaradigan AI uchun eng katta ma'lumotlar to'plami. Kunning turli vaqtlari va ob-havo sharoitida 1100 soatlik haydash tajribasidan iborat 100000 ta videoni o'z ichiga oladi. Annotatsiya qilingan rasmlar Nyu-York va San-Fransisko tumanlaridan keladi.

Baidu Apolloscapes: 26 xil semantik elementlarni, masalan, avtomobillar, velosipedlar, piyodalar, binolar, ko'cha chiroqlari va boshqalarni belgilaydigan katta ma'lumotlar to'plami.

Comma.ai: 7 soatdan ko'proq avtomobil haydash. Tafsilotlar avtomobilning tezligi, tezlashishi, boshqarish burchagi va GPS koordinatalarini o'z ichiga oladi.

Oksfordning robotli avtomobili: Bir yil ichida Buyuk Britaniyaning Oksford shahri orqali shu yo'nalish bo'yicha 100 dan ortiq takrorlash. Ma'lumotlar to'plamida ob-havo, yo'l harakati va piyodalarning turli xil kombinatsiyalari, shuningdek qurilish va yo'l qurilishi kabi uzoq muddatli o'zgarishlar hisobga olingan.

Cityscape Dataset: 50 ta turli shaharlarda shahar ko'cha manzaralarini yozib beradigan katta ma'lumotlar to'plami.

CSSAD ma'lumotlar bazasi: Ushbu ma'lumotlar avtonom transport vositalarini idrok etish va navigatsiya qilish uchun foydalidir. Ma'lumotlar bazasi rivojlangan mamlakatlarda uchraydigan yo'llarga katta e'tibor beradi.

KUL Belgiyada Yo'l belgilari to'g'risidagi ma'lumotlar to'plami: Belgiyaning Flandriya mintaqasida joylashgan minglab aniq belgilangan yo'l belgilaridan 10000+ dan ortiq yo'l belgilari izohlari.

MIT AGE Laboratoriyasi: AgeLab-da to'plangan 1000+ soatlik ko'p sensorli haydash ma'lumotlar to'plamining namunasi.

LISA: Aqlli va Xavfsiz Avtomobillar Laboratoriyasi, UC San-Diego ma'lumotlar bazalari: Ushbu ma'lumotlarga yo'l belgilari, transport vositalarini aniqlash, svetoforlar va traektoriya naqshlari kiradi.

Bosch kichik svetofor ma'lumotlari to'plami: chuqur o'rganish uchun kichik svetoforlar uchun ma'lumotlar to'plami.

LaRa svetoforini tanib olish: svetoforlar uchun yana bir ma'lumotlar to'plami. Bu Parijda olingan.

WPI ma'lumotlar to'plamlari: svetoforlar, piyodalar va yo'laklarni aniqlash uchun ma'lumotlar to'plami.

Klinik ma'lumotlar

MIMIC-III: Hisoblash fiziologiyasi bo'yicha MIT laboratoriyasi tomonidan ishlab chiqilgan ma'lumotlar bazasi ~ 40,000 tanqidiy yordamga muhtoj bemorlarga oid sog'liqni saqlash ma'lumotlari. U demografiya, hayotiy belgilar, laboratoriya sinovlari, dori-darmonlar va boshqalarni o'z ichiga oladi.

Eslatma:

Agar siz odamlarga mashinalarni o'rganish, chuqur o'rganish, ma'lumotlar ilmi va shu kabi narsalarni tadqiq qilish va qo'llash uchun tavsiya etadigan yuqori sifatli, ommaviy ma'lumotlar to'plamlaridan xabardor bo'lsangiz, iltimos, ularni nima uchun kiritilishi kerakligi haqida ularni taklif qiling. quyidagi izohlarda yoki to'g'ridan-to'g'ri sstanford@mlmemoirs.xyz manziliga Stacy elektron pochta manziliga yuboring.

Agar sabab kuchli bo'lsa, biz ularni tahlil qilamiz va ularni ushbu ro'yxatga kiritamiz. Shuningdek, iltimos, izohlar bo'limida ushbu ma'lumotlar to'plamidan foydalanish bo'yicha tajribangizni bizga ayting.

Baxtli mashina o'rganish!

Minnatdorchilik:

Mualliflar AI hamjamiyatining a'zolariga ushbu maqolani tayyorlashda bildirgan tanqidlari va qo'llab-quvvatlaganlari uchun katta minnatdorchilik bildirmoqdalar.

DISCLAIMER: Ushbu maqolada aytilgan fikrlar muallif (lar) ga tegishli va Karnegi Mellon universiteti, Machine Learning Memoirs Inc. va muallif (lar) bilan bog'liq bo'lgan boshqa kompaniyalarning (to'g'ridan-to'g'ri yoki bilvosita) qarashlari emas. Ushbu yozuvlar yakuniy mahsulot sifatida mo'ljallanmagan, aksincha muhokama va takomillashtirish uchun katalizator bo'lib, hozirgi fikrlashning aksidir.

Tavsiya etiladigan hikoyalar:

Manbalar:

[1] https://cloud.google.com/public-datasets/

[2] https://guides.library.cmu.edu/c.php?g=844845&p=6191907

[3] https://www.forbes.com/sites/bernardmarr/2018/02/26/big-data-and-ai-30-amazing-and-free-public-data-sources-for-2018/# f3bdeb5f8aec

[4] https://github.com/takeitallsource/awesome-autonomic-vehicles#datasets

[5] https://medium.com/startup-grind/fueling-the-ai-gold-rush-7ae438505bc2

[6] https://www.dataquest.io/blog/free-datasets-for-projects/

[7] https://gengo.ai/datasets/the-best-25-datasets-for-natural-language-processing/

[8] https://github.com/awesomedata/awesome-public-datasets#machinelearning

[9] http://lib.stat.cmu.edu/datasets/

[10] Institutsional tadqiqot va tahlil | Umumiy ma'lumotlar to'plamlari | https://www.cmu.edu/ira/CDS/index.html

[11] Ma'lumotlar to'plamlari va loyiha takliflari | Andrew W. Mur | http://www.cs.cmu.edu/~awm/15781/project/data.html

[12] Ma'lumotlar to'plamlari | Mashinani o'qitish ombori | MIT | https://ocw.mit.edu/courses/sloan-school-of-management/15-097-predict-machine-learning-and-statistics-spring-2012/datasets/

[13] Ma'lumotlar to'plamlari | MIT Linkoln laboratoriyasi | https://www.ll.mit.edu/r-d/datasets

[14] Stenford yirik tarmoq ma'lumotlari to'plami | Stenford universiteti | https://snap.stanford.edu/data/

[15] Stenfordning umumiy ma'lumotlar bazasi | Stenford universiteti | https://snap.stanford.edu/data/

[16] Datalab | UC Berkli | http://www.lib.berkeley.edu/libraries/data-lab

[17] Ma'lumotlar bazalarini o'rganish | Berkeleydagi ma'lumot ilmi | https://datascience.berkeley.edu/open-data-sets/

[18] DeepDrive | UC Berkli | https://bdd-data.berkeley.edu/

Iqtibos:

Ilmiy kontekstlarga oid ma'lumotlar uchun ushbu ishga ishora qiling

Stenford va boshq., "Mashinalarni o'rganish va ma'lumot ilmi uchun eng yaxshi ommaviy ma'lumotlar to'plami", AIga qarshi, 2018

BibTex havolasi:

@misc {stanford_2018,
  title = {Mashinasozlik va ma'lumotlar ilmi bo'yicha eng yaxshi ommaviy ma'lumotlar to'plami},
  url = {https://towardsai.net/datasets},
  note = {https://towardsai.net/datasets},
  jurnal = {O'rta},
  noshir = {AI tomonga qarab},
  muallif = {Stenford, Steysi va Iriondo, Roberto},
  yil = {2018},
  oy = {Okt}
}