Ma'lumot olimi uchun beshta eng yaxshi ramka

Ma'lumotlar ilmining karerasini boshlaganingizda sizga yordam beradigan ko'plab vositalar mavjud. Ushbu vositalarning ba'zilari deyarli har bir yangi loyihada siz ulardan foydalanasiz. Ushbu postda biz sizga ma'lumot ilmi dunyosiga kirishga yordam beradigan beshta vosita va texnologiyalarni taqdim etamiz va ular mashinalarni o'rganish yoki katta ma'lumotlar bilan bog'liq muammolarga yordam beradi.

Scikit-o'rganish

Scikit-learn - bu Python foydalanuvchilariga doimiy interfeys orqali umumiy algoritmlar to'plamini taqdim etish maqsadida juda mashhur va juda yaxshi hujjatlashtirilgan ochiq manbali mashina bilan ishlaydigan algoritmlar kutubxonasi. Bu tez yangi modellar, tezlikni va xotira samaradorligini oshirish va ma'lumotlarning katta imkoniyatlari bilan rivojlanib borayotgani sababli, tezda mashinani o'rganish uchun juda muhim asosga aylanadi. Garchi skikit-o'rganish odatda kichikroq ma'lumotlar uchun ishlatilsa ham, u yadrodan tashqari tasniflash, regressiya, klasterlash va dekompozitsiya uchun munosib algoritmlar to'plamini taklif etadi.

2018 yil oktabr holatiga ko'ra kutilayotgan o'rtacha ish haqi yiliga qariyb $ 140,000 ni tashkil etadi, Amazon, IBM kabi yirik nomlar, shu qatorda ixtisoslashgan ma'lumot olimlarini faol ravishda qidirmoqda.

Pandalar

Pandas Python paketi bo'lib, "etiketli" va "aloqador" ma'lumotlar bilan sodda va intuitiv tarzda ishlaydi. Pandas - ma'lumotlarni tezkor va oson boshqarish, to'plash va vizuallashtirish uchun mo'ljallangan, ma'lumotlar almashish uchun mukammal vosita. Pandasni tasavvur qilishning oson yo'li - bu Python-ning Microsoft Excel-ning versiyasi sifatida qarash.

Pandas moliya, statistika, ijtimoiy fanlar va muhandislik sohalarida ma'lumotlarning amaliy tahlili bilan ajralib turadi. Pandas to'liq bo'lmagan, tartibsiz va yorliqsiz ma'lumotlar bilan yaxshi ishlaydi (ya'ni, haqiqiy dunyoda duch kelishingiz mumkin bo'lgan ma'lumotlar turi) va ma'lumotlar to'plamlarini shakllantirish, birlashtirish, o'zgartirish va kesish vositalarini taqdim etadi. Ko'pgina tahlilchilar va Python mutaxassislari ish joylari Pandalarni yaxshi biladigan odamlarni qidiradilar.

TensorFlow

Google tomonidan bir necha yil oldin ishlab chiqilgan TensorFlow, ma'lumotlar oqimi grafigi yordamida raqamli hisoblash uchun ochiq manbali dasturiy ta'minot kutubxonasi. Grafikdagi tugunlar matematik operatsiyalarni, grafik qirralari esa ular o'rtasida bog'langan ko'p o'lchovli ma'lumotlar qatorlarini (tensorlarni) anglatadi.

TensorFlow, shubhasiz, eng yaxshi chuqur o'rganish tizimlaridan biri bo'lib, uni Airbus, Twitter, IBM va boshqalar kabi bir necha gigantlar asosan yuqori moslashuvchan va modulli tizim arxitekturasi tufayli qabul qilishgan. Albatta, u Google-da ishlab chiqilganligini hisobga olsak, muhandislar uni doimiy ravishda yangilab turishadi va qo'shimcha funktsiyalarni qo'shishadi. Tez orada TensorFlow bug 'yo'qotishini kutmang.

Apache Kafka

Apache Kafka - bu real vaqtda real vaqt rejimida kuniga trillionlab hodisalarni ko'rib chiqishga qodir bo'lgan ochiq manbali tarqatiladigan oqim platformasi. Dastlab xabarlar navbati sifatida paydo bo'lgan Kafka, taqsimlangan jurnali abstraktsiyasiga asoslangan. 2011 yilda LinkedIn tomonidan ishlab chiqilgan va ochilganidan beri Kafka tezda xabar almashish tizimidan to'laqonli oqim platformasiga o'tdi.

Kafka ko'plab brendlarga, shu jumladan Netflix, Airbnb, LinkedIn va boshqalarga vakolat beradi. Bu juda mashhur platforma, chunki u bir nechta ichki platformalardan ulkan hajmdagi ma'lumotlarni taqdim etish va ularga kirish imkoniyatini beradi. Buni turli xil ma'lumotlardan foydalanadigan bir nechta platformalar va jarayonlarga xizmat qiladigan ma'lumotlar almashinuvi omili deb o'ylang.

Jupyter daftarlari

Jupyter daftarchasi, ma'lumotlarga oid loyihalarni interfaol ravishda ishlab chiqish va taqdim etish uchun juda kuchli vositadir. Daftar kodni va uning natijalarini vizualizatsiya, rivoyat matni, matematik tenglamalar va boshqa boy axborot vositalarini birlashtirgan yagona hujjatga birlashtiradi. Intuitiv ish oqimi iterativ va tezkor rivojlanishni qo'llab-quvvatlaydi va daftarlarni zamonaviy ma'lumotlar ilmi, tahlil qilish va tobora ko'proq ilm-fan markazida tobora ommalashib borayotgan tanlovga aylantiradi.

Jupyter loyihasi katta hissa qo'shuvchilarning birlashmasidan, ko'plab kompaniyalar (Rackspace, Microsoft, Continuum Analytics, Google, Github) va universitetlar (UC Berkeley, Jorj Vashington universiteti, NYU) bilan sheriklik qilishdan foyda oladi. o'sib borayotgan.

Bonus: SQL

Dunyoda eng ko'p ishlatiladigan ma'lumotlar bazasi tilini eslatib o'tmaganimizdan xursand bo'lamiz. SQL - ma'lumotlar bazasini boshqarish tizimlari uchun standart til. SQL bayonotlari ma'lumotlar bazasida ma'lumotlarni yangilash yoki ma'lumotlar bazasidan ma'lumotlarni olish kabi vazifalarni bajarish uchun ishlatiladi.

2018 yil oktabr holatiga ko'ra SQL-ni biladigan odamlarni qidiradigan 100000 dan ortiq ish joylari mavjud. Bu SQL ishlab chiquvchilardan tortib marketing bo'yicha mutaxassislargacha o'zgaradi - sanoat va roldan qat'i nazar, tahlil muhimdir. Kompaniyalar har kuni ma'lumotlar olimlarini qidirayotganligi sababli, ularning soni faqat eksponent sifatida oshadi.

Xulosa

Sizning vaqtingiz cheklangan manbadir, ushbu postda biz oltita foydali vositalar va texnologiyalarni eslatib o'tamiz, ular sizga bilishingiz uchun foydali bo'ladi deb umid qilamiz. Scikit-learn va pandalar - bu mashina orqali o'qishni tekshirish uchun ajoyib piton kutubxonalari. TensorFlow tizimi sizni grafik hisoblash bilan tanishtiradi va ushbu kutubxonadan foydalanib neyron tarmoqlarni o'rganish va amalga oshirishga imkon beradi. Apache Kafka ma'lumotlar muhandisligi muammolari uchun foydali bo'ladi. Jupyter noutbuklari mashinalarni o'rganish modellarini ishlab chiqishda kodni sinab ko'rish va o'zaro aloqada bo'lishga imkon beradi. Va SQL kodini o'rganish - siz foydalanadigan tarkibiy ma'lumotlarni integratsiya qilish va so'rashning ajoyib usuli.

- - - - - - - - - - - - - - - - - - - - -

OpenDataScience.com saytida ko'proq ma'lumotlarga oid maqolalarni, shu jumladan boshlang'ichdan yuqori darajagacha bo'lgan darslik va qo'llanmalarni o'qing! Bu erda bizning haftalik nashrimizga obuna bo'ling va har payshanba kuni eng so'nggi yangiliklarni oling.