Agar siz ma'lumotlar uzatish faniga o'tayotgan ishlab chiquvchi bo'lsangiz, bu erda sizning eng yaxshi manbalaringiz

Aftidan, hamma hozirgi kunda ma'lumotlar doktori bo'lishni xohlaydi - doktorlardan talabalardan tortib, ma'lumot tahlilchilariga qadar, sizning kolledj xonadoshingizdan Linkedin bilan sizni "qahva tortishni" davom ettiradigan suhbatdoshingizga qadar.

Ehtimol, siz hech bo'lmaganda ma'lumotshunoslik bo'yicha ba'zi bir pozitsiyalarni o'rganib chiqishingiz va hiyla-nayrang nima ekanligini bilishingiz kerak edi. Ehtimol, siz Vikki Boykisning ma'lumotlari haqidagi maqolalarni ko'rganmisiz, hozirgi holatdan farq qiladi:

Aniqlanayotgan narsa shundaki, shov-shuv tsiklining oxirgi bosqichida ma'lumotlar ilmi asemptomatik ravishda muhandislikka yaqinlashmoqda va ma'lumotlar olimi oldinga siljishi kerak bo'lgan ko'nikmalar kamroq vizualizatsiya va statistikaga asoslangan va ko'proq an'anaviy kompyuter faniga mos keladi. …:
Birlikni sinash va uzluksiz integratsiya kabi tushunchalar jargonga va ML muhandisligida ishlaydigan raqamli olim tomonidan ishlatiladigan asboblarga tezda kirib bordi.

yoki Tim Hopper kabi tvitlar:

Qanday qilib dasturiy ta'minot muhandisi sifatida o'zingizning tajribangizni ma'lumot ilmi pozitsiyasida ishlatishingiz mumkinligi aniq emas. Boshqa savollaringiz ham bo'lishi mumkin:

Men nimani ustuvorlashtirishim kerak?

Ma'lumot olimi uchun farq qiladigan eng yaxshi amaliyotlar yoki vositalar bormi?

Mening hozirgi mahoratim ma'lumotlarga oid rolga o'tadimi?

Ushbu maqola ma'lumotlar olimi roli to'g'risida ma'lumot beradi va sizning ma'lumotingiz nima uchun ma'lumotshunoslikka yaxshi mos kelishi mumkinligini, shuningdek, siz ishlab chiquvchi sifatida ma'lumot ilmini rivojlantirish uchun qanday qadamlar qo'yishingizni aniqlab beradi.

So'nggi ma'lumotlarga oid rollarni ko'rishni xohlaysizmi? O'zingizning xabarlar qutingizdagi yangi ma'lumotlar ochish uchun ikki haftada bir marta ML Jobs Newsletter-ga obuna bo'ling.

Ma'lumotlar bo'yicha mutaxassis va ma'lumotlar muhandisiga qarshi

Avvalo, biz ikkita qo'shimcha rolni ajratib olishimiz kerak: Data Scientist va Data Engineer. Ushbu ikkala rol ham mashina o'rganish modellariga tegishli bo'lsa-da, ularning ushbu modellar bilan o'zaro munosabati, shuningdek, Data Scientists va ma'lumotlar muhandislari uchun talablar va ishlarning xarakteri juda farq qiladi.

Izoh: Mashinlarni o'qitish uchun ixtisoslashgan Data Engineer roli ish tavsiflarida 'Dastur muhandisi, Mashinani o'rganish' yoki 'Mashinalarni o'rganish muhandislari' sifatida ham namoyon bo'lishi mumkin.

Mashinalarni o'qitish jarayonining bir qismi sifatida, ma'lumot olimi mashinani o'rganish uchun qaysi usuldan foydalanishni aniqlash uchun zarur bo'lgan statistik tahlilni amalga oshiradi, so'ngra ushbu modellarni prototiplash va qurishni boshlaydi.

Mashinalarni o'qitish bo'yicha muhandislar ushbu modellashtirish jarayonidan oldin va keyin ma'lumotlar olimlari bilan tez-tez hamkorlik qilishadi: (1) ma'lumotlarni ushbu modellarga uzatish uchun ma'lumotlar uzatish tarmoqlarini qurish va (2) ushbu modellarga xizmat qiladigan muhandislik tizimini loyihalash, uzluksiz modellarning sog'lig'ini ta'minlash.

Quyidagi diagramma bu ko'nikmalarning uzluksizligini ko'rishning bir usuli:

Data Scientists va Data Engineers o'rtasidagi farq bo'yicha juda ko'p onlayn manbalar mavjud - tekshirib ko'ring.

  • Panoply: Ma'lumot muhandisi va ma'lumot olimi o'rtasidagi farq nima?
  • Tramplin taxtasi: Machine Living Engineer va Data Scientist
  • DavlatReilly: Ma'lumot muhandislari va ma'lumotlar olimi

Javobgarlikni rad etish uchun ushbu maqola asosan Data Scientist rolini Mashinani o'rganish muhandisligi tomon yo'naltiradi (ayniqsa, agar siz ikkalangiz ham xizmat qilishingiz kerak bo'lgan kichik kompaniyadagi mavqega ishonsangiz, tegishli). Agar siz qanday qilib ma'lumot muhandisi yoki mashinani o'rganish bo'yicha muhandis bo'lishga o'tishni bilmoqchi bo'lsangiz, bizga quyidagi izohlarda xabar bering!

Dasturchi sifatida sizning ustunligingiz

"Python-dagi ma'lumotlarga kirish" yoki Endryu Ng-ning Coursera kurslari kabi mashina o'rganish atrofidagi mashg'ulotlar jihozlarni sinovdan o'tkazish, modulli qayta ishlatiladigan kodni yozish, CI / CD yoki versiyalarni boshqarish kabi dasturiy ta'minot muhandisligidagi tushunchalar va eng yaxshi amaliyotlarni qamrab olmaydi. Hatto ba'zi ilg'or mashinalarni o'rganish bo'yicha guruhlar ham ushbu amaliyotni mashinalarni o'rganish kodi uchun ishlatmaydilar, bu esa bezovta qiluvchi tendentsiyaga olib keladi ...

Pit Varden ushbu tendentsiyani "Mashinada o'qishning reproduktiv inqirozi" deb ta'rifladi:

O'zgarishlarni kuzatish va modellarni noldan tiklash haqida gap ketganda, biz hali ham zulmat asrlarga qaytmoqdamiz. Juda yomon, ba'zida biz manbasiz boshqarmasdan kodlangan vaqtga qaytish kabi his etamiz.

Ma'lumot olimi lavozim yo'riqnomasida ushbu "dasturiy injiniring" ko'nikmalarini aniq ko'rmasligingiz mumkin, ammo bu ko'nikmalarni o'zingizning bilimlaringiz darajasida yaxshi anglab yetsangiz, ma'lumot olimi sifatida ishlashingizga 10 baravar yordam beradi. Bundan tashqari, ular sizning ma'lumotlar haqidagi suhbatingiz davomida ushbu dasturlash savollariga javob berish vaqti kelganida foydalanishga kirishadilar.

Boshqa tomondan qandaydir qiziqarli nuqtai nazarga ega bo'lish uchun Trey Causey-ning "Ma'lumot olimi uchun dasturiy ta'minotni ishlab chiqish ko'nikmalari" bo'limidagi ma'lumotlarga ko'ra, u olimlarga "yaxshiroq kod yozishni, dasturiy ta'minot ishlab chiqaruvchilari bilan yaxshiroq o'zaro ishlashni va natijada vaqtni tejashni o'rganishni tavsiya qiladi. bosh og'rig'i ”.

Ma'lumot ilmini rivojlantirish

Sizning dasturiy ta'minot muhandisligi bo'yicha yaxshi asosga ega bo'lganingiz juda yaxshi, ammo ma'lumotlar olimi bo'lish uchun keyingi qadam qanday? Josh Uillning ma'lumotlarga oid olimning ta'rifi haqidagi tviti hayratlanarli darajada aniq:

Agar siz ma'lumot olimi rolini yoki martaba orttirishni xohlasangiz, kutishingiz kerak bo'lgan mavzulardan birida: statistika. Ushbu keyingi bo'limda biz quyidagi uchun katta manbalarni qamrab olamiz:

  • MLga oid bilimlarni shakllantirish
  • Qurilish sohasidagi bilimlar
  • ML stekidagi asboblar
  • Ko'nikmalar va malaka

MLga oid bilimlarni shakllantirish

Ehtimollik va statistika bo'yicha nazariy bilimlarning kombinatsiyasini, shuningdek ma'lumotlar almashish yoki GPU / tarqatilgan kompyuterda ma'lumot modellarini o'rganish kabi amaliy ko'nikmalarni yaratish eng samarali hisoblanadi.

Olingan bilimlarni shakllantirishning bir usuli bu uni kompyuterda ishlashga qarshi yo'naltirishdir.

Mashinani o'rganish ish jarayonini soddalashtirilgan ko'rinishi
Skymind AI-dan ushbu batafsil ish jarayonini ko'rib chiqing

Bu erda siz mashinalarni o'rganish atrofida topishingiz mumkin bo'lgan eng yaxshi manbalarni sanab o'tamiz. Endryu Ng-ning Coursera kursi yoki Kaggle kabi juda mashhur manbalarni eslatib o'tmagan holda to'liq ro'yxatga ega bo'lish va bo'sh joyni tejash (va o'qish vaqti) mumkin emas edi.

Kurslar:

  • Fast.ai MOOC (Koderlar uchun amaliy chuqur o'rganish, koderlar uchun qirralarning qirralarini chuqur o'rganish, hisoblash chiziqli algebra va koderlar uchun mashinani o'rganishga kirish bo'yicha amaliy ko'nikmalarni o'rgatadigan bepul kurslar)
  • Xan akademiyasi
  • 3Blue1Brown va matematikmonk youtube kanali
  • Udacity kurslari (Python-da mashinalarni o'rganish uchun oldindan ishlov berish)
  • Tramplin AI / ML-ga tegishli trek

Darsliklar: * aksariyati uchun bepul PDF-fayllarni Internetda topishga harakat qildingiz *

  • Ehtimoliy dasturlash va xakerlar uchun Bayesiya usullari
  • Ehtimollar va tasodifiy jarayonlar
  • Statistik ta'lim elementlari
  • Chiziqli algebra to'g'ri bajarildi
  • Chiziqli algebraga kirish
  • Algoritm dizayni

Qo'llanmalar:

  • Google Developers Machine Learning qo'llanmasi
  • Mashinalarni o'qitish bo'yicha usta qo'llanmalar (yaxshi boshlang'ich uchun Python Machine Learning-da ushbu mini kursga qarang).
  • Pyimagesearch (kompyuterni ko'rish uchun)

Uchrashuvlar: * birinchi navbatda NYCga asoslangan *

  • Biz sevadigan hujjatlar
  • NYC sun'iy intellekt va mashinani o'rganish
  • DataCouncil.ai
  • NY Sun'iy intellekt
Boshlang'ich joyni bilish uchun, Wolf'ning "Ochiq manbali mashina o'qitish ustalari" ga vaqtingizni qanday qilib arzon mavzularni o'rganish va loyihalarni ustida ishlashni arzon narxlardagi masofada namoyish etish uchun qanday ajratish mumkinligini tekshirib ko'ring.

Qurilish sohasiga oid bilimlar

Agar sizda sog'liqni saqlash, moliyaviy xizmatlar, iste'mol tovarlari, chakana savdo va hk kabi ma'lum bir sohaga ega bo'lishni xohlayotgan bo'lsangiz, ma'lumotlar va mashinalarga taalluqli ushbu sohaning og'riqli nuqtalari va rivojlanishini ko'rib chiqish juda muhimdir. o'rganish.

Bitta ko'rsatma = vertikal o'ziga xos AI boshlang'ich veb-saytlarni skanerlash va ularning qiymat takliflarini qanday joylashtirishlarini va mashinalarni o'rganish qayerda o'ynashini ko'rishingiz mumkin. Bu sizga mashinalarni o'rganishning aniq yo'nalishlari bo'yicha g'oyalar va ishingizni namoyish qiladigan loyihalar uchun mavzularni taqdim etadi.

Biz bir misol orqali yurishimiz mumkin: sog'liqni saqlash sohasida ishlashni xohlayman deylik.

  1. Google tomonidan "sog'liqni saqlashni mashinada o'rganish" haqida tezkor qidiruv orqali, men ushbu ro'yxatni Healthcareweekly.com saytidan "2019 yilda kuzatiladigan eng yaxshi sog'liqni saqlash startaplari" da topdim.
Kalit so'z sifatida "sog'liqni saqlash" yordamida Crunchbase yoki AngelList-da tezkor qidiruvlarni amalga oshirishingiz mumkin

2. BenevolentAI ro'yxatiga kiritilgan kompaniyalarni misol qilib olaylik.

3. BenevolentAI veb-saytida shunday deyilgan:

Biz AI kompaniyamiz, giyohvand moddalarni erta aniqlashdan boshlab klinik rivojlanishning kech bosqichigacha. BenevolentAI hisoblash tibbiyoti va ilg'or AI quvvatini dori-darmonlarni ishlab chiqish, ishlab chiqish, sinovdan o'tkazish va bozorga chiqarish usulini o'zgartirish uchun ochiq tizimlar va bulutli hisoblash printsiplari bilan birlashtiradi.
Biz xastalikni yaxshiroq tushunish, yangi davolashni ishlab chiqish va mavjud davolash usullarini ko'p miqdordagi biotibbiyot ma'lumotlaridan yaxshilanish uchun Xayriya platformasini qurdik. Bizning texnologiyalarimiz olimlarga dori-darmonlarni tezroq va tejamkor ravishda ishlab chiqish imkoniyatini beradi deb ishonamiz.
Har 30 sekundda yangi tadqiqot qog'ozi nashr etiladi, ammo hozirda olimlar kasallikning sababini tushunish va yangi davolash usullarini taklif qilish uchun mavjud bilimlarning bir qismidan foydalanmoqdalar. Bizning platformamiz yozma hujjatlar, ma'lumotlar bazalari va eksperimental natijalardan olingan juda ko'p ma'lumotni "o'qiydi" va kontekstualizatsiya qiladi. Bu yolg'iz va murakkab ma'lumotlar manbalari bo'yicha cheksiz ko'proq ajratmalar va xulosalar chiqarishga qodir, bu esa inson uchun imkonsiz bo'lgan munosabatlar, tendentsiyalar va naqshlarni aniqlaydi va yaratadi.

4. Darhol ko'rasizki, BenevolentAI tabiiy tillarni qayta ishlash (NLP) dan foydalanadi va agar ular kasalliklar va davolanish tadqiqotlari o'rtasidagi munosabatlarni aniqlasa, ba'zi ma'lumot grafigi bilan ishlayapti.

5. Agar siz BenevolentAIning martaba sahifasini tekshirsangiz, ular Katta Mashinalarni O'rganish bo'yicha Tadqiqotchiga yollanishayotganini ko'rishingiz mumkin. Bu juda katta rol, shuning uchun u mukammal bir misol emas, lekin quyida so'raladigan ko'nikma va malakalarni ko'rib chiqing:

Eslatma:

  • tabiiy tilga ishlov berish, bilimlar jadvalini o'rganish, faol o'rganish va biokimyoviy modellashtirish
  • tuzilgan va tuzilmagan ma'lumotlar manbalari
  • bayesian modeliga yondashish
  • ML uchun zamonaviy vositalarni bilish

Bu sizga keyingi narsaga murojaat qilish uchun ba'zi qadamlarni qo'yishi kerak:

  • tuzilgan ma'lumotlar bilan ishlash
  • tuzilmagan ma'lumotlar bilan ishlash
  • bilimlar jadvalidagi munosabatlarni tasniflash (bu erda yaxshi manbani ko'ring)
  • bayesian ehtimoli va modellashtirish yondashuvlarini o'rganish
  • NLP loyihasi ustida ishlash (matnli ma'lumotlar)

Biz sizning qidiruvingiz orqali topadigan kompaniyalarga murojaat qilishingizni tavsiya etmaymiz, aksincha, ular mijozlarning og'riqli nuqtalarini, ularning kompaniyaning narx takliflarini va tadqiqotlaringizni boshqarish uchun o'zlarining tavsiflarida qanday ko'nikmalarni tavsiflashlarini ko'rib chiqing.

ML stekidagi asboblar

BenevolentAI Katta Mashinalarni O'rganish Tadqiqotchisining ish tavsifida ular "ML uchun zamonaviy vositalar, masalan, Tensorflow, PyTorch va hokazolarni bilishni" so'rashadi.

ML uchun ushbu zamonaviy vositalarni o'rganish dahshatli tuyulishi mumkin, chunki makon doimo o'zgarib turadi. O'quv jarayonini boshqariladigan qismlarga ajratish uchun, yuqoridagi tomondan mashina o'qitish jarayoni to'g'risida fikr yuritishni unutmang - "Ishning ushbu qismida menga qanday vosita yordam beradi?"

Ushbu mashinani o'qitish jarayonining har bir bosqichida qaysi vositalar yordam berishini ko'rish uchun Roger Huangning Docker, Comet.ml va dask-ml kabi vositalarni o'z ichiga olgan "Mashinalarni o'rganish stekkasiga kirish" ni tekshiring.

Taktik jihatdan aytganda, Python va R - bu olimlar tomonidan ishlatiladigan eng keng tarqalgan dasturlash tilidir va siz NumPy va SciPy va matplotlib kabi ma'lumotlar ilmi uchun mo'ljallangan qo'shimcha dasturlarga duch kelishingiz mumkin. Ushbu tillar kompilyatsiya qilinmasdan emas, balki talqin qilinadi, natijada ma'lumotlar olimi tilning nuanslariga emas, balki muammoga e'tibor qaratishga imkon beradi. Ob'ektga yo'naltirilgan dasturlashni o'rganish uchun ma'lumot tuzilmalarini sinflar sifatida qanday amalga oshirilishini tushunish uchun vaqt sarflash kerak.

Tensorflow, Keras va PyTorch kabi ML-ramkalarni topish uchun ularning hujjatlariga murojaat qiling va darsliklarni oxirigacha bajarishga harakat qiling.

Kunning oxirida siz ma'lumot to'plash va tortishish, mashina o'rganish tajribasini boshqarish va modellashtirish uchun ushbu zamonaviy vositalarni namoyish etadigan loyihalarni ishlab chiqayotganingizga ishonch hosil qilishni xohlaysiz.

Loyihalaringiz uchun ilhom olish uchun Edouard Harrisning "Sovuq boshlang'ich muammosi: kompyuterni o'qitish portfelini qanday yaratish kerak" maqolasini ko'rib chiqing.

Ko'nikmalar va malaka

Biz ushbu qismni oxirgi bo'lib qoldirdik, chunki u avvalgi bo'limlardagi ma'lumotlarning ko'p qismini to'playdi, lekin ma'lumotlar bo'yicha intervyu tayyorlashga qaratilgan. Ma'lumot olimi bilan suhbat davomida oltita asosiy mavzu mavjud:

  1. Kodlash
  2. Mahsulot
  3. SQL
  4. A / B sinov
  5. Mashinani o'rganish
  6. Ehtimollar (bu erda statistikaga nisbatan yaxshi ta'rifni ko'ring)

Ushbu mavzulardan biri boshqalarga o'xshamasligini sezasiz (Mahsulot). Ma'lumotshunoslik pozitsiyalari uchun texnik tushunchalar va natijalar, shuningdek biznes o'lchovlari va ta'siri haqida aloqa juda muhimdir.

Ma'lumot fanlari bo'yicha intervyu savollarining ba'zi foydali to'plamlari:
https://github.com/kojino/120-Data-Science-Interview- Savollar
https: //github.com/iamtodor/data-science-interview-questions-and-answers
https://hookedondata.org/red-flags-in-data-science-interviews/
https://medium.com/@XiaohanZeng/i-interviewed-at-five-top-compances-in-silicon-valley-in-five-days-and-luckily-got-five-job-offers-25178cf74e0f

Ma'lumotning "Ma'lumotni o'rganish intervyularidagi qizil bayroqlar" bo'limiga qo'shganimizni sezasiz - rollarda intervyu berganingizda, o'z ma'lumotlar infratuzilmasini barpo etayotgan yoki ular qanday ishlashi to'g'risida to'liq tushunchaga ega bo'lmagan kompaniyalarni uchratasiz. ularning ma'lumotlar ilmiy jamoasi katta kompaniya qiymatiga mos keladi.

Ushbu kompaniyalar hanuzgacha quyida joylashgan ehtiyojlar ierarxiyasiga ko'tarilishlari mumkin.

Monika Rogatining mashhur AI ehtiyojlari ierarxiyasi

Ma'lumot fanlari bo'yicha suhbatlar atrofida ba'zi taxminlarni bilish uchun men Tim Xopperning "Ko'p ma'lumotlarga oid ish uchun yuborilish haqidagi ba'zi fikrlar" maqolasini o'qishni tavsiya qilaman.

O'qiganingiz uchun rahmat! Umid qilamizki, ushbu qo'llanma sizga ma'lumot ilmi - bu martaba ekanligini va bu sayohatni qanday boshlashni tushunishga yordam beradi!

So'nggi ma'lumotlarga oid rollarni ko'rishni xohlaysizmi? O'zingizning kirish xabarlar qutingizdagi yangi ma'lumotlar ochish uchun ikki haftada bir marta ML Jobs Newslet-ga obuna bo'ling: