Ikkala dunyoning eng yaxshisi: chiziqli model daraxtlari

Chiziqli model daraxti (LMT) mening sevimli ML modellarimdan biridir - va yaxshi sabablarga ko'ra. Chiziqli model daraxtlari gibrid modelni yaratish uchun chiziqli modellarni va qaror daraxtlarini birlashtiradi, bu esa har ikkala modelga qaraganda yaxshiroq taxminlarni keltirib chiqaradi va yaxshiroq tushunishga olib keladi. Chiziqli model daraxti shunchaki tugunlarida chiziqli modellari bo'lgan qaror daraxti. Buni qarorlar daraxti algoritmi yordamida o'rganilgan tugunlarga ega bo'lgan tekis chiziqli model sifatida ko'rish mumkin. LMT-lar regressiya muammolari (masalan, populyatsion vositalar o'rniga chiziqli regressiya modellari bilan) yoki tasniflash muammolari (masalan, populyatsiya rejimlari o'rniga logistik regressiya bilan) uchun ishlatilishi mumkin.

Yuqorida aniqlik va izohlash o'qi bo'ylab mashina o'rganish modellarining evristik jadvali keltirilgan. Yuqoridagi o'ng kvadrant eng yaxshi hisoblanadi, ikkalasi ham yuqori ishlash va ham yuqori tarjimaga ega. Ushbu grafik shuni ko'rsatadiki, LMTlar har ikkisi ham talqin qilinadigan va juda yaxshi ishlashga qodir.

Mening odatiy savdo vositalarim Python, scikit-learn va pandalar. Ammo, scikit-learn LMT dasturini o'z ichiga olmaydi va men ochiq manbali versiyani topa olmadim, shuning uchun uni Convoy-da ishlatish uchun o'zim amalga oshirdim. Amalga oshirish ushbu postning pastki qismida joylashgan. Xabarning qolgan qismida biz LMT-ni yuqorida ramka uchastkasida keltirilgan boshqa modellar bilan taqqoslaymiz.

LMT va boshqalar

Quyida biz ochiq manbali auto-mpg ma'lumotlar bazasi bilan LMT-larni namoyish qilamiz. Auto-mpg ma'lumotlar bazasi 1970-1980 yillardagi 398 ta transport vositasining yoqilg'i sarfiga taalluqlidir. Avtoulovning og'irligi, ishlab chiqarilgan yili, ot kuchi, tezlashishi, dvigatelning siljishi va silindrlarning soniga qarab biz yonilg'i sarfini (mpg) taxmin qilamiz. Ushbu yozuvning pastki qismida bog'langan jupyter daftarida ushbu ma'lumotlar va namunaviy binolarning to'liq ma'lumotlari keltirilgan. Natijalar bu erda umumlashtiriladi.

Yuqoridagi jadval ushbu ma'lumotlar bazasida mpg ni bashorat qilishda to'rt xil algoritmlarning ishlashini ko'rsatadi. Gradient Boosting Daraxtlari (GBT) eng yaxshi natijalarni ko'rsatishi ajablanarli emas, chunki bu algoritm ko'pincha eng yaxshi bashoratli ishlashga olib keladi. Biroq, LMT juda yaxshi ishlaydi va quyida ko'rib chiqamiz, uning boshqa foydalari ham bor. Chiziqli regressiya va bitta qaror daraxti qolgan ikkita modelga nisbatan yomon ishlaydi.

LMT va GBT

MSE bilan bashoratli ishlashda GBT juda yaxshi ish qildi. Keyingi savol: avtomashinalarning gaz kilometrini nima boshqaradi? Biz GBT modelida o'zgaruvchan ahamiyatga ega bo'lgan narsaga sho'ng'iymiz va quyidagilarga ega bo'lamiz:

GBT ning o'zgaruvchan ahamiyati atributi og'irlik eng muhim xususiyat ekanligini va undan keyin ot kuchi, tezlashuv, joy almashtirish va model_year ekanligini aytadi. Afsuski, GBT bizga raqamli kattalik yoki ularning ta'siri belgisi va bu xususiyatlarning o'zaro bog'liqligi haqida hech narsa aytmaydi.

LMT jami 3 barg tuguniga atigi 2 ta bo'lakni ishlab chiqaradi. U dastlab ot kuchi = 78 ga, ot kuchi> = 78 ga esa = 97 ot kuchiga bo'linadi. Biz uchta pastki qismni past kuch, o'rta quvvat va yuqori quvvat deb ataymiz.

Chiziqli model daraxtidan keladigan og'irliklarni o'rganish, biz boshqa modellarga qaraganda yoqilg'i tejashga nima ta'sir qilishini juda farq qiladi. Bizning LMT tomonidan aniqlangan turli subpopulyatsiyalarda ba'zi o'xshashliklar mavjud bo'lsa-da, biz bir qator muhim farqlarni ko'rmoqdamiz.

Ta'kidlash joizki, xususiyatlar past, o'rta va yuqori quvvat guruhlari o'rtasida taqsimlanish va turlicha farq qiladi. Quyidagi grafikaga qarang va ularning taqsimlanishini yuqorida ko'rsatilgan har bir guruh uchun import xususiyatlariga nisbatan taqqoslang. Turli xil taqsimotlarni taqqoslashni osonlashtirish uchun har bir ustun uchun x o'qi mahkamlangan.

Barcha transport vositalari uchun og'irlik katta salbiy ta'sir qiladi, bu mantiqiy ahamiyatga ega, chunki yoqilg'i tejamkorligi qancha ko'p bo'lsa, transport vositasining harakatlanishi kerak. Model yili barcha transport vositalari uchun katta ijobiy ta'sir ko'rsatadi; bu davrda dvigatel texnologiyasi sezilarli darajada yaxshilandi. Bular bitta chiziqli modelda ko'rib turganimizga o'xshash. Shu bilan birga, ushbu ta'sirlarning kattaligi bizning LMT aniqlagan subpopulyatsiyalar bo'ylab o'zgaradi va dvigatel hajmi va kuchi turli subpopulyatsiyalarda ta'sirning turli xil kattaliklariga ega.

Kam quvvatli avtoulovlar uchun model yili katta ijobiy ta'sir ko'rsatadi va biz ushbu aholida yoqilg'i tejash vosita almashinuviga juda sezgir ekanligini ko'ramiz.

O'rta quvvat toifasida og'irlik yana katta salbiy ta'sir ko'rsatmoqda, ammo yoqilg'i tejash model yiliga nisbatan o'rtacha darajada oshadi.

Yuqori quvvatli transport vositalariga og'irlik unchalik ahamiyatsiz ta'sir qiladi va xuddi shunday model yiliga to'g'ri keladi. Ushbu populyatsiyada dvigatel hajmi va quvvat xususiyatlari vazn va model yiliga taqqoslaganda ko'proq mos keladi. Ushbu populyatsiyada dvigatelning o'lchamlari boshqa populyatsiyalarga qaraganda ancha o'zgaruvchan, shuning uchun dvigatel hajmi bashoratga, koeffitsientlar bizga aytgandan ham ko'proq ta'sir qiladi.

LMT foydalari haqida qisqacha ma'lumot

Lineer Model Daraxtlar haqidagi so'nggi so'zlarim uchun ularning foydalari haqida qisqacha ma'lumot:

  • LMTs kuchli talqin qilinadi. Ma'lumotlaringizdagi chiziqli va chiziqli bo'lmagan munosabatlar haqida tushuncha oling. Bu boshqa modellashtirish farazlari yoki mahsulot g'oyalariga olib kelishi mumkin.
  • LMTlar turli xil xatti-harakatlar bilan subpopulyatsiyalarni aniqlaydilar.
  • LMTs chiziqli munosabatlarni osongina aniqlashi va ulardan foydalanishi mumkin. Daraxtga asoslangan modellar (shu jumladan tasodifiy o'rmonlar va kengaytirilgan daraxtlar) chiziqni o'rganish uchun ko'p kuch sarflaydi, chunki ular har bir barg tugunidagi barcha kuzatuvlarning o'rtacha ko'rsatkichini oldindan aniqlab, doimiy ravishda doimiy modelga mos keladi. Shuning uchun ular chiziqli munosabatlarni taxmin qilish uchun ko'plab bo'linishni talab qiladi. Umumiy chiziqli munosabatlarning ba'zi misollariga quyidagilar kiradi: mijozlar bu oyni sarflashlari, ehtimol ular o'tgan oyni sarflashlari funktsiyasi, bu oydagi sotuvlar, o'tgan oy sotuvlar funktsiyasi, yuk tashish hajmida, yuk tashishda, $ / mil.
  • Tugunning minimal o'lchamini va daraxtning maksimal chuqurligini optimallashtirish uchun o'zaro kelishuvdan foydalanib, ortiqcha ishlov berishdan (yuqori farq) qochish mumkin.
  • LMTlar kam miqdordagi ma'lumotlar bilan yaxshi ishlashi mumkin (ko'plab nooziq modellarga qaraganda)
  • LMT ko'pincha ishlab chiqarish tizimida amalga oshirish oson bo'lgan sodda modellarni ishlab chiqaradi, hatto ushbu tizim siz modellashtirish uchun foydalanadigan tilda yozilmagan bo'lsa ham.