Tavsiya tizimlarini baholash: biznesingiz uchun eng yaxshisini tanlash

So'nggi yillarda elektron tijorat va onlayn ommaviy axborot vositalarining cheksiz kengayishi bilan, bugungi kunda tobora ko'proq dasturiy ta'minot sifatida xizmat ko'rsatish (SaaS) tavsiya etuvchi tizimlari (RS) mavjud. 5 yil oldingi holatdan farqli o'laroq, RSlardan foydalanish o'zlarining RS-larini qurishda katta kompaniyalarning imtiyozi bo'lganida, ma'lumot olimlari jamoasiga juda katta byudjetni sarflagan holda, bugungi kunda SaaS echimlarining mashhurligi ushbu tavsiyani hatto kichik va o'rta uchun ham ishlatishga imkon beradi. xususiy kompaniyalar. SaaS RS-ni qidirishda bunday kompaniyalarning CTO-lariga duch keladigan savol: qaysi echim eng yaxshi? Agar sizda hali ham RS yo'q bo'lsa yoki hozirgi RS sizni qoniqtirmasa, qaysi echimni tanlashingiz kerak?

Ushbu maqolada men ikkita yondashuvni ko'rib chiqaman:

  • Akademik dunyoda avtoulovlarni baholash (shuningdek, Netflix mukofoti), past prognozlash xatolarini qidirish (RMSE / MAE) va yuqori darajada Eslatish / Katalog qamrovi. TLDR; shunchaki ushbu choralar mavjudligini biling va siz ulardan foydalanishni xohlamaysiz. Agar men sizni qiziqtirmoqchi bo'lsangiz, men baribir ularga qisqacha ma'lumot beraman.
  • Biznes olamida onlayn baholash, A / B-test, CTR, CR, ROI va QA-dan o'tib, yuqori darajadagi mijozlar umr ko'rish qadriyatlarini (CLV) qidirish. Agar biznesingizni rivojlantirishga qaratilgan tavsiyalarni sinchkovlik bilan ko'rib chiqsangiz, ushbu bo'limni o'qing.

Oflayn dunyo = Akademiklar buni qanday qilishadi?

RSlar o'nlab yillar davomida ilmiy tadqiqotlar bilan shug'ullanishgan. Turli xil algoritmlarni kiritadigan ko'plab ilmiy maqolalar mavjud va algoritmlarni taqqoslash uchun ular akademik tadbirlardan foydalanadilar. Biz ushbu tadbirlarni oflayn tadbirlar deb ataymiz. Siz hech narsa ishlab chiqarmaysiz, shunchaki qum qutisidagi algoritmlar bilan o'ynaysiz va ularni ushbu tadbirlarga muvofiq sozlang. Men shaxsan ushbu chora-tadbirlarni ko'p tadqiq qilganman, ammo bugungi nuqtai nazarimga ko'ra, ular tarixdan oldinroq. Ammo 2006 yil o'rtalarida ham mashhur Netflix mukofotida RMSE (ildizning o'rtacha kvadratik xatosi) deb nomlangan sof akademik o'lchov ishlatilgan.

Qanday qilib u qanday ishlashini qisqacha tushuntirish uchun, foydalanuvchilar sizning mahsulotlaringizni aniq yulduzlar soni bilan baholaydilar (1 = kuchli yoqtirmaslik, 5 = kuchli kabi) va sizda bu kabi reytinglar mavjud (yozuvchilar X deb nomlangan element X deb aytiladi) Y yulduzlari bilan) o'tmishdan. Split validatsiya deb nomlangan usul qo'llaniladi: siz ushbu reytinglarning faqat bir qismini olasiz, 80% (poezdlar to'plami deb ataladi) deb aytasiz, ularga RS tuzasiz va keyin RSdan 20% baholaringizni bashorat qilishni so'rang. yashirin (sinov to'plami). Shunday qilib, sinov foydalanuvchisi biron bir narsani 4 yulduz bilan baholagan bo'lishi mumkin, ammo sizning modelingiz 3,5 ni taxmin qiladi, shuning uchun bu reytingda 0,5 xatosi bor va RMSE aynan shu joydan keladi. Keyin siz barcha testlardagi xatolarning o'rtacha qiymatini formuladan foydalanib hisoblaysiz va 0.71623 ning yakuniy natijasini olasiz. BINGO! Sizning RS qanchalik yaxshi (yoki aniqrog'i, yomon). Yoki siz har xil formuladan foydalanishingiz va katta xatolarni (haqiqiy 4 yulduz, bashorat qilingan 1 yulduz) ko'paytirmaydigan MAE (mutlaq xato) ga ega bo'lishingiz mumkin, shunda siz faqat 0.6134 olishingiz mumkin.

Bu erda bitta kichik kamchilik shundaki, bunday ma'lumotlar real dunyoda deyarli mavjud emas yoki hech bo'lmaganda unchalik ko'p emas.

Foydalanuvchilar juda dangasa va ular hech narsani baholay olmaydilar. Ular shunchaki veb-sahifa ochishadi va agar ular ko'rganlarini yoqtirishsa, sotib olishlari yoki iste'mol qilishlari mumkin; agar u so'nsa, ular kelganiday tez ketishadi. Shunday qilib, sizda faqat veb-server jurnalida yoki xaridlar ma'lumotlar bazasida noma'lum reytinglar mavjud va ularda yulduzlar soni xatosini o'lchash mumkin emas, chunki yulduzlar yo'q. Sizda faqat +1 = foydalanuvchi tafsilotlarni ko'rgan yoki mahsulotni sotib olgan va odatda boshqa hech narsa yo'q. Ba'zan ularni Facebookning "Yoqdi" tugmachasidan bilgan bir martalik reytinglar deyishadi: reyting ijobiy yoki noma'lum (foydalanuvchi tarkib mavjudligini bilmasligi mumkin).

Hali ham SaaS tavsiya qiluvchilarni o'zingizning oflayn taqqoslashingiz uchun bunday ma'lumotlarda split-tekshirishni ishlatishingiz mumkin. Aytaylik, siz o'zingizning xaridlar ma'lumotlar bazasini 80% foydalanuvchilarning tarixini RS-ga yuborasiz va keyin har bir foydalanuvchi uchun bir nechta xaridlarni yuborib, qolganlarini taxmin qilishni so'raymiz. Siz sotib olingan 4 ta narsani yashirib qo'yishingiz mumkin va RS-dan 10 ta mahsulotni so'rang. Tavsiya etilgan 10-da yashirilgan 4 ning qanchasi paydo bo'lganiga qarab, siz ushbu foydalanuvchi uchun 0%, 25%, 50%, 75% yoki 100% aniqlikni olishingiz mumkin. Va bu aniqlik Eslatma deb nomlanadi. Siz uni butun sinov to'plamingiz va TADAAA bo'yicha o'rtacha qiymatga keltirishingiz mumkin! Natija - 31.4159%, bu sizning RS qanchalik yaxshi.

Endi rostini aytsam, Eslatma RMSE-ga qaraganda ancha sog'lom bo'lsa ham, u hali ham ko'p azoblarni keltirmoqda. Sinov foydalanuvchisi bir xil teleseriallarning 20 ta epizodini ko'rganligini ayting va siz unga nisbatan eslashni o'lchaysiz. Shunday qilib, siz # 18-20 epizodlarini berkitasiz va RS-dan ularni №1-1 dan bashorat qilishni so'rang. Bu juda oson ish, chunki epizodlar bir-biri bilan chambarchas bog'liq, shuning uchun siz 100% esga tushasiz. Xo'sh, sizning foydalanuvchingiz biron bir yangilik topdimi? Unga umuman bunday tarkibni tavsiya qilishni xohlaysizmi? Va baribir sizga eng yuqori biznes qiymatini keltiradigan narsa nima? Onlayn do'konda ayting, alternativalarni yoki aksessuarlarni tavsiya qilmoqchimisiz? Siz eslash bilan juda yupqa muz ustida ketayotganingizni his qilishingiz kerak.

Va yana bir sirni aytaman: ba'zi hollarda (har doim ham emas, balki sizning biznesingizga bog'liq!), Adolatli strategiya bo'lib, faqat dunyodagi eng taniqli buyumlarni (a.k.a. bestsellerlar) eslab qolish uchun tavsiya etiladi. Shunday qilib, bu erda Katalog qamrab olinadi. Sizga sodiq qolish uchun foydalanuvchilarga yangi va yangi tarkiblarni kashf etishlarini xohlaysizmi? Keyin iloji boricha ko'proq turli xil narsalarni tavsiya qilishni xohlashingiz mumkin. Oddiy holatlarda, Katalog qoplamasini hisoblash uchun, shunchaki sinov foydalanuvchilaringizni olib boring, ularning har biri uchun tavsiyalarni so'rang va barcha tavsiya etilgan narsalarni bir joyga to'plang. Siz turli xil narsalarning katta to'plamini olasiz. Ushbu to'plamning hajmini butun katalogingizdagi elementlarning umumiy soniga ajrating va siz ... 42.125% olasiz! Bu sizning RS tavsiya qilishingiz mumkin bo'lgan narsalarning bir qismi.

Endi bestseller modelini ko'rib chiqing. Bu juda yaxshi esga olinishi mumkin, ammo deyarli nol qamrov (5 ta doimiy element?). Va tasodifiy tavsiya qiluvchini oling. Bu deyarli nol eslatma va 100% qamrovga ega. Ehtimol, siz biron bir murosaga kelishni xohlarsiz.

Yuqoridagi rasm mening (hozir juda eskirgan) dastlabki tadqiqotlarimdan kelib chiqadi. Siz Recall-Coaching tekisligida chizilgan 1000 ga yaqin RS modellarini ko'rishingiz mumkin. Geki, shunday emasmi? :) Eng yaxshisini tanlashda siz bosh aylanasiz, ammo umid qilamanki, ba'zi o'ng tomonlarni ("Pareto-optimal front") tanlash yaxshi tanlov bo'lishi mumkin.

Oflayn hisobingizni yanada mustahkam qilish uchun split-tasdiqlash o'rniga o'zaro faoliyat tekshirish (Xval) dan foydalanishingiz mumkin. O'z foydalanuvchilaringizni shunchaki 10 qismga bo'ling va bir qatorga o'ting: har doim modelni yaratish uchun 9 marta katlaning va qolgan 1 marta tekshiruvdan foydalaning. O'rtacha natijalar ushbu 10 ta yugurishda.

Endi siz shunday deyishingiz mumkin: mening biznesim haqida nima deyish mumkin? Eslatma va qamrovni o'lchash yaxshi bo'lishi mumkin, ammo ular mening KPI bilan qanday bog'liq?

Va siz haqsiz. SaaS RS-ni X o'qiga va $ o'qiga Y-o'qiga qo'yish uchun biz oflayn dunyoni tark etib, ishlab chiqarishga kirishimiz kerak!

Onlayn dunyo: aqlli CTOlar misollariga amal qiling

Yuqoridagi bo'lim ishlab chiqarishga kirishdan oldin RSning sifatini o'lchash haqida edi, endi ishbilarmon KPI haqida gapirish vaqti keldi.

Oflayn baholashda biz odatda split-tekshirishni ishlatamiz, onlayn baholashda A / B-test (yoki ko'p darajali test) bugungi kunda eng mashhur yondashuv hisoblanadi. Siz bir nechta turli xil RSlarni birlashtirishingiz, foydalanuvchilaringizni guruhlarga bo'lishingiz va RSlarni kurashga kiritishingiz mumkin. Bir oz qimmatga tushadi, chunki u sizning rivojlanish resurslaringizni iste'mol qiladi, shuning uchun siz integratsiyalashning taxminiy qiyinchiliklari va kelgusi sozlash / sozlash xarajatlarini o'zingizning chora-tadbirlaringizdan biri sifatida foydalanishingiz mumkin, bu a-priori nomzodlar sonini kamaytirishi mumkin.

Endi siz integratsiyaga tayyor ekanligingizni va onlayn foydalanuvchilaringizni A / B-test guruhlariga bo'lishingiz mumkinligini aytamiz. Siz o'zlarining UID cookie-fayllarini xeshlashingiz yoki buning uchun biron bir vositani ishlatishingiz mumkin (masalan, VWO, Optimizely yoki hatto GA-lar, garchi oxirgi variant biroz og'riqli bo'lsa ham). Eksperimentni amalga oshirish uchun siz o'zingizning veb-saytingiz / ilovangizda tavsiyalarni sinab ko'rish uchun bitta yaxshi joyni aniqlab olishingiz kerak, chunki siz tajriba bosqichida barcha nomzod nomzodlarni to'liq integratsiyalashishni xohlamasligingiz kerak, shunday emasmi? Agar sizda kichik tirbandlik bo'lsa, tanlangan joy sezilarli natijalarga erishish uchun etarlicha ko'rinadigan bo'lishi kerakligini yodda tuting. Aksincha, agar sizda katta trafik bo'lsa, siz o'zingizni va qolgan 80% foydalanuvchilarni xavfsizligini saqlab qolish uchun testlarning 20 foizini sinovdan o'tkazish uchun konservativ strategiyani tanlashingiz mumkin. to'liq singan bo'ling va g'alati narsalarni tavsiya eting.

Hammasi joyida va ishlayapti deylik. Nimani o'lchash kerak? Eng oson o'lchovlar - bu bosish tezligi (CTR) va tavsiyalarning konversiya darajasi (CR).

N tavsiyalar to'plamini 20 marta namoyish etdi, shundan foydalanuvchi kamida bitta tavsiya etilgan narsadan bittasini bosdi? Keyin sizning CTR 15% ni tashkil qiladi. Darhaqiqat, bosish juda yaxshi, lekin u foydalanuvchini batafsil sahifaga olib borgan va siz keyin nima bo'lganini bilishingiz mumkin. Foydalanuvchi haqiqatan ham tarkibni qiziq deb topdimi? U butun videoni tomosha qilganmi, qo'shiqni to'liq tinglaganmi, maqolani to'liq o'qiganmi, ish taklifiga javob berdimi, mahsulotni aravaga joylashtirdimi va aslida buyurtma berdimi? Bu sizning aylantirish tezligi = sizni va sizning foydalanuvchingizni baxtli qilgan tavsiyalar soni.

Masalan: Recombee KPI konsoli

CTR va CR sizga tavsiya qiluvchilarning ish faoliyatini yaxshi baholay oladi, lekin ehtiyot bo'ling va mahsulotingiz haqida o'ylab ko'ring. Siz yangiliklar portalini ishga tushirib, eng so'nggi yangiliklarni bosh sahifaga joylashtirasiz. Bu sizga eng yuqori CTR keltirmasligi mumkin, ammo bu sizning va sizning foydalanuvchilaringiz sizning xizmatingiz haqida his-tuyg'ularingizni saqlab qoladi. Endi siz u erda RSni qo'yishingiz mumkin va u turli xil tarkiblarni ko'rsatishi mumkin, masalan, sariq jurnalistika maqolalari yoki "juda tez itlar ajoyib ishlaydigan tezkor itlar" haqidagi kulgili maqolalar. Bu sizning tezkor CTR-ni 5 baravarga oshirishi mumkin, ammo bu sizning rasmingizga zarar etkazishi va uzoq muddat davomida foydalanuvchilaringizni yo'qotishingiz mumkin.

Bu erda RSlarning empirik bahosi keladi. Bo'sh cookie fayllari bilan yangi seansni boshlang, foydalanuvchining xulq-atvorini taqlid qiling va tavsiyalarning to'g'riligini tekshiring. Agar sizda QA guruhi bo'lsa, ularni ishga qabul qiling! Empirik baholash ham murakkab, ham birdan oson. Bu juda murakkab, chunki u mahsulot kartasida siz taqdim etadigan raqamlarni chiqarmaydi. Ammo bu ham oson, chunki insoniy sezgi tufayli siz qaysi tavsiyalar yaxshi va qaysi biri yomon ekanligini bilib olasiz. Agar siz g'alati ishlaydigan tavsiya qiluvchini tanlasangiz, CTR / CR hozirgi paytda juda yuqori bo'lsa ham, siz kelajakda juda ko'p muammolarga duch kelmoqdasiz.

Ammo, albatta, sifatdan tashqari, siz investitsiyalarning daromadliligi (ROI) haqida qayg'urishingiz kerak.

Sodda qilib aytganda, siz A / B sinov burchagi boshlang'ich # katlamiga nisbatan X% o'sishiga olib kelishini (sizning hozirgi echimingiz), sizning marjangiz muvaffaqiyatli tavsiya etilgan o'rtacha mahsulot uchun $ Y ekanligini va aniqlangan bo'lishi mumkin; bunga erishish uchun Z tavsiyalarini talab qiladi. Matematikani bajaring, agar siz ushbu RS-ni sizning trafikingizning 100 foiziga qo'ygan bo'lsangiz, xarajatlarni / daromadlarni hisoblab chiqing, shuningdek veb-sayt / ilovangizning boshqa bo'limlariga ham qo'shing.

ROIni hisoblash haqida bitta ogohlantirish: Bu juda loyqa va ko'pgina noma'lumlarga bog'liq: CR veb-saytim / ilovamning boshqa joylarida bir xil bo'ladimi? (Oddiy javob = yo'q, bo'lmaydi), turli joylarda har xil CTR / CR bor). Agar tavsiyalar ko'proq yoki kamroq jozibador pozitsiyaga qo'yilsa, CR qanday o'zgaradi? (Oddiy javob = ko'p). Vaqt o'tishi bilan CR qanday rivojlanadi? Foydalanuvchilar tavsiyalardan foydalanishni va ularga ishonishni o'rganadilarmi yoki CR rad qiladimi?

Bu yakuniy, ammo eng qiyin o'lchovga olib keladi: Mijozning umr bo'yi qiymati (CLV). Siz g'alaba qozonish uchun vaziyatni qidirmoqdasiz. Sizga foydalanuvchilar sizning xizmatingizni yoqtirishlarini, o'zlarini qulay, baxtli va qaytishga tayyor bo'lishlarini xohlashlarini xohlaysiz. Qo'lingizda, siz RS UX-ni yaxshilashni xohlaysiz, foydalanuvchilarga o'zlariga yoqadigan narsalarni / mahsulotlarini topishga yordam beradi. RS yordamida yuqori CLVga qanday erishish mumkin?

Xo'sh, bu erda oddiy maslahat yo'q. Siz yuqori empirik sifat va o'rtacha ijobiy ROI bilan yoqimli tavsiyalarni izlashingiz kerak. Mening tajribamga ko'ra, tavsiyalarning aniqligi odatda biznes qiymatiga to'g'ri keladi, sizning QA guruhingiz / Bosh direktoringizning shikoyatlariga sabab bo'lmaydi. Agar siz ishning ijobiy tomonini ko'rsangiz, o'zingiz qidirgan narsangizni topdingiz :)

Xulosa

Men RSlarni baholashning eng muhim jihatlarini yoritishga harakat qildim. Bu oson ish emasligini ko'rishingiz mumkin edi va ko'rib chiqilishi kerak bo'lgan juda ko'p narsa bor, lekin umid qilamanki, hech bo'lmaganda ushbu hududda o'z yo'lingizni topishingiz uchun sizga bir nechta maslahatlar berdi. Siz RS-larni ishlab chiqarishga kirishdan oldin ham oflayn rejimda sinab ko'rishingiz yoki CTR / CR va ROI smeta yordamida A / B ishlab chiqarishni sinovdan o'tkazishingiz mumkin. Har doim bir nechta QA qo'shing, chunki CTR / CR / ROI yolg'on bo'lishi mumkin va mahsulotingizning tasavvuriga mos kelishini kafolatlamaydi.

Matnni oxirigacha saqlash uchun ko'p narsa qoldirildi. CTR / CR / ROI / tavsiyalarning sifatidan tashqari, ko'rib chiqilgan RS-ning umumiy imkoniyatlarini tezroq ko'rib chiqishingiz kerak. Kelgusida elektron pochta kampaniyalariga tavsiyalarni qo'shishni xohlashingiz mumkin. Ishlaydimi? Berilgan foydalanuvchi har bir elektron pochtada bir xil tavsiyalarni olmasligi uchun tavsiyalarni aylantirish qobiliyatiga egami? Siz o'zingizning biznesingizning barcha talablariga javob bera olasizmi, tavsiyalarga ta'sir qila olasizmi, tarkibni ko'paytira olasiz, turli xil mezonlar asosida filtrlay olasizmi? Bu mavzular yoritilmagan, lekin siz ularni ko'rib chiqishni xohlashingiz mumkin.

Muallif "SaomS" tavsiyalarini ishlab chiquvchi "Rekombee" kompaniyasining asoschilaridan biri.