Har doim eng yaxshi NLP modeli? Google BERT 11 ta til topshiriqlarida yangi standartlarni o'rnatdi

Yangi Google AI qog'ozi BERT: Tilni tushunish uchun chuqur ikki tomonlama yo'nalishli transformatorlarni tayyorlashdan oldin mashina o'rganish bo'yicha hamjamiyat tomonidan maqtovga sazovor. Google tadqiqotchilari chuqur tabiiy yo'nalishni o'zgartiruvchi Transformer modelini taqdim etadilar, bu tabiiy savollarga javob berishning 11 sohasidagi vaziyatni aniqlaydi. Qog'ozdagi ba'zi diqqatga sazovor narsalar:

  • NLP tadqiqotchilari hozirgi kunga qadar mavjud bo'lgan katta miqdordagi til ma'lumotlari va o'qitishdan oldin o'qitishning yangi usullarini ishlab chiqish uchun foydalanmoqdalar. Ular dastlab bitta tilni modellashtirish maqsadi bo'yicha namunaviy arxitekturani o'rgatishadi, so'ngra boshqariladigan quyi oqim vazifasi uchun uni sozlashadi. Aylien tadqiqot ilmiy xodimi Sebastyan Ruder o'z blogida oldindan tayyorlangan modellar "ko'rish qobiliyatiga ega bo'lgan ImageNet modellari singari NLP-ga bir xil ta'sir ko'rsatishi mumkin" deb ta'kidlaydi.
  • BERT modelining arxitekturasi ikki tomonlama Transformator kodlovchi hisoblanadi. Transformatorni ishlatish hech qanday ajablanarli hol emas - bu Transformerlarning o'qitish samaradorligi va takroriy neyron tarmoqlari arxitekturasi bilan taqqoslaganda uzoq masofalarga bog'liqlikni ushlab turishdagi ustunligi. Ayni paytda ikki tomonlama kodlayıcı BERT-ni OpenAI GPT (chapdan o'ngga o'zgartiruvchi) va ELMo (mustaqil ravishda chapdan o'ngga va o'ngdan chapga o'rgatilgan LSTMni birlashtirish) ni farqlovchi xususiyatdir.
  • BERT ulkan model bo'lib, unda 24 ta Transformator bloki, har bir qatlamda 1024 ta yashirin birlik va 340M parametr mavjud.
  • Model 3,3 milliard so'zdan ortiq 40 ta davrda, shu jumladan BooksCorpus (800 million so'z) va Inglizcha Vikipediyada (2,5 milliard so'z) oldindan o'qitilgan.
  • Model o'qitish uchun 16 TPU podkasida ishlaydi.
  • Trening oldidan tadqiqotchilar yondashuvni chuqur o'rganish uchun kirish tokenlarining foizini tasodifiy niqoblashni o'z ichiga olgan usulni qo'lladilar. Ular bu usulni Masked Til Model (MLM) deb atashadi.
  • Oldindan o'qitilgan til modeli savollarga javob berish va tabiiy tilni inferatsiya qilish kabi til vazifalari uchun juda muhim bo'lgan jumlalar o'rtasidagi munosabatlarni tushuna olmaydi. Shunday qilib, tadqiqotchilar har qanday monolingual korpusdan kelib chiqishi mumkin bo'lgan ikkilangan keyingi jumlalarni bashorat qilish vazifasini oldindan tayyorladilar.
  • Turli ma'lumotlar to'plamlari uchun sozlangan model GLUE ko'rsatkichini 80,4 foizga (mutlaq yaxshilanish 7,6 foiz), MultiNLI aniqligini 86,7 foizga (mutlaq yaxshilanish 5,6 foiz), SQuAD v1.1 savoliga F1-dan 93,2-ga javob berishni yaxshilaydi (1,5 mutlaq yaxshilanish) , va hokazo jami 11 ta til topshiriqlarini bajarish.

Qog'ozning birinchi muallifi - bu tabiiy tillarga oid vazifalarni chuqur o'rganish modellarini ishlab chiqishga qiziqish bildirgan Google kompaniyasining katta ilmiy xodimi Jeykob Devlin. U ilgari Microsoft Translate-ning 2014 yildan 2017 yilgacha Microsoft Research-da printsipial tadqiqot bo'yicha ilmiy xodim sifatida iboralarga asoslangan tarjimadan neyron-mashinali tarjimaga (NMT) o'tishiga rahbarlik qilgan.

Google Brain Tadqiqotchisi Thang Luong "bir necha kun oldin NLPning yangi davri boshlandi: katta tayyorgarlikdan oldingi modellar (Transformator 24 qatlam, 1024 xira, 16 bosh) + katta hajmdagi hisoblash - bu sizga kerak bo'lgan narsadir."

Xitoyning AI startapi Tricorn bosh ilmiy xodimi Baoxun Vang ham ushbu haftada Xitoyning Suzhou shahrida bo'lib o'tgan sun'iy intellekt sanoatining alyans konferentsiyasida qilgan nutqida Google qog'ozini "muhim bosqich" deb baholadi. Ushbu hujjat juda katta hajmdagi ma'lumotlar va hisoblangan va yaxshilab o'ylangan muhandislik ishlariga bag'ishlangan bo'lib, ular Wang "Google'ning zo'ravon estetika an'anasi" deb atashadi.

Oldindan tayyorlangan model va kod keyingi ikki hafta ichida chiqariladi. Qog'oz arXiv-da.

Yangilash:

Google Github-dagi qog'oz kodi va ma'lumotlarini ochdi.

Jurnalist: Toni Peng | Muharrir: Maykl Sarazen

Kundalik AI yangiliklari uchun bizni Twitter @Synced_Global-da kuzatib boring

Bilamizki, siz biron bir hikoyani o'tkazib yubormoqchi emassiz. Haftalik AI yangilanishlarini olish uchun mashhur Synced Global AI Haftalik obuna bo'ling.