Elov Botir Boltaevichning
fan doktori (DSc) dissertatsiyasi himoyasi haqida e’lon
I. Umumiy ma’lumotlar. Dissertatsiya mavzusi, ixtisoslik shifri (ilmiy daraja beriladigan fan tarmog‘i nomi): “NLP texnologiyasiga asoslangan o‘zbek tilidagi matnlarni avtomatik tahlil qilish va ishlov berishning lingvistik usullari, modellari va axborot tizimi”, 05.01.10 – “Axborot olish tizimlari va jarayonlari” (texnika fanlari).
Dissertatsiya mavzusi ro‘yxatga olingan raqam: B2025.4.DSc/T984.
Ilmiy maslahatchi: Xamdamov Utkir Raxmatillaevich, texnika fanlari doktori, professor.
Dissertatsiya bajarilgan muassasa nomi: Muhammad al-Xorazmiy nomidagi Toshkent axborot texnologiyalari universiteti.
IK faoliyat ko‘rsatayotgan muassasa (muassasalar) nomi, IK raqami: Toshkent axborot texnologiyalari universiteti, DSc.09/2025.27.12.T.01.01.M
Rasmiy opponentlar: t.f.d., prof. Raxmatullaev Marat Alimovich, t.f.d., prof. Muxamedieva Dilnoz Tulkunovna, t.f.d. (DSc) dots. Kalandarov Ilyos Ibodullaevich.
Yetakchi tashkilot: Samarqand davlat universiteti.
Dissertatsiya yo‘nalishi: nazariy va amaliy ahamiyatga molik.
II. Tadqiqotning maqsadi: NLP texnologiyalari asosida o‘zbek tilidagi matnlarni avtomatik tahlil qilish, ularga ishlov berishning samarali lingvistik usullari va modellarini yaratish hamda ular asosida axborot tizimini ishlab chiqishdan iborat.
III. Tadqiqotning ilmiy yangiligi:
- o‘zbek tilining aglyutinativ xususiyatlarini hisobga olgan holda milliy til korpusi hamda uni lingvistik teglash usullari ishlab chiqilgan;
- o‘zbek tilining lingvistik qoidalari asosida matnlarni avtomatik tahlil qilishning morfologik, sintaktik va semantik sathlarini birlashtirgan konseptual model ishlab chiqilgan;
- mashinali o‘qitish texnologiyalariga asoslangan yuqori aniqlikdagi o‘zbek tilining lingvistik xususiyatlarini avtomatik tahlil qilishning formal usul va modellari ishlab chiqilgan;
- sun’iy intellekt texnologiyalari asosida matnlarni morfologik, sintaktik va semantik tahlil qilish, so‘z turkumlarini teglash hamda o‘zbek tilidagi obektlar nomini avtomatik aniqlash jarayonlarining algoritmlari ishlab chiqilgan;
- normalashtirish va reliyasion bog‘lanish qoidalari asosida o‘zbek tili matnlari va teglangan NLP datasetlaridan iborat ma’lumotlar bazasining tuzilmasi hamda lingvistik qoidalarni o‘zida jamlagan bilimlar bazasi yaratilgan;
- o‘zbek tili lingvistik qoidalari asosida matnlarga avtomatik ishlov beruvchi integratsiyalashgan axborot tizimining modulli va mikroservisli arxitekturasi hamda biznes jarayonlarining axborot modellari ishlab chiqilgan.
IV. Tadqiqot natijalarining joriy qilinishi.
Dissertatsiya tadqiqotlari doirasida NLP texnologiyasiga asoslangan o‘zbek tilidagi matnlarni avtomatik tahlil qilish, ishlov berishning lingvistik usullari, modellari va axborot tizimi bo‘yicha olingan ilmiy natijalar asosida:
Matndagi har bir so‘zni tahlil qilib, so‘zning o‘zagi va barcha qo‘shimchalarini hamda ularning grammatik ma’nolarini avtomatik ajratib beruvchi o‘zbek tilining morfologik analizatori, gapning grammatik tuzilishini shakllantiruvchi sintaktik analiz moduli, matndan shaxs ismlari, joy nomlarini belgilovchi NER modulidan iborat “UzNLP (o‘zbek matnlarini avtomatik tahlil qilish) axborot tizimi” Alisher Navoiy nomidagi Toshkent davlat o‘zbek tili va adabiyoti universiteti huzuridagi Davlat tilida ish yuritish asoslarini o‘qitish va malakasini oshirish markaziga joriy qilingan. (O‘zbekiston Respublikasi Oliy ta’lim, fan va innovatsiyalar vazirligi 2025-yil 18-noyabrdagi 02/01-01-505-son ma’lumotnomasi). Natijada, ~50 mlrd. gapdan, ~380 mln. so‘zdan iborat katta hajmdagi o‘zbek tili milliy korpusi shakllantirilgan va uning 10% qismi lingvistik teglangan. Mazkur korpus tizim uchun “oltin standarti” (gold standard) vazifasini o‘taydi va boshqa NLP ilovalarini ishlab chiqishda dataset bo‘lib xizmat qiladi;
dissertatsiyaning tadqiqot natijalari va materiallaridan Davlat ilmiy-texnik dasturi doirasidagi 2020-2022-yillarda bajarilgan AM-F3-201908172 – O‘zbek tilining ta’limiy korpusini yaratish nomli amaliy grant loyihasida foydalanilgan. Jumladan, ~50 mlrd. gapdan, ~380 mln. so‘zdan iborat katta hajmdagi o‘zbek tili milliy korpusi shakllantirilgan va uning 10% qismi lingvistik teglangan hamda boshqa NLP ilovalarini ishlab chiqishda dataset bo‘lib xizmat qilgan;
o‘zbek tilidagi matnlarni avtomatik tahlil qilish uchun morfologiya, sintaksis va semantika darajalarini birlashtirgan yangi konseptual modeldan Toshkent davlat o‘zbek tili va adabiyoti universitetida 2022-2024-yillarda amalga oshirilgan IL-402104209 raqamli “Axborot-qidiruv tizimlari (Google, Yandex, Google Translate) uchun avtomatik ishlov berish vositasi – o‘zbek tilining morfoleksikoni va morfologik analizatori dasturiy vositasini yaratish” nomli innovatsion loyihasini amalga oshirishda foydalanilgan. Tadqiqot doirasida ishlab chiqilgan o‘zbek tilining murakkab so‘z shakllarini normallashtirish algoritmi mazkur dasturga qo‘llangan va taklif etilgan o‘zbek tilidagi birikma va takroriy so‘zlarni avtomatik tanib, ularning bazaviy shakliga keltiruvchi algoritmdan foydalanilgan;
o‘zbek tilining morfologik, sintaktik va semantik analizatori modullaridan iborat avtomatik tahlil va qayta ishlashiga mo‘ljallangan kompleks axborot tizimi “Urganch yoshlar texnoparki” davlat muassasiga joriy qilingan. (O‘zbekiston Respublikasi Oliy ta’lim, fan va innovatsiyalar vazirligi 2025-yil 18-noyabrdagi 02/01-01-505-son ma’lumotnomasi). Natijada, morfologik analizator 96.4%, sintaktik analiz 95.5%, nomlangan obektlarni aniqlash moduli 96.1% F1 ko‘rsatkichini bergan.