Элов Ботир Болтаевичнинг
фан доктори (DSc) диссертацияси ҳимояси ҳақида эълон
I. Умумий маълумотлар. Диссертация мавзуси, ихтисослик шифри (илмий даража бериладиган фан тармоғи номи): “NLP технологиясига асосланган ўзбек тилидаги матнларни автоматик таҳлил қилиш ва ишлов беришнинг лингвистик усуллари, моделлари ва ахборот тизими”, 05.01.10 – “Ахборот олиш тизимлари ва жараёнлари” (техника фанлари).
Диссертация мавзуси рўйхатга олинган рақам: B2025.4.DSc/Т984.
Илмий маслаҳатчи: Хамдамов Уткир Рахматиллаевич, техника фанлари доктори, профессор.
Диссертация бажарилган муассаса номи: Муҳаммад ал-Хоразмий номидаги Тошкент ахборот технологиялари университети.
ИК фаолият кўрсатаётган муассаса (муассасалар) номи, ИК рақами: Тошкент ахборот технологиялари университети, DSc.09/2025.27.12.Т.01.01.М
Расмий оппонентлар: т.ф.д., проф. Рахматуллаев Марат Алимович, т.ф.д., проф. Мухамедиева Дилноз Тулкуновна, т.ф.д. (DSc) доц. Каландаров Илёс Ибодуллаевич.
Етакчи ташкилот: Самарқанд давлат университети.
Диссертация йўналиши: назарий ва амалий аҳамиятга молик.
II. Тадқиқотнинг мақсади: NLP технологиялари асосида ўзбек тилидаги матнларни автоматик таҳлил қилиш, уларга ишлов беришнинг самарали лингвистик усуллари ва моделларини яратиш ҳамда улар асосида ахборот тизимини ишлаб чиқишдан иборат.
III. Тадқиқотнинг илмий янгилиги:
- ўзбек тилининг аглютинатив хусусиятларини ҳисобга олган ҳолда миллий тил корпуси ҳамда уни лингвистик теглаш усуллари ишлаб чиқилган;
- ўзбек тилининг лингвистик қоидалари асосида матнларни автоматик таҳлил қилишнинг морфологик, синтактик ва семантик сатҳларини бирлаштирган консептуал модел ишлаб чиқилган;
- машинали ўқитиш технологияларига асосланган юқори аниқликдаги ўзбек тилининг лингвистик хусусиятларини автоматик таҳлил қилишнинг формал усул ва моделлари ишлаб чиқилган;
- сунъий интеллект технологиялари асосида матнларни морфологик, синтактик ва семантик таҳлил қилиш, сўз туркумларини теглаш ҳамда ўзбек тилидаги обектлар номини автоматик аниқлаш жараёнларининг алгоритмлари ишлаб чиқилган;
- нормалаштириш ва релияцион боғланиш қоидалари асосида ўзбек тили матнлари ва тегланган NLP датасетларидан иборат маълумотлар базасининг тузилмаси ҳамда лингвистик қоидаларни ўзида жамлаган билимлар базаси яратилган;
- ўзбек тили лингвистик қоидалари асосида матнларга автоматик ишлов берувчи интеграциялашган ахборот тизимининг модулли ва микросервисли архитектураси ҳамда бизнес жараёнларининг ахборот моделлари ишлаб чиқилган.
IV. Тадқиқот натижаларининг жорий қилиниши.
Диссертация тадқиқотлари доирасида NLP технологиясига асосланган ўзбек тилидаги матнларни автоматик таҳлил қилиш, ишлов беришнинг лингвистик усуллари, моделлари ва ахборот тизими бўйича олинган илмий натижалар асосида:
Матндаги ҳар бир сўзни таҳлил қилиб, сўзнинг ўзаги ва барча қўшимчаларини ҳамда уларнинг грамматик маъноларини автоматик ажратиб берувчи ўзбек тилининг морфологик анализатори, гапнинг грамматик тузилишини шакллантирувчи синтактик анализ модули, матндан шахс исмлари, жой номларини белгиловчи NER модулидан иборат “UzNLP (ўзбек матнларини автоматик таҳлил қилиш) ахборот тизими” Алишер Навоий номидаги Тошкент давлат ўзбек тили ва адабиёти университети ҳузуридаги Давлат тилида иш юритиш асосларини ўқитиш ва малакасини ошириш марказига жорий қилинган. (Ўзбекистон Республикаси Олий таълим, фан ва инновациялар вазирлиги 2025-йил 18-ноябрдаги 02/01-01-505-сон маълумотномаси). Натижада, ~50 млрд. гапдан, ~380 млн. сўздан иборат катта ҳажмдаги ўзбек тили миллий корпуси шакллантирилган ва унинг 10% қисми лингвистик тегланган. Мазкур корпус тизим учун “олтин стандарти” (голд стандард) вазифасини ўтайди ва бошқа NLP иловаларини ишлаб чиқишда датасет бўлиб хизмат қилади;
диссертациянинг тадқиқот натижалари ва материалларидан Давлат илмий-техник дастури доирасидаги 2020-2022-йилларда бажарилган АМ-Ф3-201908172 – Ўзбек тилининг таълимий корпусини яратиш номли амалий грант лойиҳасида фойдаланилган. Жумладан, ~50 млрд. гапдан, ~380 млн. сўздан иборат катта ҳажмдаги ўзбек тили миллий корпуси шакллантирилган ва унинг 10% қисми лингвистик тегланган ҳамда бошқа NLP иловаларини ишлаб чиқишда датасет бўлиб хизмат қилган;
ўзбек тилидаги матнларни автоматик таҳлил қилиш учун морфология, синтаксис ва семантика даражаларини бирлаштирган янги консептуал моделдан Тошкент давлат ўзбек тили ва адабиёти университетида 2022-2024-йилларда амалга оширилган ИЛ-402104209 рақамли “Ахборот-қидирув тизимлари (Google, Yandex, Google Translate) учун автоматик ишлов бериш воситаси – ўзбек тилининг морфолексикони ва морфологик анализатори дастурий воситасини яратиш” номли инновацион лойиҳасини амалга оширишда фойдаланилган. Тадқиқот доирасида ишлаб чиқилган ўзбек тилининг мураккаб сўз шаклларини нормаллаштириш алгоритми мазкур дастурга қўлланган ва таклиф этилган ўзбек тилидаги бирикма ва такрорий сўзларни автоматик таниб, уларнинг базавий шаклига келтирувчи алгоритмдан фойдаланилган;
ўзбек тилининг морфологик, синтактик ва семантик анализатори модулларидан иборат автоматик таҳлил ва қайта ишлашига мўлжалланган комплекс ахборот тизими “Урганч ёшлар технопарки” давлат муассасига жорий қилинган. (Ўзбекистон Республикаси Олий таълим, фан ва инновациялар вазирлиги 2025-йил 18-ноябрдаги 02/01-01-505-сон маълумотномаси). Натижада, морфологик анализатор 96.4%, синтактик анализ 95.5%, номланган обектларни аниқлаш модули 96.1% Ф1 кўрсаткичини берган.