An Integrated Analysis of Multilingual Texts Spanning Dual Alphabets

dc.creatorАдилова, Ф.Т.
dc.creatorДавронов, Р.Р.
dc.creatorСафаров, Р.А.
dc.date2023-10-02
dc.date.accessioned2024-03-25T11:46:35Z
dc.date.available2024-03-25T11:46:35Z
dc.descriptionLanguage recognition in natural language processing (NLP) aims to determine the specific language of a text or document. As the number of languages increases, this task becomes more complex. This study introduces a detailed model for detecting languages from text, with an emphasis on the Latin-Cyrillic script of the Uzbek language. Noting the research gap in this domain, we unveil a precise Uzbek Latin-Cyrillic script recognition model leveraging an apt transformer architecture. The model was tested on our self-compiled Uzbek language corpus, which also offers a robust benchmark for subsequent Uzbek language identification studies. Our approach encompasses 21 languages, including Uzbek, across both Latin and Cyrillic alphabets. Our findings highlight that the XLM-RoBERTa transformer-driven language detection model significantly outperforms its predecessors in terms of accuracy and efficiency.en-US
dc.descriptionРаспознавание языка при обработке естественного языка (NLP) направлено на определение конкретного языка текста или документа. По мере увеличения количества языков эта задача усложняется. В данном исследовании представлена подробная модель определения языков по тексту с акцентом на представление узбекского языка в двойном алфавите, - латинице-кириллице. Учитывая пробелы исследований в этой области, мы представляем точную модель распознавания узбекского языка, использующую подходящую архитектуру трансформера. Модель была протестирована на разработанном нами корпусе узбекского языка, который является надежным ориентиром для последующих исследований по идентификации узбекского языка. Наш подход охватывает 21 язык, включая узбекский, представленный двумя алфавитами: латиницей и кириллицей. Наши результаты показывают, что модель распознавания языка на основе модели XLM-RoBERTa значительно превосходит своих предшественников по точности и эффективности.ru-RU
dc.formatapplication/pdf
dc.identifierhttps://ijdt.uz/index.php/ijdt/article/view/110
dc.identifier.urihttps://dspace.umsida.ac.id/handle/123456789/36076
dc.languageeng
dc.publisherSamarkand branch of TUITru-RU
dc.relationhttps://ijdt.uz/index.php/ijdt/article/view/110/75
dc.rightsCopyright (c) 2023 Адилова Ф.Т.ru-RU
dc.sourceINTERNATIONAL JOURNAL OF THEORETICAL AND APPLIED ISSUES OF DIGITAL TECHNOLOGIES; Vol. 5 No. 3 (2023): International Journal of Theoretical and Applied Issues of Digital Technologies; 47-56en-US
dc.sourceМеждународный Журнал Теоретических и Прикладных Вопросов Цифровых Технологий; Том 5 № 3 (2023): Международный журнал теоретических и прикладных вопросов цифровых технологий; 47-56ru-RU
dc.source2181-3094
dc.source2181-3086
dc.subjectNLPen-US
dc.subjectMultilingual Language Modelsen-US
dc.subjectCloud Natural Language APIen-US
dc.subjectOpen AIen-US
dc.subjectChatGPTen-US
dc.subjectmodel compressionen-US
dc.subjecttransformeren-US
dc.subjectNLPru-RU
dc.subjectМногоязычные языковые моделиru-RU
dc.subjectОблачный API естественного языкаru-RU
dc.subjectОткрытый ИИru-RU
dc.subjectChatGPTru-RU
dc.subjectсжатие моделиru-RU
dc.subjectпреобразовательru-RU
dc.titleAn Integrated Analysis of Multilingual Texts Spanning Dual Alphabetsen-US
dc.titleКомплексный анализ многоязычных текстов, охватывающих двойные алфавитыru-RU
dc.typeinfo:eu-repo/semantics/article
dc.typeinfo:eu-repo/semantics/publishedVersion
dc.typeРецензированная статьяru-RU
Files