An Integrated Analysis of Multilingual Texts Spanning Dual Alphabets
No Thumbnail Available
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Samarkand branch of TUIT
Abstract
Description
Language recognition in natural language processing (NLP) aims to determine the specific language of a text or document. As the number of languages increases, this task becomes more complex. This study introduces a detailed model for detecting languages from text, with an emphasis on the Latin-Cyrillic script of the Uzbek language. Noting the research gap in this domain, we unveil a precise Uzbek Latin-Cyrillic script recognition model leveraging an apt transformer architecture. The model was tested on our self-compiled Uzbek language corpus, which also offers a robust benchmark for subsequent Uzbek language identification studies. Our approach encompasses 21 languages, including Uzbek, across both Latin and Cyrillic alphabets. Our findings highlight that the XLM-RoBERTa transformer-driven language detection model significantly outperforms its predecessors in terms of accuracy and efficiency.
Распознавание языка при обработке естественного языка (NLP) направлено на определение конкретного языка текста или документа. По мере увеличения количества языков эта задача усложняется. В данном исследовании представлена подробная модель определения языков по тексту с акцентом на представление узбекского языка в двойном алфавите, - латинице-кириллице. Учитывая пробелы исследований в этой области, мы представляем точную модель распознавания узбекского языка, использующую подходящую архитектуру трансформера. Модель была протестирована на разработанном нами корпусе узбекского языка, который является надежным ориентиром для последующих исследований по идентификации узбекского языка. Наш подход охватывает 21 язык, включая узбекский, представленный двумя алфавитами: латиницей и кириллицей. Наши результаты показывают, что модель распознавания языка на основе модели XLM-RoBERTa значительно превосходит своих предшественников по точности и эффективности.
Распознавание языка при обработке естественного языка (NLP) направлено на определение конкретного языка текста или документа. По мере увеличения количества языков эта задача усложняется. В данном исследовании представлена подробная модель определения языков по тексту с акцентом на представление узбекского языка в двойном алфавите, - латинице-кириллице. Учитывая пробелы исследований в этой области, мы представляем точную модель распознавания узбекского языка, использующую подходящую архитектуру трансформера. Модель была протестирована на разработанном нами корпусе узбекского языка, который является надежным ориентиром для последующих исследований по идентификации узбекского языка. Наш подход охватывает 21 язык, включая узбекский, представленный двумя алфавитами: латиницей и кириллицей. Наши результаты показывают, что модель распознавания языка на основе модели XLM-RoBERTa значительно превосходит своих предшественников по точности и эффективности.
Keywords
NLP, Multilingual Language Models, Cloud Natural Language API, Open AI, ChatGPT, model compression, transformer, NLP, Многоязычные языковые модели, Облачный API естественного языка, Открытый ИИ, ChatGPT, сжатие модели, преобразователь