Tailoring mt5 for the Uzbek Language: a Compact Model for NLP Applications
No Thumbnail Available
Date
Journal Title
Journal ISSN
Volume Title
Publisher
Samarkand branch of TUIT
Abstract
Description
Despite being spoken by nearly 50 million individuals, the Uzbek language remains underrepresented in Natural Language Processing (NLP). One primary reason is the limited availability of Uzbek linguistic resources. With the rising prominence of the Transformer architecture in NLP, it has overtaken earlier methods like convolutional and recurrent neural networks. The T5 (Text-to-Text Transfer Transformer) standardizes linguistic tasks in English by converting them into a text-to-text format. The mT5, its multilingual version, has shown promising outcomes in various NLP tasks spanning multiple languages. However, the considerable dimensions of the mT5 pose challenges for applications focused on a singular language. In our study, we fine-tuned the mT5 specifically for Uzbek, leading to a more compact T5 model. We compared this tailored model's efficiency with the mT5 on Automatic Text Summarization (ATS) and Named Entity Recognition (NER) tasks using identical protocols and datasets. Our adapted model surpassed the performance of the mT5, indicating the feasibility of developing a more compact pre-trained model with nearly half the size, without compromising results. This streamlined model also benefits from reduced memory usage, faster startup, and swifter processing times. For access to this model, please reach out.
Несмотря на то, что на нем говорят почти 50 миллионов человек, узбекский язык по-прежнему недостаточно представлен в системе обработки естественного языка (NLP). Одной из основных причин является ограниченная доступность узбекских лингвистических ресурсов. С ростом популярности архитектуры Transformer в NLP она обогнала более ранние методы, такие как сверточные и рекуррентные нейронные сети. T5 (преобразователь преобразования текста в текст) стандартизирует лингвистические задачи на английском языке, преобразуя их в формат преобразования текста в текст. mT5, его многоязычная версия, показала многообещающие результаты в различных задачах NLP, охватывающих несколько языков. Однако значительные размеры mT5 создают проблемы для приложений, ориентированных на один язык. В нашем исследовании мы доработали mT5 специально для узбекского языка, в результате чего модель T5 стала более компактной. Мы сравнили эффективность этой адаптированной модели с mT5 в задачах автоматического суммирования текста (ATS) и распознавания именованных сущностей (NER) с использованием идентичных протоколов и наборов данных. Наша адаптированная модель превзошла производительность mT5, что указывает на возможность разработки более компактной предварительно обученной модели почти вдвое меньшего размера без ущерба для результатов. Эта оптимизированная модель также выигрывает от меньшего использования памяти, более быстрого запуска и сокращения времени обработки. Чтобы получить доступ к этой модели, пожалуйста, свяжитесь с нами.
Несмотря на то, что на нем говорят почти 50 миллионов человек, узбекский язык по-прежнему недостаточно представлен в системе обработки естественного языка (NLP). Одной из основных причин является ограниченная доступность узбекских лингвистических ресурсов. С ростом популярности архитектуры Transformer в NLP она обогнала более ранние методы, такие как сверточные и рекуррентные нейронные сети. T5 (преобразователь преобразования текста в текст) стандартизирует лингвистические задачи на английском языке, преобразуя их в формат преобразования текста в текст. mT5, его многоязычная версия, показала многообещающие результаты в различных задачах NLP, охватывающих несколько языков. Однако значительные размеры mT5 создают проблемы для приложений, ориентированных на один язык. В нашем исследовании мы доработали mT5 специально для узбекского языка, в результате чего модель T5 стала более компактной. Мы сравнили эффективность этой адаптированной модели с mT5 в задачах автоматического суммирования текста (ATS) и распознавания именованных сущностей (NER) с использованием идентичных протоколов и наборов данных. Наша адаптированная модель превзошла производительность mT5, что указывает на возможность разработки более компактной предварительно обученной модели почти вдвое меньшего размера без ущерба для результатов. Эта оптимизированная модель также выигрывает от меньшего использования памяти, более быстрого запуска и сокращения времени обработки. Чтобы получить доступ к этой модели, пожалуйста, свяжитесь с нами.
Keywords
model compression, transformer, pre-trained model, automatic text summarization, named entity recognition, сжатие модели, преобразователь, предварительно обученная модель, автоматическое суммирование текста, распознавание именованных объектов