Лезгинский переводчик 2.0: Когда 1000 человек меняют будущее языкаХочу поделиться прогрессом по волонтерскому проекту над которым работает наша команда В этом релизе:1) заметно улучшилось качество2) Интегрировали модель озвучки текста (коллаборация с publicdictionary.org, 30 часов студийной записи). Теперь переводы можно не только читать, но и слушать. Просто нажмите на кнопку в поле с переводом! Команда leks-forever провела эксперимент - разметили синтетический корпус на 200к предложений на лезгинском через Gemini 3 ProОбучили на нем новую версию переводчика - по оценке носителей качество выросло кратно относительно прошлой версии. Особенно на последовательностях среднего размера.Главное:За проектом стоят 1000 волонтеров, которые собрали почти 40к вручную размеченных предложений провалидированных экспертами. Сейчас в пост-обработке.Переводчик масштабируется с данными. Когда добавим 40к + другие корпуса и удвоим (или кратно увеличим) датасет - качество сделает еще один скачок.Дальше:Это бета. Веса не финальные, есть проблемы с короткими словосочетаниями, но кажется мы нашли механику которая позволит нам легко масштабировать набор данных. Мне нравится этот проект тем что даже язык с маленькой аудиторией может получить современные ИИ-инструменты благодаря людям, которым не все равно. Мы вывели язык категории крайне уязвимых а это уже значительный прогресс! Спасибо каждому, кто размечал, записывал, тестировал. Вы делаете историю.
Переводчик в тг
Попробовать на huggingface (с озвучкой текста)
Датасет
Группа нашего коммьюнити Наша команда выкладывает все в опенсорс и открыта к коллаборциям, пишите!






