Warlock700 123 Опубликовано 12 февраля, 2024 (изменено) Здравствуйте, Сталкеры. Ни для кого не секрет, что нейросети сейчас развиваются семимильными шагами, в свою очередь хотел бы Вам представить возможности одной из них. RVC-Project - проект, чьей основной задачей является обучение голосовых моделей и преобразование с их помощью аудиофайлов. Достаточно нескольких минут в качестве образца речи, чтобы получить практически идентичный голос, сохранив основные его черты, и я не мог пропустить такую возможность в отношении сталкерских голосов. Мною было обучено несколько моделей, основанных на речи персонажей из вселенной Сталкер. Для наглядной демонстрации предоставляю Вашему вниманию видеоролик, где собраны примеры по всем моделям, которые успел выпустить на текущий момент. Примечание: все демонстрационные ролики на текущий момент расположены на Youtube. Для их корректного отображения используйте средства обхода ограничений. Ролики так же можно найти в ВК группе канала: https://vk.com/warlock700group Созданные модели не являются финальными версия, по мере возможностей они будут улучшаться и переобучаться в случае создания новых алгоритмов или улучшения обучения, выхода новых версий RVC, а так же при использовании новых версий предобученных баз. На текущий момент предобученная база основана на англоязычном дата-сете, в связи с чем на иных языках появляются заметные уху артефакты. Существуют неофициальные предобученные русскоязычные базы, под которые со временем будут переобучены все модели. Ссылки на них будут добавлены в данной теме по мере их выхода. Развитие проекта: Спойлер 13.02.24 - обучена модель Чехова и других свободовцев, озвученных голосом Григория Германа, проходит тестирование; 13.02.24- обучена модель группировки Наемники, проходит тестирование; 13.02.24 - обучена модель Лесника, проходит тестирование; 13.02.24 - обучена модель речи Андрея Прохорова, основанная на черновых и релизных фразах, проходит тестирование; 13.02.24 - обучена модель Дегтярева, проходит тестирование; 13.02.24 - обучена модель коменданта Халецкого, проходит тестирование; 15.02.24 - протестирована и загружена модель Дегтярева; 15.02.24 - протестирована и загружена модель отца Валерьяна; 15.02.24 - протестирована и загружена модель Чехова и других бойцов Свободы в исполнении Григория Германа; 20.02.24 - протестирована и загружена модель Лесника; 21.02.24 - протестирована и загружена модель коменданта Халецкого; 22.02.24 - обучается, а в последствии будет протестирована модель новичков в озвучке Руслана Гофурова; 23.02.24 - обучена модель Лебедева, проходит тестирование; 04.03.24 - протестирована и загружена модель новичков в исполнении Руслана Гофурова; 04.03.24 - протестирована и загружена модель голосов персонажей, озвученных Андреем Прохоровым; 04.03.24 - протестирована и загружена модель Ковальского из ЗП и Мельника из первых двух частей Метро 2033; 14.03.24 - протестирована и загружена модель Лебедева; 06.04.24 - протестирована и загружена модель голосов персонажей, озвученных Иваном Розиным; (Гонта, Гаваец и др.) 29.04.24 - загружена оффтоп модель Мельника из Метро 2033 Исход. 17.05.24 - протестированы и загружены модели (разные претрейны) персонажей, озвученных голосом Алексея Череватенко (Борода, Ной и др.) 30.11.24 - протестированы и загружены оффтоп модели (разные претрейны) персонажей, озвученных голосом Владимира Плахова 30.11.24 - протестированы и загружены модели (разные претрейны) персонажей, озвученных голосом Владимира Терещука 30.11.24 - протестированы и загружены обновленные модели (разные претрейны и хуберты) Сидоровича 30.11.24 - протестированы и загружены модели (разные претрейны и хуберты) персонажей, озвученных голосом Игоря Мельника С 01.01.25 по 12.10.2025 - протестированы и загружены новые модели, обученные на новой точности fp32: - Сталкеры в противогазе; - Бандиты в противогазе; - Наемники в озвучке Германа; - Наемники в озвучке Германа в противогазе; - Наемники в озвучке Терещука; - Свобода в противогазе; - Долг в противогазе; - Чистое небо в озвучке Вилкова; - Военные в противогазе; - Бандиты в озвучке Терещука. Добавлены обновленные модели, обученные с повышенной точностью fp32: - Череватенко - Монолит (по умолчанию в противогазе); - Вилков - Долг; - Герман - Бандиты; - Герман - Чехов; - Зорин - Флинт; - Терещук - Военные. - Стальчук - Сталкеры; - Розин - Сталкеры; - Малуха - Сталкеры+Новички; - Малуха - Экологи; (по умолчанию противогазе) - Богуш - Свобода. 31.10.2025 - загружены новые модели, обученные на новой точности fp32: Яценко - Военные Припяти; Вилков - Сидорович. Добавлены обновленные модели, обученные с повышенной точностью:: Борисенок - Лесник; Подубинский - Сидорович; Герман - Валерьян; Пашин - Ковальский; Тимошенко - Халецкий; Подубинский - Сидорович. 10.11.2025 - протестированы и загружены новые модели, обученные на новой точности fp32: Мороз - Дегтягев; Борисенок - Сахаров; Пашин - Рассказчик Зова Припяти; Пашин - Мельник из Метро 1-2; Стальчук - Лебедев; Прохоров - полный датасет. (Метро+Сталкер) Ссылки на программное обеспечение, вводная информация и руководства: Спойлер RVC-Project - обучение моделей, преобразование аудиофайлов - скачатьVoice-changer от W-Okada - преобразование голоса в реальном времени - скачатьApplio - fork RVC, доступны все функции оригинального проекта, есть встроенный Text-to-Speech и преобразование голоса в реальном времени - скачатьRVC-TTS - версия программы, способная генерировать любой текст и озвучивать его встроенными в движок Edge моделями с последующим преобразованием полученного результата голосовой моделью RVC. Скомпилированный пользователем с просторов сети RVC TTS:https://drive.google.com/file/d/1Lf6LOyFUcMh6BYcNTv_xPw4M_aSBNgb8/view Страница с кодом и инструкцией по самостоятельной компиляции:https://github.com/litagin02/rvc-tts-webui Спойлер При обучении моделей используются разные методы обработки, предобученные базы (далее претрейны) и модели hubert. Число моделей проекта RVC Stalker Voices постоянно растет, а краткое описание названий данных моделей вызывает недопонимание. Чтобы внести ясность необходимо предоставить вводную информацию и рассказать про каждый тип модели. И, пожалуй, стоит начать с теории:HuBERT — это модель для самообучающегося представления речи. Она основана на методах, похожих на используемые в модели BERT (Bidirectional Encoder Representations from Transformers), но адаптирована для обработки аудиосигналов. Основная идея HuBERT — обнаружить дискретные скрытые единицы, чтобы преобразовать речевые данные в более «языковую» структуру. HuBERT можно использовать для автоматического распознавания речи, а также для её генерации. ContentVec — это сеть для обучения речевых представлений, которая стремится удалить информацию о говорящем, предотвращая потерю содержательной информации. Метод основан на платформе HuBERT и включает механизмы для регуляризации как учительских меток, так и полученных представлений. Pretrained model — это предварительно обученная модель в области глубокого обучения, которая обучается на больших датасетах для выполнения конкретной задачи. Такая модель служит основой для различных задач, используя усвоенные закономерности и особенности. После обучения pretrained модель проходит процесс тонкой настройки, где веса и параметры модели корректируются для адаптации к конкретной задаче. Все доступные на текущий момент базы речевых представлений и предобученных моделей доступны по ссылке:https://huggingface.co/Politrees/RVC_resourcesБольше информации о претренированных моделях:https://docs.google.com/document/d/1j9J8A8Oop9bMOHmCs3jDXzPujuD6TQ0Q396rJ0MyuIc Какие имеются на текущий момент модели представления речи: - hubert_base - основная модель, встроенная в клиенты RVC и некоторых форков по умолчанию. Создана Facebook. - contentvec - основная модель для последних версий Applio (форк RVC) и установленная по умолчанию. Имеет более высокую точность, в сравнении с hubert_base. (подробнее тут - ссылка) Если не вдаваться в подробности, то можно посмотреть результаты сравнения на скриншоте ниже. Создана группой программистов, чьи имена можно узнать из статьи по ссылке выше. - hubert-japanese - модель hubert, основанная на hubert_base и обученная на образцах японского языка общим объемом более 19000 часов. Обучена группой энтузиастов, проект имеет название rinna. И, как бы странно это не звучало, но фонетически японский язык очень приближен к русской речи, благодаря чему конечный материал имеет хорошую дикцию, а так же высокую точность преобразования. - hubert-chinese - модель hubert, обученная на базе WenetSpeech, материал для которой был набран в основном с YouTube и подкастов, охватывая различные типы сцен записи, фоновый шум, стили речи и т. д. Использовались аудиокниги, повествования, документальные фильмы, телесериалы, интервью, новости, чтения, выступления, развлекательные шоу и другие. Создана TencentGame. Модель так же имеет хорошую дикцию при работе с русской речью, но меньшую точность. Хорошо подойдет для необработанных аудиофайлов с "грязью".- hubert-korean - модель hubert, основанная на hubert_base, профинансированная министерством науки Кореи и обученная на образцах корейской речи в более 2000 часов. Создана группой lucid. Данная модель использовалась единожды при обучении модели Сидоровича и показала плохие результаты при преобразовании, внося дефекты в произношение. В дальнейших моделях использоваться не будет. - hubert-portuguese - модель hubert, обученная на португальском языке. Информацию по модели найти не удалось, создана shiromiya. Обученных моделей нет, качество произношения неизвестно. Обучение моделей не планируется. - hubert-russian - статус модели: создается сторонними авторами. Какие имеются предварительно предобученные базы - данные с сайта Applio: - Rigel - информация будет добавлена позднее - Snowie 3.1 - обучена на данных русского и японского языков. Помогает улучшить произношение на других языках. Частота дискретизации: 32k, 40k, 48k. - RIN_E3 - обучена с нуля на большом наборе данных на английском языке. Рекомендуется использовать с высококачественными наборами данных из-за чувствительности к шуму. Частота дискретизации: 40k. - Ov2Super - база, хорошо подходящая для небольших, чётких наборов данных на английском языке. Обучается на ярких, эмоциональных голосах. Требуется меньше эпох обучения. Частота дискретизации: 32k, 40k. - TITAN - надёжная универсальная модель, которая даёт чистые результаты и хорошо справляется с акцентами и шумами. Требует меньше эпох обучения. Частота дискретизации: 32k, 40k, 48k - itaila - информация будет добавлена позднее - KLM 4.1- обучена на данных корейского, японского и английского языков. Идеально подходит для создания вокальных гидов на основе коротких высококачественных студийных записей. Чувствителен к шуму. Частота дискретизации: 32k, 48k - SingerPretrain - идеально подходит для английских певцов. Подходит для широкого диапазона вокальных типов, от баса до сопрано. Частота дискретизации: 32k. - Anime - информация будет добавлена позднее - DMR v.1 - тонкая настройка для голосов e-girl, мягких мужских/женских и глубоких мужских/женских голосов. Лучше всего работает с чистыми наборами данных и алгоритмом извлечения высоты тона Mangio-Crepe/Crepe. Частота дискретизации: 32k. - UKR - информация будет добавлена позднее - UKA - информация будет добавлена позднее - IMA_Robotic - информация будет добавлена позднее - Nanashi v1.7 - обучена на бразильских композиция. Хорошо подходит для португальского и других языков. Справляется с шумом и требует меньше обучающих эпох. Частота дискретизации: 32k. В случае с моделями RVC Stalker Voices, помимо использования разных претрейнов и моделей hubert используются так же разные методы их обработки. Для простоты понимания и наглядности в качестве примера будет взята модель Сидоровича:sidorovich_v2 (другие названия: sidorovich_v2-original, sidorovich_v2-ogg) - модель, обученная на второй версии претрейнов (все модели обучены на версии v2) и в которую не было внесено никаких изменений. В обучении участвуют только оригинальные файлы. Модели обучаются на hubert_base и contentvec.ВАЖНО - все модели изначально обучаются на пресете для частоты 40 Кгц, ввиду наибольшего распространения претрейнов и, со слов других энтузиастов, более лучших конечных результатов.sidorovich_v2_no-noise - модель, обученная после удаления шума. Используется встроенный в Adobe Audition инструмент шумоподавления с акцентированием на высокие частоты, в редких случаях второй "проход" осуществляется для низких частот. Если материал очень "грязный" - используются дополнительно плагины VST. Модели обучаются на hubert_base и contentvec.sidorovich_v2_comp_de-esser_no-noise - модель, обученная на основе образцов no_noise с применением встроенного в Adobe Audition инструмента де-эссеризации, а так же компрессии. Пресеты во всех моделях используются одинаковые и не настраиваются точечно. Если Вы умеете тонко работать со звуком, то можете использовать no_noise модель и обработать материал на выходе самостоятельно. Модели обучаются на hubert_base и contentvec;sidorovich_v2_no_noise_auto_nectar - модель, обученная на основе образцов no_noise с применением автоматической обработки плагином iZotope Nectar 4. Применяются такие эффекты, как эквализация, компрессия, сатурация, де-эссеризация и другие, примененные в ходе анализа ИИ образцов голоса для модели. Модели обучаются на hubert_base и contentvec;sidorovich_v2_comp_de-esser_no-noise-название_претрейна - модель, использующая в своей основе образцы для модели comp_de-esser_no-noise и обученная на указанном претрейне. Название претрейна, если он использовался, всегда находится в конце имени. Модели обучаются на hubert_base и contentvec;sidorovich_v2_comp_chinese (другое название - comp_china) модель, использующая в своей основе образцы для модели comp_de-esser_no-noise и обученная на модели hubert_chinese; sidorovich_v2-comp_japanese (другое название - comp_japan) - модель, использующая в своей основе образцы для модели comp_de-esser_no-noise и обученная на hubert_japanese;sidorovich_v2-comp-korean - модель, использующая в своей основе образцы для модели comp_de-esser_no-noise и обученная на hubert_korean. В дальнейших моделях применяться не будет. В 2025-м году все модели стали переобучаться только на алгоритме contentvec в RVC - такие модели имеют приписку "new", однако установить в него можно только его legacy версию. Поэтому, начиная с сентября, модели стали обучаться на новой точности FP32 и исключительно в Applio.FP32 (Single Precision) — формат точности чисел с плавающей точкой, который обеспечивает баланс между точностью и эффективностью. Модели, обученные на этой точности, на момент написания являются наиболее лучшими в передаче тона голоса, используемого в ходе обучения, а так же качественнее передают тональность голоса донора. По этой же причине тональность донора рекомендуется подбирать с помощью игры голоса, либо опцией "предлагаемая высота тона". Помимо этого хорошо себя зарекомендовала предварительная нормализация через Applio при подготовке дата-сета к обучению. Обученные с изменениями модели имеют схожее обозначение с приведенными ранее, но с небольшим расширением - приписка "fp32" означает, что модель обучена на новом виде точности, а normal, что выполнена предварительная нормализация датасета. Такие модели по умолчанию обучаются на contentvec, но в случае, если используется другая модель опознания речи, то это будет указано дополнительно. На примерах:sidorovich-fp32-comp-de_esser_no-noise - модель, обученная на новой точности fp32, на модели опознания речи contentvec, очищена от шумов и обработана компрессором с де-эссером.sidorovich-fp32-comp-japanese-showie3.1 - модель, обученная на новой точности fp32 и использующая в своей основе образцы дата-сета comp_de-esser_no-noise на модели опознания речи hubert_japanese, Спойлер В данном руководстве будут описана специфика работы в нейросети RVC: преобразование и обучение моделей. В качестве примера будет использоваться форк данного проекта - Applio, поскольку основной проект на текущий момент давно не обновляется создателем, в то время как в Applio было внесено много полезных, а так же спорных решений, но обо всем по порядку. Сразу поясню, что в руководстве не будет объясняться каждая функция программы, но информации в нем будет достаточно для полноценной работы. В первую очередь стоит начать с того, где скачать, а так же как запустить программу.Скачать ее можно с официального репозитория автора - Hispano. Вы можете скачать как исходники проекта на Github и скомпилировать проект самостоятельно, так и скачать уже скомпилированную программу на Hugging Face. Для простоты использования рекомендуется скачивать скомпилированную версию программы самой последней версии, поскольку с каждым новым обновлением разработчик вносит множество изменений, которые добавляют новые функции и отлаживает работу старых. Не исключено, что в определенные моменты именно то, что Вам нужно, будет находится в новой версии программы, поэтому периодически рекомендую программу обновлять. На момент написания руководства финальной версией является Applio 4.2.7. Скачиваем и распаковываем архив. В папке ищем и запускаем run-applio.bat - откроется командная строка. Первый запуск программы всегда долгий, это актуально так же и для запуска программы после перезагрузки ПК. При корректном ассоциировании открытия ссылок у Вас должна будет открыться страница localhost с портом 6969, если этого не произойдет, то скопируйте адрес из командной строки веб-интерфейса программы или перейдите по ссылке http://127.0.0.1:6969 в любом браузере. При старте нас встретит окно Вывода. Поле "голосовая модель" позволяет выбрать модель для преобразования аудиофайла, а поле для "индексный файл" - индекс. Для корректного обнаружения этих файлов рекомендую размещать их в папку logs программы. Модель и индекс можно скачать на просторах сети. В папке logs можно создавать подпапки и они не будут препятствовать определению файлов, поэтому если Вы сторонник удобства, то рекомендую файлы модели и индекса размещать сразу папкой в logs. Чуть ниже имеются кнопки выгрузки голоса и обновления. Первая кнопка убирает модель в качестве используемой, вторая - позволяет заново выполнить сканирование папок. Очень полезно в тех случаях, когда в папку добавляется новая модель после запуска программы, в ином случае ее потребовалось бы перезагружать. Следующее поле позволяет выбрать тип преобразования - одиночный, либо пакетный. В случае с одиночным преобразованием все очень просто - укажите путь, либо перекиньте файл с аудио, который хотите преобразовать. Для пакетного преобразования необходимо указать путь сначала для файлов, которые необходимо преобразовать, а затем указать путь (или оставить по умолчанию) для конечный файлов, которые будут получены после преобразования. Далее можно обнаружить поле "Выберите аудио". Каждый добавленный нами файл дублируется в папку Applio\assets\audios и Вы можете переключаться между ними, если Вы выполнили несколько преобразований. При желании даже можно преобразовать снова тот файл, который будет получен в итоге, поскольку по умолчанию они так же находятся в данной папке и имеют тоже название, что и преобразованный файл с именем в конце _output и выбранное расширении. Теперь нас ждет самое важное и объемное поле - "расширенные настройки". Хотел бы так же обратить Ваше внимание на то, что применение любых параметров из списка, кроме алгоритма и embedder mobel, при повторном преобразовании файла происходит очень быстро, поэтому при желании Вы можете ознакомиться с влиянием каждого эффекта посредством повторных преобразований. Рекомендую переименовывать выходной файл в тех случаях, когда имеется желание сравнить результаты. Теперь начнем по порядку по каждому пункту: - Очистить выходные данные: нажатие по ней удаляет все файлы, которые были получены при преобразовании. Файл, который будет преобразовываться, остается в папке. Отмечу, что повторное преобразование будет длительным. - Export format: Дословно "формат экспортирования". Рекомендуется использовать тот же формат, что у оригинального файла. Форматы wav и flac являются наиболее предпочтительными, поскольку эти типы используют сжатие без потерь, однако при этом полученные файлы будут большого объема. Насколько качественными будет сжатие в другие форматы я, увы, не смогу сказать - как я понимаю для всех процедур используется ffmpeg, а это весьма качественный набор библиотек, поэтому выбор формата исключительно на Ваше усмотрение. - Разделить аудио: Нарезка выходного аудиофайла на фрагменты при преобразовании. Использование на Ваше усмотрение, поскольку не всегда отрабатывает корректно и может сократить конечный файл до 30 секунд. Может быть полезно для слабых устройств или файлов большого объема, которые не могут быть обработаны за раз. - Автотюн: добавление эффекта автотюна, используется для вокала. Использование на Ваше усмотрение и зависит от творческого видения. Сразу выскажу свое мнение по дополнительным эффектам, чтобы в последствии не повторяться - по гораздо проще и удобнее обработать выходной аудиофайл в аудиоредакторе, чем использовать эффекты при преобразовании, поскольку в этом случае у Вас не будет возможности откатиться на предыдущий результат, изменить какие-то определенные участки и т.д. Если же у Вас не хватает навыков и Вы не хотите осваивать аудиоредакторы для добавления необходимых эффектов, то можете попробовать сделать это через сам Applio. Я же в свою очередь продолжу. - Очистить аудио: встроенный шумодав, он же de_noiser - очистка аудио от шумов. Количество шумов зависит напрямую от использованных при обучении моделей аудиофайлов. Чем чище модель, тем меньше шумов, особенно если аудиоматериалы прошли пост-обработку, поэтому как и с автотюном - использование на Ваше усмотрение. - Upscale audio: улучшение качества звучания конечного файла. В логах не сообщается, каким именно образом происходит улучшение, поэтому используйте по Вашему усмотрению. Примечание от автора: рекомендуется использование для низкокачественного аудиосигнала, увеличивается время обработки - Formant shifting: увы, не смогу дать пояснения и рекомендации по данному пункту. Примечание от автора: Включиние сдвиг формант. Используется для преобразования мужского голоса в женский и наоборот. - Post-process: пост-обработка выходного файла. Наложение эффектов и их последующая настройка, множество опций необходимы для вокала или иного творческого замысла. Сейчас же мы наконец-то дошли до этапа, который напрямую влияет на выходной материал при преобразовании моделью. Итак: - Высота тона: указания тона для преобразуемого файла. Низкий тон делает голос более грубым, а высокий с точностью наоборот. Если Ваш голос отличается в ту, либо иную сторону от голоса модели, то с помощью изменения значения в данном пункте можно улучшить конечное преобразование и приблизиться к голосу того человека, на основе которого была создана модель. Для преобразования из женского голоса в мужской рекомендуются значения: -12, из мужского в женский: +12, но присутствует зависимость от особенностей голоса, поэтому лучше подбирать значения самостоятельно. - Радиус фильтра - включение фильтрации для уменьшения излишнего дыхания. Рекомедуется оставлять значение на 3. - Соотношения объектов поиска - один из главных параметров при преобразовании, который при неправильных значениях может исказить конечный результат. Поскольку большинство моделей на момент выпуска гайда обучено на англоязычном претрейне, то высокие значения индекса могут привести к деффектам произношения, но в тоже время, чем выше значение индекса, тем наиболее близко преобразованный голос будет похож на голос модели. Во многом качество и отсутствие акцента преобразования с высоким индексом зависит от схожести изначального голоса и голоса модели и чем они ближе, тем ниже шанс возникновения артефактов и акцента при наибольшей похожести. Мои рекомендации будут следующими - установите значение индекса на 0 и выполните преобразование, скорректируйте другие значения для получения наилучшего результата, а уже после увеличивайте индекс до появления заметных дефектов преобразованного голоса. - Огибающая громкости: смещение громкости конечного файла. При значении на 1 используется тот же уровень громкости, что и у оригинального аудиофайла. Полезно в тех случаях, если изначальный материал слишком тихий или громкий, может помочь в тех случаях, когда оригинальный материал записан с перегрузом. - Защита глухих согласных: по умолчанию значение установлено на 0.5, при котором функция отключена. Уменьшение значение приводит к предотвращению артефактах на согласных. При нулевом индексе влияние защиты минимально, а то и вовсе отсутствует. Чем ниже значение защиты, тем больше оказывается эффект, но снижаются параметры индекса черт голоса модели. Говоря иначе - меньше шанс возникновения артефакта, но при этом меньшая приближенность к голосу модели. Количество артефактов у голоса, отличного от английского (для моделей, созданных на английском hubert) может не уменьшиться со снижением значения. - Алгоритм извлечения высоты тона: выбор алгоритма преобразования файла. Наиболее частыми в использовании являются rmvpe, fcpe и их сочетание. Так же rmvpe является наиболее распространенным алгоритмом для RVC v2, поскольку большинство моделей были изначально обучены на нем, FCPE недоступен для обучения. Rmvpe имеет хорошее сочетание производительности, качества и точности, FCPE так же имеет высокое качество, но самое главное - высокую скорость работы, в связи с чем он хорошо показал себя при преобразовании в реальном времени. Преобразование в реальном времени можно осуществить с помощью Voice-Changer от w-okada, о котором будет рассказано позднее. Ввиду малого числа материала в ру-сегменте по самому проекту, а тем более по используемым в RVC алгоритмам, я не смогу предоставить подробные данные по сравнению этих двух алгоритмов. Считается, что FCPE лучше подходит для преобразования речи, особенно в реальном времени, в то время как RMVPE лучше подходит для вокала. Связано это с лучшей точностью и совпадением последнего, благодаря чему полученный с RMVPE голос будет гораздо более приближен к голосу модели, в то время как FCPE будет быстрее справляться с поставленной задачей и иметь меньше артефактов. Мое мнение такого, что стоит преобразовывать материал сразу на двух алгоритмах, то есть один экземляр на Rmvpe, а второй на FCPE и уже в дальнейшем выбирать наиболее удачные "дубли". - embedder Model: важнейший из всех параметров, используемых для преобразования речи. Для версии Applio 4.2.7 стандартная модель hubert, обученная на англоязычной базе голосов, была заменена на contentvec. Contentvec является приемником hubert, имеет большую точность и меньшее число ошибок в определении произношения в сравнении с другими алгоритмами. Но, как в случае с hubert - обучение базы производилось на англоязычной речи, в связи с чем произношение на иных языках может иметь дефекты и артефакты. Помимо contentvec в Applio доступны так же и другие базы, созданные на китайском, японском и корейском, которые в некоторых аспектах ближе по произношению к русскому, чем английский. Однако, в отличии от contentvec, свободно работающим с моделями, обученными hubert-base (англоязычной базы) преобразование файла с другими базами, увы, несовместимо, ввиду невозможности сопоставления произношения. В этом случае для использования hubert на иных языках необходимо использовать именно ту модель, которая обучалась на этом же hubert. С качеством произношения на разных hubert Вы можете самостоятельно ознакомиться в приложенной ниже демонстрации моделей, основанных на одном и том же наборе аудиофайлов: (далее "датасете") (ссылка) Итак, мы добрались до финала и готовы преобразовать голос на выбранных нами параметрах. После завершения процесса доступны различные функции при воспроизведении, а так же сохранения полученного материала. По функционалу воспроизведения, думаю, не требуются особые пояснение, а вот по сохранению есть моменты, которые стоит уточнить. По стрелке, расположенной в правом верхнем углу поля "экспортировать аудио" можно сохранить преобразованный нами аудиофайл. Этот же файл доступен в папке ...\assets\audios\, он имеет тоже название, что и наш изначальный файл с дополнительным комментарием _output. Данный файл будет доступен в папке до момента очистки преобразованных аудиодорожек, либо пока мы не выполним повторное преобразование, поэтому если Вас устраивает полученный результат, но по какой-то причине Вам не удалось сохранить его через браузер, то рекомендую перенести его в любую другую папку, чтобы ненароком его не перезаписать. С преобразованием голоса голосовой моделью все, максимально подробно, в меру моих познаний и опыта работы с RVC, далее я расскажу о другой функционале Applio и начну я с TTS, он же Text-to-speech, он же Текст-в-речь. Обучение модели пока пропустим, поскольку там есть много того, на чем стоит сделать акцентировать. Переходим на вкладку TTS Левое и правые поля схожи с выбором модели для преобразования - выбирайте желаемую и укажите индекс, если тот не подцепится автоматически. Голоса TTS - это голосовые TTS модели на движке Edge. Для разных языков имеется несколько вариантов, отличающихся произношением, полом и самим голосом. Для примера: для английского имеется вариант американского, австралийского и другие вариации произношений. для русского языка их лишь два: мужской - RU-DmitryNeural, а так же RU-SvetlanaNeural. Советую просто набрать в строке поиска RU, чтобы сразу вывести в списке нужную модель. Следующее поле позволяет выбрать вариант ввода текста и для Applio доступны как ввод текста в интерфейсе программы, так и загрузка файла в формате .txt. Все остальные поля в разделе "Расширенные настройки" совпадают по функционалу с ранее описанным при преобразовании аудио. Теперь об обучении. (будет добавлено позднее) Демонстрация моделей и ссылки на скачивание: Спойлер Скачать c Weight-GGСкачать с Hugging-Face (все доступные модели) Спойлер Скачать с Weigh-GG (модель Sidorovich-comp_de-esser_no-noise) Скачать с Hugging-Face (все доступные модели) Спойлер Скачать c Weight-GGСкачать с Hugging-Face (все доступные модели) Спойлер Скачать c Weight-GGСкачать с Hugging-Face (все доступные модели) Спойлер Скачать c Weight-GGСкачать с Hugging-Face (все доступные модели) Спойлер Скачать c Weight-GGСкачать с Hugging-Face (все доступные модели) Спойлер Скачать c Weight-GGСкачать с Hugging-Face (все доступные модели) Спойлер Скачать с Weight-GG Скачать с Hugging-Face (все доступные модели) Спойлер Скачать с Weight-GG Скачать с Hugging-Face (все доступные модели) Спойлер Скачать с Weight-GGСкачать с Hugging-Face (все доступные модели) Спойлер Скачать с Weight-GGСкачать с Hugging-Face (все доступные модели) Спойлер Скачать с Weight-GGСкачать с Hugging-Face (все доступные модели) Спойлер Скачать с Weight-GGСкачать с Hugging-Face (все доступные модели) Спойлер Скачать с Weight-GGСкачать с Hugging-Face (все доступные модели) Спойлер Скачать с Weight-GGСкачать с Hugging-Face (все доступные модели) Спойлер Скачать с Weight-GGСкачать с Hugging-Face (все доступные модели) Спойлер Скачать с Weight-GGСкачать с Hugging-Face (все доступные модели) Спойлер Скачать с Weight-GGСкачать с Hugging-Face (все доступные модели) Спойлер Скачать с Weight-GGСкачать с Hugging-Face (все доступные модели) Спойлер Скачать с Weight-GGСкачать с Hugging-Face (все доступные модели) Спойлер Скачать с Weight-GGСкачать с Hugging-Face (все доступные модели) Спойлер Скачать с Weight-GG Спойлер Скачать с Weight-GG (модель boroda-desser-comp-de_noise)Скачать с Hugging-Face (все доступные модели) Спойлер Демонстрация появится позднееСкачать с Weigh-GG (модель kardan-comp_de-esser_no-noise)Скачать с Hugging-Face (все доступные модели) Спойлер Демонстрация модели появится позднее Скачать с Weigh-GG (модель tereshuk-comp_de-esser_no-noise)Скачать с Hugging-Face (все доступные модели) Спойлер Демонстрация модели появится позднее Скачать с Weigh-GG (модель plahov-comp_de-esser_no-noise)Скачать с Hugging-Face (все доступные модели) Спойлер Демонстрация модели появится позднее Скачать с Hugging-Face (все доступные модели) Спойлер Демонстрация появится позднееСкачать на Hugging-Face (все доступные модели) Спойлер Демонстрация модели появится позднее Скачать с Hugging-Face (все доступные модели) Спойлер Демонстрация модели появится позднее Скачать с Hugging-Face (все доступные модели) Спойлер Демонстрация модели появится позднее: Скачать с Hugging-Face (все доступные модели) Спойлер Демонстрация появится позднее: Скачать с Hugging-Face (все доступные модели) Спойлер Демонстрация модели появится позднее Скачать с Hugging-Face (все доступные модели) Спойлер Демонстрация модели появится позднееСкачать с Hugging-Face (все доступные модели) Спойлер Демонстрация модели появится позднее Скачать с Hugging-Face (все доступные модели) Спойлер Демонстрация модели появится позднее Скачать с Hugging-Face (все доступные модели) Спойлер Демонстрация модели появится позднее Скачать с Hugging-Face (все доступные модели) Спойлер Демонстрация модели появится позднееСкачать с Hugging-Face (все доступные модели) Изменено 10 ноября пользователем Warlock700 Добавлена новая модель 18 7 3 6 2 1 Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты
Phantom_86 97 Опубликовано 16 апреля, 2024 Warlock700 Cкомпилированная - это которая pickle? Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты
Warlock700 123 Опубликовано 16 апреля, 2024 8 минут назад, Phantom_86 сказал: Warlock700 Cкомпилированная - это которая pickle? Обе версии на скриншоте одинаковы, одна является упакованной в .exe со строенным распаковщиком 7zip, а другая просто упакована в архив .zip. Она является "pickle" из-за того, что загружена последней, говоря иначе - свежая загрузка. 1 Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты
Phantom_86 97 Опубликовано 18 апреля, 2024 Warlock700 Со скомпилированной тоже не выходит. При обычном запуске run-applio.bat - пустой батник открывается, а от имени администратора - это Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты
Warlock700 123 Опубликовано 18 апреля, 2024 (изменено) 6 часов назад, Phantom_86 сказал: Warlock700 Со скомпилированной тоже не выходит. При обычном запуске run-applio.bat - пустой батник открывается, а от имени администратора - это Предустановленный питон точно не требуется, у меня все проекты на нейросетях портативные, где питон уже имеется в папке, со всеми зависимостями и прописанными путями. Вы до этого говорили, что ругался Ваш антивирус. Судя по всему именно он вносит изменение в запускной файл. Содержание run-applio.bat должно быть таким: Спойлер @echo off setlocal title Applio if not exist env ( echo Please run 'run-install.bat' first to set up the environment. pause exit /b 1 ) env\python.exe app.py --open echo. pause Так же очень похоже на то, что запуск батника осуществляется не из папки Applio, из-за чего не совпадают пути и возникает ошибка о том, что python.exe не является исполняемой программой/средой, поскольку система осуществляет запуск по пути "c:\Windows\System32", где такой папки и файла нет. Если Вы хотите сделать себе запускной ярлык - создайте его именно для данного файла. Пример: Изменено 18 апреля, 2024 пользователем Warlock700 Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты
Phantom_86 97 Опубликовано 18 апреля, 2024 (изменено) Warlock700 Запускаю из папки, которую и распаковал. С выключенным брандмауэром то же самое.. Батник идентичен содержанию спойлера Изменено 18 апреля, 2024 пользователем Phantom_86 Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты
Warlock700 123 Опубликовано 18 апреля, 2024 (изменено) 2 часа назад, Phantom_86 сказал: Warlock700 Запускаю из папки, которую и распаковал. С выключенным брандмауэром то же самое.. Батник идентичен содержанию спойлера Кажется, я понял, в чем причина - Вы недостаточное время ждете, пока осуществится запуск программы. В моем случае на Ryzen 7500F и запуске с HDD первый запуск Applio осуществляется чуть больше минуты. Судя по всему так долго подгружаются процессы, ищутся зависимости или т.п.: Видео с демонстрацией распаковки и запуска, распаковка ускорена в 6 раз: Изменено 18 апреля, 2024 пользователем Warlock700 1 Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты
Phantom_86 97 Опубликовано 18 апреля, 2024 Warlock700 Реально, надо подождать лишь было) Храни тебя господь Дополнено 5 минуты спустя Warlock700 Я правильно понимаю, что если хочу например вашу модель задействовать, то мне надо содержимое, скачанное с weights gg кинуть в папку logs, что в каталоге апплио? 1 Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты
Kuroneko 0 Опубликовано 18 апреля, 2024 Где можно прочитать инструкцию по applio? Настройка при обучении? Озвучивании текста и т.д. Т.к. придётся ещё для ещё двух старых игр создавать озвучку (star wars jedi knight ii jedi outcast & star wars jedi knight jedi academy) = с тех пор как фанаты озвучили игры, произошли изменения в тексте перевода и существенные. Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты
Warlock700 123 Опубликовано 18 апреля, 2024 30 минут назад, Phantom_86 сказал: Warlock700 Реально, надо подождать лишь было) Храни тебя господь Дополнено 5 минуты спустя Warlock700 Я правильно понимаю, что если хочу например вашу модель задействовать, то мне надо содержимое, скачанное с weights gg кинуть в папку logs, что в каталоге апплио? Не за что.) Да, необходимо разместить файлы модели расширения .pht и .index в папку logs. Файл metadata.json для преобразования аудио не нужен, он автоматически добавляется сайтом weight-gg, в нем продублирована информация со страницы модели. Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты
Phantom_86 97 Опубликовано 18 апреля, 2024 Warlock700 Почему может ошибку выдавать? Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты
Warlock700 123 Опубликовано 18 апреля, 2024 (изменено) В 18.04.2024 в 15:02, Kuroneko сказал: Где можно прочитать инструкцию по applio? Настройка при обучении? Озвучивании текста и т.д. Т.к. придётся ещё для ещё двух старых игр создавать озвучку (star wars jedi knight ii jedi outcast & star wars jedi knight jedi academy) = с тех пор как фанаты озвучили игры, произошли изменения в тексте перевода и существенные. На первой странице есть ролики по RVC, они не отличаются своими действиями от Applio - так же необходимо указать путь к папке с дата-сетом ( аудиоматериалом(ами) ), выбрать версию претрейна v2, установить частоту модели, (рекомендуется 40 Кгц, зачастую работает лучше 48 Кгц) алгоритм обучения выбрать rmvpe. Однако, я бы не рекомендовал производить обучение моделей в Applio по причине того, что в нем в качестве мощностей для обучения будет использован CPU, а не GPU. Разработчик еще не реализован данную функцию. Размер партии (батча) обычно устанавливается того же объема, что и объем видеопамяти. В своем случае я ставлю для RTX3060 12 gb значение на 11, поскольку при значении 12 и использовании ПК в других задачах обучение может вылететь. Количество эпох устанавливается в зависимости от объема дата-сета, опция "сохранять промежуточные модели" устанавливается по желанию. По большей части это все, что требуется, чтобы осуществить запуск обучения.TTS в Applio работает таким же образом, как и в RVC-TTS: Выбирается модель Edge по языку и полу, указывается модель для преобразования, (которая предварительно должна быть обучена/загружена) вводиться текст и запускается генерация. Applio сначала сгенерирует текст в Edge, после чего выполнит преобразование полученного материала, согласно выбранным параметрам. Для моих моделей, которые обучаются на англоязычном претрейне, рекомендуется устанавливать значение "соотношение поиска черт (поиска)" в среднем на не больше, чем 0.5. Этот параметр индивидуальный и зависит от схожести преобразовываемого голоса и голоса модели. Дополнено 4 минуты спустя В 18.04.2024 в 15:40, Phantom_86 сказал: Warlock700 Почему может ошибку выдавать? Порою не с первого раза Applio выполняет преобразование. В этом случае надо на крестик удалить добавленный файл и добавить его заново. А так же обязательно, чтобы консоль с запущенной программой была открыта и не закрывалась, пока с ней ведется работа. В принципе, рекомендовал бы использовать RVC - программа более стабильна, корректно выполняет преобразование и обучение. Изменено 19 апреля, 2024 пользователем Warlock700 Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты
Phantom_86 97 Опубликовано 18 апреля, 2024 Warlock700 а браузер, в котором открывается прога можно как-то поменять, думаю в нем тоже может быть дело Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты
Warlock700 123 Опубликовано 18 апреля, 2024 (изменено) 51 минуту назад, Kuroneko сказал: Где можно прочитать инструкцию по applio? Как писал до этого RVC и Applio практически не отличаются друг от друга, поскольку последний fork первого. Сам я обучался работе с RVC по роликам этого человека. Вся информация, которая может Вам потребоваться для обучения, набора материала и оценке качества моделей есть у данного пользователя:https://www.youtube.com/@ba1yya Дополнено 1 минуту спустя 3 минуты назад, Phantom_86 сказал: Warlock700 а браузер, в котором открывается прога можно как-то поменять, думаю в нем тоже может быть дело Не исключено. Просто копируйте ссылку из того браузера, в котором открылось приложение и вставляйте ее в другой. Использую лично Firefox, порою не с первого раза запускаю преобразование. По умолчанию это будет: http://127.0.0.1:6969/ Изменено 18 апреля, 2024 пользователем Warlock700 1 Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты
Phantom_86 97 Опубликовано 18 апреля, 2024 Warlock700 Однако с гугла заработало. Только Лебедев как-то странно "щёкает" вместо "ш", но думаю это прикол самой модели Речь Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты
Kuroneko 0 Опубликовано 18 апреля, 2024 6 минут назад, Phantom_86 сказал: Warlock700 Однако с гугла заработало. Только Лебедев как-то странно "щёкает" вместо "ш", но думаю это прикол самой модели Речь Ну точно речь как у японок в песне Катюша из аниме. Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты
Warlock700 123 Опубликовано 18 апреля, 2024 (изменено) В 18.04.2024 в 15:58, Phantom_86 сказал: Warlock700 Однако с гугла заработало. Только Лебедев как-то странно "щёкает" вместо "ш", но думаю это прикол самой модели Речь Отлично.) Процесс у Вас пошел.) Попробуйте изменить параметры в "расширенных настройках": Рекомендовал бы поиграться с параметрами "соотношение объектов поиска", по умолчанию оно установлено на 0.75, рекомендовал бы снизить его до значения 0.2, а если проблема останется, то сделать еще меньше. Можете так же попробовать поставить галочку "чистый звук", которая уберет шумы из аудиофайла. Лично не проверял, делаю это заранее в аудиоредакторах. В качестве алгоритма преобразование настоятельно рекомендую выставить Fcpe. Дополнено 7 минуты спустя В 18.04.2024 в 16:06, Kuroneko сказал: Ну точно речь как у японок в песне Катюша из аниме. Поскольку RVC был создан для англоязычных пользователей, то в качестве базы голосов (претрейн) используются англоязычные голоса. Эту проблему частично решил выход русскоязычных претрейнов, наиболее популярными являются Snowie и Rin-E3, однако полностью проблему они не решают, модели говорят с акцентом и артефактами, даже при чистой записи. Причина тому голосовая модель hubert-base, которая так же основана на англоязычных голосах. Лишь недавно стали появляться модели hubert на других языках, (итальянский и японский) но тут так же не обошлось без подводных камней - если модель была обучена на одном hubert, то другой неспособен ее использовать. Поэтому, пока не выйдет hubert_base для русского языка - продолжу обучать модели на англоязычном hubert. Переобучение на других претрейнах запланировано и будет, но позднее - сейчас я занимаюсь сортировкой голосов из Метро 2033. Мне осталось 2500 фраз обработать, продолжительностью в два часа. Сортирую вручную, не все голоса удается определять с первого раза или даже вообще. После этого все модели начнут переобучаться, а так же к ним будут применены различные варианты обработки и т.п. Дополнено 18 минуты спустя В 18.04.2024 в 15:58, Phantom_86 сказал: Warlock700 Однако с гугла заработало. Только Лебедев как-то странно "щёкает" вместо "ш", но думаю это прикол самой модели Речь Поэкспериментировал с этим же аудиофайлом (оригинал) - даже на индексе 0 не удалось полностью избавиться от проблем на шипящих, но результат в разы лучше. В своем варианте я попробовал еще понизить тон до -2 (в Applio это "Смола")https://disk.yandex.ru/d/BXqRfiQIpdN7kw P.S.: Файл поправил, случайно залил оригинальный файл Мельника. Изменено 22 августа пользователем Warlock700 Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты
Kuroneko 0 Опубликовано 18 апреля, 2024 44 минуты назад, Warlock700 сказал: На первой странице есть ролики по RVC, они не отличаются своими действиями от Applio - так же необходимо указать путь к папке с дата-сетом ( аудиоматериалом(ами) ), выбрать версию претрейна v2, установить частоту модели, (рекомендуется 40 Кгц, зачастую работает лучше 48 Кгц) алгоритм обучения выбрать rmvpe. Однако, я бы не рекомендовал производить обучение моделей в Applio по причине того, что в нем в качестве мощностей для обучения будет использован CPU, а не GPU. Разработчик еще не реализован данную функцию. Размер партии (батча) обычно устанавливается того же объема, что и объем видеопамяти. В своем случае я ставлю для RTX3060 12 gb значение на 11, поскольку при значении 12 и использовании ПК в других задачах обучение может вылететь. Количество эпох устанавливается в зависимости от объема дата-сета, опция "сохранять промежуточные модели" устанавливается по желанию. По большей части это все, что требуется, чтобы осуществить запуск обучения. для 4090 с 24gb какие значения ставить в Шаг 3. Заполнение дополнительных настроек обучения и запуск обучения модели и индекса для RVC-TTS? (размер пачки это партии/батча) Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты
Warlock700 123 Опубликовано 18 апреля, 2024 (изменено) 13 минут назад, Kuroneko сказал: для 4090 с 24gb какие значения ставить в Шаг 3. Заполнение дополнительных настроек обучения и запуск обучения модели и индекса для RVC-TTS? (размер пачки это партии/батча) Рекомендовал бы попробовать установить batch (партия) на значение в 22 для небольшого дата-сета в размере до 10 минут на максимальное количество эпох (1000) и посмотреть, как будет проходить процесс обучения. Если планируете попутно во что-то играть, а не использовать компьютер только для браузера, то если игры не будут тяжеловесными, устанавливайте batch на значение 20. Если процесс дойдет до конца - пробуйте повысить значение на одну единицу. Сразу уточню - batch практически, либо не влияет на качество конечной модели. Споры активно идут, но пока разница минимальна, либо на уровне погрешности. batch (партия) отвечает за поток данных для обучения и чем он выше, тем быстрее модель обучится. Поэтому тут все методом проб и ошибок подбирается. Модели для преобразования в TTS и для преобразования живой речи не отличаются. Для вокальных моделей нужен, естественно, максимально чистый вокал исполнителя. В последнем случае еще рекомендуется добавлять небольшое количество речи. Это так, к слову...) Изменено 18 апреля, 2024 пользователем Warlock700 1 Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты
Африканка Валерия 6 Опубликовано 18 апреля, 2024 Надо бы модельки сильнее обучить. ))) Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты
Warlock700 123 Опубликовано 18 апреля, 2024 (изменено) 1 час назад, Африканка Валерия сказал: Надо бы модельки сильнее обучить. ))) Я обучаю модели, набирая максимальное количество возможных фраз, формируя дата-сет из чистых записей, без эффектов рации и надетого шлема, предварительно очищая (новые модели) аудиоматериал от шума. При этом я использую максимальное значение для тренировок - 1000 эпох, а затем выбираю лучшую модель по графикам Tenserboard. Не для всех персонажей можно набрать много фраз, даже если перелопатить (что я сделал) три части игры, тем более в некоторых персонажи присутствуют лишь в одной части. По этой причине я стал добирать материал из первых двух частей Метро 2033 и когда закончу сортировку, то начну повторное обучение моделей, применяя различные варианты обработки, (тщательное удаление шумов, нормализация, эквализация, де-эссер и т.д.) а так же используя русскоязычные претрейны, которые могут повысить качество произношения моделей. Помимо всего прочего я работаю совместно с одним человеком над вокальной моделью (Валерий Кипелов) и для нее он подготавливает дата-сет согласных букв, на которых, зачастую, и происходят артефакты, особенно шипящие, "С" и "З". Я уже пробовал добавлять раннюю версию этого дата-сета к файлам для обучения голосовых моделей и результат становился лучше, для вокальной модели так точно. Поэтому всему свое время.) Если не считать сортировки фраз из Метро, то проект находится в ожидании дата-сета согласных, после чего модели начнут активно переобучаться. Изменено 18 апреля, 2024 пользователем Warlock700 1 Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты
Warlock700 123 Опубликовано 28 апреля, 2024 (изменено) Оффтоп-модель: Мельник из Метро исход. Демонстрация возможностей: Спойлер https://www.weights.gg/ru/models/clvjxxs8k0lzvfu241gzh5dlk Изменено 28 апреля, 2024 пользователем Warlock700 2 Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты
Warlock700 123 Опубликовано 17 мая, 2024 (изменено) Протестирована и загружена модель персонажей, озвученных голосом Алексея Череватенко (Борода, Ной и др.) Обновлено описание - доступна загрузка моделей с разной обработкой и обученной на нескольких претрейнах (скачивание через Hugging Face) Демонстрация возможностей: Спойлер Скачать с Weight-GG (модель boroda-desser-comp-de_noise)Скачать с Hugging-Face (все доступные модели) Изменено 17 мая, 2024 пользователем Warlock700 1 1 Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты
Phantom_86 97 Опубликовано 19 мая, 2024 За Череватенко респект, то, чего так долго не хватало) Хотел бы помочь в расширении пака сталкерских голосов, потому может полезно будет: Я раньше для Silero бота собирал реплики из сталкера\метро, но их подход потом как-то перестал вызывать доверие. В общем есть у меня собранные полные паки реплик по 15 секунд для голоса Кардана и Вано (Игорь Мельников) из реплик персонажей Метро 2033 и второй голос бандитов из сталкера, озвученных Терещуком (все реплики из ТЧ, ЧН, ЗП). Хотелось бы верить что пригодится.https://cloud.mail.ru/public/qBar/YFiZh12Xe - Кардан\Вано ака Мельников https://cloud.mail.ru/public/UJeq/GcxQvXd7c - Бандиты Терещука 1 Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты
Warlock700 123 Опубликовано 19 мая, 2024 (изменено) 3 часа назад, Phantom_86 сказал: За Череватенко респект, то, чего так долго не хватало) Хотел бы помочь в расширении пака сталкерских голосов, потому может полезно будет: Я раньше для Silero бота собирал реплики из сталкера\метро, но их подход потом как-то перестал вызывать доверие. В общем есть у меня собранные полные паки реплик по 15 секунд для голоса Кардана и Вано (Игорь Мельников) из реплик персонажей Метро 2033 и второй голос бандитов из сталкера, озвученных Терещуком (все реплики из ТЧ, ЧН, ЗП). Хотелось бы верить что пригодится.https://cloud.mail.ru/public/qBar/YFiZh12Xe - Кардан\Вано ака Мельников https://cloud.mail.ru/public/UJeq/GcxQvXd7c - Бандиты Терещука Меня еще давно просили сделать по голосу Бороды модель, но материала (чистого, без эффектов) в игре было мало, но подсказали вариант с добором из фраз в Метро 1-2. Silero имеет куда более низкое качество, чем даже самая плохая голосовая модель, поскольку это все-таки TTS... Приятно подобное слышать.) Спасибо, но материала у меня более, чем достаточно.) Весь он отсортирован по папкам, для некоторых актеров даже по роли. На ютубе выкладывал список, продублирую сюда: На текущий момент по вселенной Метро и Сталкер имеется такое количество материала: Анна Метро Исход - 10 минут; Анна Метро 1-2 - 9 минут; Артем Метро 1-2 - 57 минут; Григорий Герман (Бандиты, Наемники) - 2 часа 21 минута; Череватенько (Ной, Борода) - 27 минут; Терещук (Военные) - 1 час 9 минут; Розин (Гонта) - 55 минут; Морозов (Дегтярев) - 55 минут; Вилков (Долг) - 1 час 33 минуты; Пашин (Мельник, Ковальский) - 1 час 6 минут; Корбут, Москвин - 24 минуты; Кордан, Вано - 4 минуты 30 секунд; Сахаров, Лесник, Федя - 26 минут; Лесницкий - 4 минуты; Мельник Метро Исход - 12 минут 40 секунд; Неизвестный голос 1 из Метро - 4 минуты 20 секунд; Неизвестный голос 2 из Метро - 7 минут 30 секунд; Группировка Монолит - 15 минут; Малуха (Новички, экологи) - 46 минут; Новички (Гофуров) - 12 минут; Прохоров - 44 минуты; Ребенок Метро - 4 минуты 50 секунд; Богуш (Свобода) - 1 час 6 минут; Сидорович ТЧ - 9 минут 20 секунд; Стальчук (Сталкеры, Лебедев) - 2 часа 21 минута; Флинт - 5 минут; Халецкий - 5 минут 35 секунд; Черный (ребенок) - 11 минут 40 секунд; Для моделей мне необходимо только две вещи - время, так же узнать, чьи я собрал голоса и отсортировал в папки "неизвестный голос 1 из Метро" и "неизвестный голос 2 из Метро". Я их отметил для себя, как "Молодой" и "Старый". Неизвестный голос "Старого" мне очень напомнил Юрия Яценко - голос озвучки Военных из Зова Припяти, встречающихся по сюжету. Согласно stalker-wiki он озвучивал часть фраз этих персонажей: уникальных персонажей: Прапорщик Валентир Лейтенант Подорожный Лейтенант Роговец Лейтенант Смирнов Лейтенант Стеценко Капитан Тарасов Но когда я посмотрел титры и каст актеров русского дубляжа, то его там не увидел. Я буду очень благодарен тому, что сможет сказать, верно ли я выполнил сортировку, а так же за подсказку, кто именно озвучивал фразы из архивов. Если я действительно прав и неизвестный голос "Старого" - это действительно Яценко, то я смогу сделать полноценную модель по военным из госпиталя. Неизвестный голос 1 из Метро (Молодой) - Скачать - Google.Drive Неизвестный голос 2 из Метро (Старый) - Скачать - Google.Drive Изменено 19 мая, 2024 пользователем Warlock700 Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты
Phantom_86 97 Опубликовано 19 мая, 2024 Warlock700 Молодой - это точно один из разрабов 4а, который вместе с Профом из GSC перешел (уж не помню фамилию). В билдах Метро все реплики были озвучены им на пару с Профом, ну и как видно некоторые дошли до релиза (к слову его можно слышать также в некоторых билдах сталкера - Например). По старому - разрываюсь между Яценко и Сергеем Тихомировым (Тремор), еще повслушиваюсь. "Кордан, Вано - 4 минуты 30 секунд" - это реплики только персонажей из ЗП, или уже включены фразы персонажей из Метро 2033, которые я выше скинул? Ну и кстати, если вы заинтересованы в большом количестве материалов, то могу скинуть папку с озвучкой билда Metro Last light, где половина всей игры озвучена Прохоровым, чего нет в релизе. Дополнено 22 минуты спустя Warlock700 Поправочка, как выяснилось - в озвучке Метро не участвовали ни Яцекно, ни Тихомиров, так что "старый" - это актёр, не причастный к сталкеру. Спойлер Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты