Warlock700 61 Опубликовано 12 февраля, 2024 (изменено) Здравствуйте, Сталкеры. Ни для кого не секрет, что нейросети сейчас развиваются семимильными шагами, в свою очередь хотел бы Вам представить возможности одной из них. RVC-Project - проект, чьей основной задачей является обучение голосовых моделей и преобразование с их помощью аудиофайлов. Достаточно нескольких минут в качестве образца речи, чтобы получить практически идентичный голос, сохранив основные его черты, и я не мог пропустить такую возможность в отношении сталкерских голосов. Мною было обучено несколько моделей, основанных на речи персонажей из вселенной Сталкер. Для наглядной демонстрации предоставляю Вашему вниманию видеоролик, где собраны примеры по всем моделям, которые успел выпустить на текущий момент. Созданные модели не являются финальными версия, по мере возможностей они будут улучшаться и переобучаться в случае создания новых алгоритмов или улучшения обучения, выхода новых версий RVC, а так же при использовании новых версий предобученных баз. На текущий момент предобученная база основана на англоязычном дата-сете, в связи с чем в иных языках появляются заметные уху артефакты. Существуют неофициальные предобученные русскоязычные базы, под которые со временем будут переобучены все модели. Ссылки на них будут добавлены в данной теме по мере их выхода. Развитие проекта - патчноут: 13.02 - обучена модель Чехова и других свободовцев, озвученных голосом Григория Германа, проходит тестирование; 13.02 - обучена модель группировки Наемники, проходит тестирование; 13.02 - обучена модель Лесника, проходит тестирование; 13.02 - обучена модель речи Андрея Прохорова, основанная на черновых и релизных фразах, проходит тестирование; 13.02 - обучена модель Дегтярева, проходит тестирование; 13.02 - обучена модель коменданта Халецкого, проходит тестирование; 15.02 - протестирована и загружена модель Дегтярева; 15.02 - протестирована и загружена модель отца Валерьяна; 15.02 - протестирована и загружена модель Чехова и других бойцов Свободы в исполнении Григория Германа; 20.02 - протестирована и загружена модель Лесника; 21.02 - протестирована и загружена модель коменданта Халецкого; 22.02 - обучается, а в последствии будет протестирована модель новичков в озвучке Руслана Гофурова; 23.02 - обучена модель Лебедева, проходит тестирование; 04.03 - протестирована и загружена модель новичков в исполнении Руслана Гофурова; 04.03 - протестирована и загружена модель голосов персонажей, озвученных Андреем Прохоровым; 04.03 - протестирована и загружена модель Ковальского из ЗП и Мельника из первых двух частей Метро 2033; 14.03 - протестирована и загружена модель Лебедева; 06.04 - протестирована и загружена модель голосов персонажей, озвученных Иваном Розиным; (Гонта, Гаваец и др.) 29.04 - загружена оффтоп модель Мельника из Метро 2033 Исход. 17.05 - протестированы и загружены модели (разные претрейны) персонажей, озвученных голосом Алексея Череватенко (Борода, Ной и др.) 30.11 - протестированы и загружены оффтоп модели (разные претрейны) персонажей, озвученных голосом Владимира Плахова 30.11 - протестированы и загружены модели (разные претрейны) персонажей, озвученных голосом Владимира Терещука 30.11 - протестированы и загружены обновленные модели (разные претрейны и хуберты) Сидоровича 30.11 - протестированы и загружены модели (разные претрейны и хуберты) персонажей, озвученных голосом Игоря Мельника Ссылки на программное обеспечение, вводная информация и руководства: Спойлер RVC-Project - обучение моделей, преобразование аудиофайлов: скачатьVoice-changer от W-Okada - преобразование голоса в реальном времени: скачатьApplio - fork RVC, доступны все функции оригинального проекта, есть встроенный Text-to-Speech RVC-TTS - версия программы, способная генерировать любой текст и озвучивать его встроенными в движок Edge моделями с последующим преобразованием полученного результата голосовой моделью RVC. Скомпилированный пользователем с просторов сети RVC TTS:https://drive.google.com/file/d/1Lf6LOyFUcMh6BYcNTv_xPw4M_aSBNgb8/view Страница с кодом и инструкцией по самостоятельной компиляции:https://github.com/litagin02/rvc-tts-webui Спойлер При обучении моделей используются разные методы обработки, предобученные базы (далее претрейны) и модели hubert. Число моделей проекта RVC Stalker Voices постоянно растет, а краткое описание названий данных моделей вызывает недопонимание. Чтобы внести ясность необходимо предоставить вводную информацию и рассказать про каждый тип модели. И, пожалуй, стоит начать с теории:HuBERT — это модель для самообучающегося представления речи. Она основана на методах, похожих на используемые в модели BERT (Bidirectional Encoder Representations from Transformers), но адаптирована для обработки аудиосигналов. Основная идея HuBERT — обнаружить дискретные скрытые единицы, чтобы преобразовать речевые данные в более «языковую» структуру. HuBERT можно использовать для автоматического распознавания речи, а также для её генерации. ContentVec — это сеть для обучения речевых представлений, которая стремится удалить информацию о говорящем, предотвращая потерю содержательной информации. Метод основан на платформе HuBERT и включает механизмы для регуляризации как учительских меток, так и полученных представлений. Pretrained model — это предварительно обученная модель в области глубокого обучения, которая обучается на больших датасетах для выполнения конкретной задачи. Такая модель служит основой для различных задач, используя усвоенные закономерности и особенности. После обучения pretrained модель проходит процесс тонкой настройки, где веса и параметры модели корректируются для адаптации к конкретной задаче. Все доступные на текущий момент базы речевых представлений и предобученных моделей доступны по ссылке:https://huggingface.co/Politrees/RVC_resourcesБольше информации о претренированных моделях:https://docs.google.com/document/d/1j9J8A8Oop9bMOHmCs3jDXzPujuD6TQ0Q396rJ0MyuIc Какие имеются на текущий момент модели представления речи: - hubert_base - основная модель, встроенные в клиенты RVC и некоторых форков по умолчанию. Создана Facebook. - contentvec - основная модель для последних версий Applio (форк RVC) и установленная по умолчанию. Имеет более высокую точность, в сравнении с hubert_base. (подробнее тут - ссылка) Если не вдаваться в подробности, то можно посмотреть результаты сравнения на скриншоте ниже. Создана группой программистов, чьи имена можно узнать из статьи по ссылке выше. - hubert-japanese - модель hubert, основанная на hubert_base и обученная на образцах японского языка общим объемом более 19000 часов. Обучена группой энтузиастов, проект имеет название rinna. И, как бы странно это не звучало, но фонетически японский язык очень приближен к русской речи, благодаря чему конечный материал имеет хорошую дикцию, а так же высокую точность преобразования. - hubert-chinese - модель hubert, обученная на базе WenetSpeech, материал для которой был набран в основном с YouTube и подкастов, охватывая различные типы сцен записи, фоновый шум, стили речи и т. д. Использовались аудиокниги, повествования, документальные фильмы, телесериалы, интервью, новости, чтения, выступления, развлекательные шоу и другие. Создана TencentGame. Модель так же имеет хорошую дикцию при работе с русской речью, но меньшую точность. Хорошо подойдет для необработанных аудиофайлов с "грязью".- hubert-korean - модель hubert, основанная на hubert_base, профинансированная министерством науки Кореи и обученная на образцах корейской речи в более 2000 часов. Создана группой lucid. Данная модель использовалась единожды при обучении модели Сидоровича и показала плохие результаты при преобразовании, внося дефекты в произношение. В дальнейших моделях использоваться не будет. - hubert-portuguese - модель hubert, обученная на португальском языке. Информацию по модели найти не удалось, создана shiromiya. Обученных моделей нет, качество произношения неизвестно. Обучение моделей не планируется. - hubert-russian - статус модели: создается сторонними авторами. Какие имеются предварительно предобученные базы - Rigel - информация будет добавлена позднее - Snowie - информация будет добавлена позднее - RIN_E3 - информация будет добавлена позднее - Ov2Super - информация будет добавлена позднее - TITAN - информация будет добавлена позднее - itaila - информация будет добавлена позднее - KLM - информация будет добавлена позднее - SingerPretrain - информация будет добавлена позднее - Anime - информация будет добавлена позднее - DMR - информация будет добавлена позднее - UKR - информация будет добавлена позднее - UKA - информация будет добавлена позднее - IMA_Robotic - информация будет добавлена позднее - Nanashi - информация будет добавлена позднее В случае с моделями RVC Stalker Voices, помимо использования разных претрейнов и моделей hubert используются так же разные методы их обработки. Для простоты понимания и наглядности в качестве примера будет взята модель Сидоровича:sidorovich_v2 (другие названия: sidorovich_v2-original, sidorovich_v2-ogg) - модель, обученная на второй версии претрейнов (все модели обучены на версии v2) и в которую не было внесено никаких изменений. В обучении участвуют только оригинальные файлы. Модели обучаются на hubert_base и contentvec.ВАЖНО - все модели изначально обучаются на пресете для частоты 40 Кгц, ввиду наибольшего распространения претрейнов и, со слов других энтузиастов, более лучших конечных результатов.sidorovich_v2_no-noise - модель, обученная после удаления шума. Используется встроенный в Adobe Audition инструмент шумоподавления с акцентированием на высокие частоты, в редких случаях второй "проход" осуществляется для низких частот. Если материал очень "грязный" - используются дополнительно плагины VST. Модели обучаются на hubert_base и contentvec.sidorovich_v2_comp_de-esser_no-noise - модель, обученная на основе образцов no_noise с применением встроенного в Adobe Audition инструмента де-эссеризации, а так же компрессии. Пресеты во всех моделях используются одинаковые и не настраиваются точечно. Если Вы умеете тонко работать со звуком, то можете пропустить. Модели обучаются на hubert_base и contentvec;sidorovich_v2_no_noise_auto_nectar - модель, обученная на основе образцов no_noise с применением автоматической обработки плагином iZotope Nectar 4. Применяются такие эффекты, как эквализация, компрессия, сатурация, де-эссеризация и другие, примененнные в ходе анализа ИИ образцов голоса для модели. Модели обучаются на hubert_base и contentvec;sidorovich_v2_comp_de-esser_no-noise-название_претрейна - модель, использующая в своей основе образцы для модели comp_de-esser_no-noise и обученная на претрейне указанном претрейне. Название претрейна, если он использовался, всегда находится в конце имени. Модели обучаются на hubert_base и contentvec;sidorovich_v2_comp_chinese (другое название - comp_china) модель, использующая в своей основе образцы для модели comp_de-esser_no-noise и обученная на модели hubert_chinese; sidorovich_v2-comp_japanese (другое название - comp_japan) - модель, использующая в своей основе образцы для модели comp_de-esser_no-noise и обученная на hubert_japanese;sidorovich_v2-comp-korean - модель, использующая в своей основе образцы для модели comp_de-esser_no-noise и обученная на hubert_korean. В дальнейших моделях применяться не будет. Спойлер В данном руководстве будут описана специфика работы в нейросети RVC: преобразование и обучение моделей. В качестве примера будет использоваться форк данного проекта - Applio, поскольку основной проект на текущий момент давно не обновляется создателем, в то время как в Applio было внесено много полезных, а так же спорных решений, но обо всем по порядку. Сразу поясню, что в руководстве не будет объясняться каждая функция программы, но информации в нем будет достаточно для полноценной работы. В первую очередь стоит начать с того, где скачать, а так же как запустить программу.Скачать ее можно с официального репозитория автора - Hispano. Вы можете скачать как исходники проекта на Github и скомпилировать проект самостоятельно, так и скачать уже скомпилированную программу на Hugging Face. Для простоты использования рекомендуется скачивать скомпилированную версию программы самой последней версии, поскольку с каждым новым обновлением разработчик вносит множество изменений, которые добавляют новые функции и отлаживают работу старых. Не исключено, что в определенные моменты именно то, что Вам нужно, будет находится в новой версии программы, поэтому периодически рекомендую программу обновлять. На момент написания руководства финальной версией является Applio 4.2.7. Скачиваем и распаковываем архив. В папке ищем и запускаем run-applio.bat - откроется командная строка. Первый запуск программы всегда долгий, это актуально так же и для запуска программы после перезагрузки ПК. При корректном ассоциировании открытия ссылок у Вас должна будет открыться страница localhost с портом 6969, если этого не произойдет, то скопируйте адрес из командной строки веб-интерфейса программы или перейдите по ссылке http://127.0.0.1:6969 в любом браузере. При старте нас встретит окно Вывода. Поле "голосовая модель" позволяет выбрать модель для преобразования аудиофайла, а поле для "индексный файл" - индекс. Для корректного обнаружения этих файлов рекомендую размещать их в папку logs программы. Модель и индекс можно скачать на просторах сети. В папке logs можно создавать подпапки и они не будут препятствовать определению файлов, поэтому если Вы сторонник удобства, то рекомендую файлы модели и индекса размещать сразу папкой в logs. Чуть ниже имеются кнопки выгрузки голоса и обновления. Первая кнопка убирает модель в качестве используемой, вторая - позволяет заново выполнить сканирование папок. Очень полезно в тех случаях, когда в папку добавляется новая модель после запуска программы, в ином случае ее потребовалось бы перезагружать. Следующее поле позволяет выбрать тип преобразования - одиночный, либо пакетный. В случае с одиночным преобразованием все очень просто - укажите путь, либо перекиньте файл с аудио, который хотите преобразовать. Для пакетного преобразования необходимо указать путь сначала для файлов, которые необходимо преобразовать, а затем указать путь (или оставить по умолчанию) для конечный файлов, которые будут получены после преобразования. Далее можно обнаружить поле "Выберите аудио". Каждый добавленный нами файл дублируется в папку Applio\assets\audios и Вы можете переключаться между ними, если Вы выполнили несколько преобразований. При желании даже можно преобразовать снова тот файл, который будет получен в итоге, поскольку по умолчанию они так же находятся в данной папке и имеют тоже название, что и преобразованный файл с именем в конце _output и в выбранном расширении. Теперь нас ждет самое важное и объемное поле - "расширенные настройки". Хотел бы так же обратить Ваше внимание на то, что применение любых параметров из списка, кроме алгоритма и embedder mobel, при повторном преобразовании файла происходит очень быстро, поэтому при желании Вы можете ознакомиться с влиянием каждого эффекта посредством повторных преобразований. Рекомендую переименовывать выходной файл в тех случаях, когда имеется желание сравнить результаты. Теперь начнем по порядку по каждому пункту: - Очистить выходные данные: нажатие по ней удаляет все файлы, которые были получены при преобразовании. Файл, который будет преобразовываться, остается в папке. Отмечу, что повторное преобразование будет длительным. - Export format: Дословно "формат экспортирования". Рекомендуется использовать тот же формат, что у оригинального файла. Форматы wav и flac являются наиболее предпочтительными, поскольку эти типы используют сжатие без потерь, однако при этом полученные файлы будут большого объема. Насколько качественными будет сжатие в другие форматы я, увы, не смогу сказать - как я понимаю для всех процедур используется ffmpeg, а это весьма качественный набор библиотек, поэтому выбор формата исключительно на Ваше усмотрение. - Разделить аудио: Нарезка выходного аудиофайла на фрагменты при преобразовании. Использование на Ваше усмотрение, поскольку не всегда отрабатывает корректно и может сократить конечный файл до 30 секунд. Может быть полезно для слабых устройств или файлов большого объема, которые не могут быть обработаны за раз. - Автотюн: добавление эффекта автотюна, используется для вокала. Использование на Ваше усмотрение и зависит от творческого видения. Сразу выскажу свое мнение по дополнительным эффектам, чтобы в последствии не повторяться - по мне гораздо проще и удобнее обработать выходной аудиофайл в аудиоредакторе, чем использовать их при преобразовании, поскольку в этом случае у Вас не будет возможности откатиться на предыдущий результат, изменить какие-то определенные участки и т.д. Если же у Вас не хватает навыков и Вы не хотите осваивать аудиоредакторы для добавления необходимых эффектов, то можете попробовать сделать это через сам Applio. Я же в свою очередь продолжу. - очистить аудио: встроенный шумодав, он же de_noiser - очистка аудио от шумов. Количество шумов зависит напрямую от использованных при обучении моделей аудиофайлов. Чем чище модель, тем меньше шумов, особенно если аудиоматериалы прошли пост-обработку, поэтому как и с автотюном - использование на Ваше усмотрение. - Upscale audio: улучшение качества звучания конечного файла. В логах не сообщается, каким именно образом происходит улучшение, поэтому используйте по Вашему усмотрению. Примечание от автора: рекомендуется использование для низкокачественного аудиосигнала, увеличивается время обработки - Formant shifting: увы, не смогу дать пояснения и рекомендации по данному пункту. Примечание от автора: Включиние сдвиг формант. Используется для преобразования мужского голоса в женский и наоборот. - Post-process: пост-обработка выходного файла. Наложение эффектов и их последующая настройка, множество опций необходимы для вокала или иного творческого замысла. Сейчас же мы наконец-то дошли до этапа, который напрямую влияет на выходной материал при преобразовании моделью. Итак: - Высота тона: указания тона для преобразуемого файла. Низкий тон делает голос более грубым, а высокий с точностью наоборот. Если Ваш голос отличается в ту, либо иную сторону от голоса модели, то с помощью изменения значения в данном пункте можно улучшить конечное преобразование и приблизиться к голосу того человека, на основе которого была создана модель. Для преобразования из женского голоса в мужской рекомендуются значения: -12, из мужского в женский: +12, но присутствует зависимость от особенностей голоса, поэтому лучше подбирать значения самостоятельно. - Радиус фильтра - включение фильтрации для уменьшения излишнего дыхания. Рекомедуется оставлять значение на 3. - Соотношения объектов поиска - один из главных параметров при преобразовании, который при неправильных значениях может исказить конечный результат. Поскольку большинство моделей на момент выпуска гайда обучено на англоязычном претрейне, то высокие значения индекса могут привести к деффектам произношения, но в тоже время чем выше значение индекса, тем наиболее близко преобразованный голос будет похож на голос модели. Во многом качество и отсутствие акцента преобразования с высоким индексом зависит от схожести изначального голоса и голоса модели и чем они ближе, тем ниже шанс возникновения артефактов и акцента при наибольшей похожести. Мои рекомендации будут следующими - установите значение индекса на 0 и выполните преобразование, скорректируйте другие значения для получения наилучшего результата, а уже после увеличивайте индекс до появления заметных дефектов преобразованного голоса. - Огибающая громкости: смещение громкости конечного файла. При значении на 1 используется тот же уровень громкости, что и у оригинального аудиофайла. Полезно в тех случаях, если изначальный материал слишком тихий или громкий, может помочь в тех случаях, когда оригинальный материал записан с перегрузом. - Защита глухих согласных: по умолчанию значение установлено на 0.5, при котором функция отключена. Уменьшение значение приводит к предотвращению артефактах на согласных. При нулевом индексе влияние защиты минимально, а то и вовсе отсутствует. Чем ниже данное значение защиты, тем больше оказывается эффект, но снижаются параметры индекса черт голоса модели. Говоря иначе - меньше шанс возникновения артефакта, но при этом меньшая приближенность к голосу модели. Количество артефактов у голоса, отличного от английского (для моделей, созданных на английском hubert) может не уменьшиться со снижением значения. - Алгоритм извлечения высоты тона: выбор алгоритма преобразования файла. Наиболее частыми в использовании являются rmvpe, fcpe и их сочетание. Так же rmvpe является наиболее распространенным алгоритмом для RVC v2, поскольку большинство моделей были изначально обучены на нем, FCPE недоступен для обучения. Rmvpe имеет хорошее сочетание производительности, качества и точности, FCPE так же имеет высокое качество, но самое главное - высокую скорость работы, в связи с чем он хорошо показал себя при преобразовании в реальном времени. Преобразование в реальном времени можно осуществить с помощью Voice-Changer от w-okada, о котором будет рассказано позднее. Ввиду малого числа материала в ру-сегменте по самому проекту, а тем более по используемым в RVC алгоритмам, я не смогу предоставить подробные данные по сравнению этих двух алгоритмов. Считается, что FCPE лучше подходит для преобразования речи, особенно в реальном времени, в то время как RMVPE лучше подходит для вокала. Связано это с лучшей точностью и совпадением последнего, благодаря чему полученный с RMVPE голос будет гораздо более приближен к голосу модели, в то время как FCPE будет быстрее справляться с поставленной задачей и иметь меньше артефактов. Мое мнение такого, что стоит преобразовывать материал сразу на двух алгоритмах, то есть один экземляр на Rmvpe, а второй на FCPE и уже в дальнейшем выбирать наиболее удачные "дубли". - embedder Model: важнейший из всех параметров, используемых для преобразования речи. Для версии Applio 4.2.7 стандартная модель hubert, обученная на англоязычной базе голосов, была заменена на contentvec. Contentvec является приемником hubert, имеет большую точность и меньшее число ошибок в определении произношения в сравнении с другими алгоритмами. Но, как в случае с hubert - обучение базы производилось на англоязычной речи, в связи с чем произношение на иных языках может иметь дефекты и артефакты. Помимо contentvec в Applio доступны так же и другие базы, созданные на китайском, японском и корейском, которые в некоторых аспектах ближе по произношению к русскому, чем английский. Однако, в отличии от contentvec, свободно работающим с моделями, обученными hubert-base (англоязычной базы) преобразование файла с другими базами, увы, несовместимо, ввиду невозможности сопоставления произношения. В этом случае для использования hubert на иных языках необходимо использовать именно ту модель, которая обучалась на этом же hubert. С качеством произношения на разных hubert Вы можете самостоятельно ознакомиться в приложенной ниже демонстрации моделей, основанных на одном и том же наборе аудиофайлов: (далее "датасете") (ссылка) Итак, мы добрались до финала и готовы преобразовать голос на выбранных нами параметрах. После завершения процесса доступны различные функции при воспроизведении, а так же сохранения полученного материала. По функционалу воспроизведения, думаю, не требуются особые пояснение, а вот по сохранению есть моменты, которые стоит уточнить. По стрелке, расположенной в правом верхнем углу поля "экспортировать аудио" можно сохранить преобразованный нами аудиофайл. Этот же файл доступен в папке ...\assets\audios\, он имеет тоже название, что и наш изначальный файл с дополнительным комментарием _output. Данный файл будет доступен в папке до момента очистки преобразованных аудиодорожек, либо пока мы не выполним повторное преобразование, поэтому если Вас устраивает полученный результат, но по какой-то причине Вам не удалось сохранить его через браузер, то рекомендую перенести его в любую другую папку, чтобы ненароком его не перезаписать. С преобразованием голоса голосовой моделью все, максимально подробно, в меру моих познаний и опыта работы с RVC, далее я расскажу о другой функционале Applio и начну я с TTS, он же Text-to-speech, он же Текст-в-речь. Обучение модели пока пропустим, поскольку там есть много того, на чем стоит сделать акцентировать. Переходим на вкладку TTS Левое и правые поля схожи с выбором модели для преобразования - выбирайте желаемую и укажите индекс, если тот не подцепится автоматически. Голоса TTS - это голосовые TTS модели на движке Edge. Для разных языков имеется несколько вариантов, отличающихся произношением, полом и самим голосом. Для примера: для английского имеется вариант американского, австралийского и другие вариации произношений. для русского языка их лишь два: мужской - RU-DmitryNeural, а так же RU-SvetlanaNeural. Советую просто набрать в строке поиска RU, чтобы сразу вывести в списке нужную модель. Следующее поле позволяет выбрать вариант ввода текста и для Applio доступны как ввод текста в интерфейсе программы, так и загрузка файла в формате .txt. Все остальные поля в разделе "Расширенные настройки" совпадают по функционалу с ранее описанным при преобразовании аудио. Теперь об обучении. (будет добавлено позднее) Демонстрация моделей и ссылки на скачивание: Спойлер Скачать Спойлер Демонстрация новой модели появится позднее. Скачать с Weigh-GG (модель Sidorovich-comp_de-esser_no-noise) Скачать с Hugging-Face (все доступные модели) Спойлер Скачать Спойлер Скачать Спойлер Скачать Спойлер Скачать Спойлер Скачать Спойлер Скачать Спойлер Скачать Спойлер Скачать Спойлер Скачать Спойлер Скачать Спойлер Скачать Спойлер Скачать Спойлер Скачать Спойлер Скачать Спойлер Скачать Спойлер Скачать Спойлер Скачать Спойлер Скачать Спойлер Скачать Спойлер Скачать Спойлер Скачать с Weight-GG (модель boroda-desser-comp-de_noise)Скачать с Hugging-Face (все доступные модели) Спойлер Демонстрация появится позднееСкачать с Weigh-GG (модель kardan-comp_de-esser_no-noise)Скачать с Hugging-Face (все доступные модели) Спойлер Демонстрация модели появится позднее Скачать с Weigh-GG (модель tereshuk-comp_de-esser_no-noise)Скачать с Hugging-Face (все доступные модели) Спойлер Демонстрация модели появится позднее Скачать с Weigh-GG (модель plahov-comp_de-esser_no-noise)Скачать с Hugging-Face (все доступные модели) Изменено 12 января пользователем Warlock700 Добавлена новая модель 15 6 2 6 1 1 Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты
Mad Hikki 432 Опубликовано 13 февраля, 2024 У кого нибудь есть гайд по всему этому?(установка,использование и тд) 2 Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты
Zone_lover 8 Опубликовано 13 февраля, 2024 Звучит очень хорошо Дополнено 4 минуты спустя Думаю рано или поздно это будет использоваться во многих модах 2 Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты
Warlock700 61 Опубликовано 13 февраля, 2024 (изменено) В 13.02.2024 в 14:15, Mad Hikki сказал: У кого нибудь есть гайд по всему этому?(установка,использование и тд) Пока только от других пользователей. Постараюсь в ближайшее время создать ролик и напишу текстовую инструкцию. На примере создания AI Cover и сообщения для одного из пользователей, который задал тот же вопрос: Вам необходимо скачать программу RVC-Project, к примеру с официального репозитория разработчика:https://huggingface.co/lj1995/VoiceConversionWebUI/tree/main Если у Вас видеокарта от Nvidia с поддержкой CUDA ядер, то качайте архив RVC1006Nvidia.7z, а если AMD, либо нет CUDA ядер, то RVC1006AMD_Intel.7z. После того, как архив скачан и распакован - запускаете .bat файл go-web.bat и перейдите на сервер RVC. Чтобы было возможным подменять голос - модель нужно добавить. Необходимо файл расширения .pht переместить в папку ...\RVC\assets\weights, файл расширения .index советую разместить в папке ...\RVC\logs. Инструкция для Voice-Changer, так же с ютуба: Дополнено 4 минуты спустя В 13.02.2024 в 14:53, Zone_lover сказал: Звучит очень хорошо Думаю рано или поздно это будет использоваться во многих модах А если разработки в данном направлении продолжаться, а так же переделаю свои голосовые модели, то остальное останется за малым - найти человека с хорошим поставленным голосом и актерскими талантами и дело в шляпе...) Изменено 20 февраля, 2024 пользователем Warlock700 1 1 Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты
Витька Kolkison 120 Опубликовано 13 февраля, 2024 1 1 1 YouTube Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты
Hunter 2 640 Опубликовано 13 февраля, 2024 Круто) 2 1 Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты
Warlock700 61 Опубликовано 16 февраля, 2024 (изменено) Протестирована и загружена модель майора Дегтярева. Обновлено описание. Демонстрация возможностей: Спойлер https://www.weights.gg/ru/models/clsp1nx0z0011und7aa4i5nw9 Дополнено 5 минуты спустя Протестирована и загружена модель отца Валерьяна. Обновлено описание. Демонстрация возможностей: Спойлер https://www.weights.gg/ru/models/clsp1faor004m3lhbg370ozip Дополнено 6 минуты спустя Протестирована и загружена модель Чехова и других бойцов Свободы, озвученных Григорием Германом. Обновлено описание. Демонстрация возможностей: Спойлер https://www.weights.gg/ru/models/clsp1alky003jbkkz9ygsqmql Изменено 16 февраля, 2024 пользователем Warlock700 1 Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты
Warlock700 61 Опубликовано 20 февраля, 2024 (изменено) Протестирована и загружена модель Лесника. Обновлено описание. Демонстрация возможностей: Спойлер https://www.weights.gg/ru/models/clsuarkhf003a2w1f629ttrrv Дополнено 42 минуты спустя Протестирована и загружена модель коменданта Халецкого. Обновлено описание. Демонстрация возможностей: Спойлер https://www.weights.gg/ru/models/clsuw3vd2005btjk9zdyh2n1n Изменено 20 февраля, 2024 пользователем Warlock700 1 Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты
Saimys87 5 Опубликовано 21 февраля, 2024 В 13.02.2024 в 21:15, Warlock700 сказал: Пока только от других пользователей. Постараюсь в ближайшее время создать ролик и напишу текстовую инструкцию. На примере создания AI Cover и сообщения для одного из пользователей, который задал тот же вопрос: Вам необходимо скачать программу RVC-Project, к примеру с официального репозитория разработчика:https://huggingface.co/lj1995/VoiceConversionWebUI/tree/main Если у Вас видеокарта от Nvidia с поддержкой CUDA ядер, то качайте архив RVC1006Nvidia.7z, а если AMD, либо нет CUDA ядер, то RVC1006AMD_Intel.7z. После того, как архив скачан и распакован - запускаете .bat файл go-web.bat и перейдите на сервер RVC. Чтобы было возможным подменять голос - модель нужно добавить. Необходимо файл расширения .pht переместить в папку ...\RVC\assets\weights, файл расширения .index советую разместить в папке ...\RVC\logs. Инструкция для Voice-Changer, так же с ютуба: Дополнено 4 минуты спустя А если разработки в данном направлении продолжаться, а так же переделаю свои голосовые модели, то остальное останется за малым - найти человека с хорошим поставленным голосом и актерскими талантами и дело в шляпе...) Если бы всё так легко было... Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты
Warlock700 61 Опубликовано 21 февраля, 2024 1 минуту назад, Saimys87 сказал: Если бы всё так легко было... Основная сложность - наличие качественного микрофона и производительных комплектующих. Наибольшие требования имеются к преобразовании голоса в реальном времени, в то время как для преобразования готового аудиоматериала со снижением производительности устройства увеличивается время на получение готового файла. Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты
Saimys87 5 Опубликовано 21 февраля, 2024 2 минуты назад, Warlock700 сказал: Основная сложность - наличие качественного микрофона и производительных комплектующих. Наибольшие требования имеются к преобразовании голоса в реальном времени, в то время как для преобразования готового аудиоматериала со снижением производительности устройства увеличивается время на получение готового файла. Я вообще про установку, сам устанавливать замучался Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты
Warlock700 61 Опубликовано 21 февраля, 2024 9 минут назад, Saimys87 сказал: Я вообще про установку, сам устанавливать замучался Не сказал бы, что процесс трудный. Что RVC, что Voice-Changer - проекты скомпилированные. Для них даже не требуется устанавливать Python, все уже есть папке программы с прописанными путями и зависимостями. С некоторыми модификациями посложнее будет, ведь всего-то требуется: Скачать подходящий архив с RVC; Распаковать; Переместить от имеющейся модели файл .pht в папку assetc\weight, а .index в в папку logs; Запустить .bat файл и пользоваться. Как по мне - сложнее подбирать параметры для преобразования голоса, поскольку это процесс не только творческий, но и требовательный к оригинальной аудиодорожке. Для получения хорошего результата может потребоваться не раз перезаписать голосовой фрагмент. Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты
Saimys87 5 Опубликовано 21 февраля, 2024 2 минуты назад, Warlock700 сказал: Не сказал бы, что процесс трудный. Что RVC, что Voice-Changer - проекты скомпилированные. Для них даже не требуется устанавливать Python, все уже есть папке программы с прописанными путями и зависимостями. С некоторыми модификациями посложнее будет, ведь всего-то требуется: Скачать подходящий архив с RVC; Распаковать; Переместить от имеющейся модели файл .pht в папку assetc\weight, а .index в в папку logs; Запустить .bat файл и пользоваться. Как по мне - сложнее подбирать параметры для преобразования голоса, поскольку это процесс не только творческий, но и требовательный к оригинальной аудиодорожке. Для получения хорошего результата может потребоваться не раз перезаписать голосовой фрагмент. Ну я с командной строкой мучался, видать я один такой гений) Кстати, будет ли модель новичков в озвучке Руслана Гофурова? Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты
Modera 330 Опубликовано 21 февраля, 2024 На ютубе уже нашли хорошее прменение всем этим штукам) Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты
Warlock700 61 Опубликовано 21 февраля, 2024 (изменено) 1 час назад, Saimys87 сказал: Ну я с командной строкой мучался, видать я один такой гений) Кстати, будет ли модель новичков в озвучке Руслана Гофурова? В зависимости от того, что Вы пытались сделать. Если Вы хотели внедрить Tensorboard в RVC, то да - без этого не обойтись. В остальном - все должно работать сразу, остальные случаи являются исключением. Не смогу сказать, насколько много материала имеется в озвучке Руслана Гофурова. Надо будет полазить в распакованных "ogg`шках"... Дополнено 3 минуты спустя 1 час назад, Modera сказал: На ютубе уже нашли хорошее прменение всем этим штукам) Это все-таки text-to-speech, он зачастую проигрывает преобразованию живого голоса. Но сам факт имеется - голос любой модели можно сделать "говорилкой" текста. Но конкретно применение из ролика такое себе, имхо... И я скорее про содержание, а не озвучивание. Дополнено 20 минуты спустя По преобразованию я на текущий момент могу только предоставить запись со стрима, где в реальном времени занимаюсь процессом. Ролик длинный, присутствуют моменты, в которых занимаюсь не преобразованием, а объяснением, в том числе по созданию AI каверов. Поэтому рекомендовать к просмотру могу только тем людям, у которых есть много свободного времени. Для полноценного и целенаправленного гайда я привык писать сценарий, что займет уйму времени. Порою маленький абзац придумать для персонажа - это задача на минуты 3, а для работы с RVC необходимо создать видеоматериал на минут 20-30, если не больше. Во всяком случае исходя из плана, имеющегося в голове. Для подобного нужно и вдохновение, и много свободного времени. Из своей практики по другим роликам написать сценарий и записать аудиоматериал - это на 15-20 часов чистого времени. Можно, конечно, "отстреляться" за 3-5 минут, но боюсь, что вопросов после такого гайда будет больше, чем ответов. И даже на такой гайд в качестве "галочки" необходимо время. Собственно, запись стрима: Изменено 21 февраля, 2024 пользователем Warlock700 Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты
Warlock700 61 Опубликовано 4 марта, 2024 (изменено) В 21.02.2024 в 14:24, Saimys87 сказал: Ну я с командной строкой мучался, видать я один такой гений) Кстати, будет ли модель новичков в озвучке Руслана Гофурова? Протестирована и загружена модель новичков в озвучке Руслана Гофурова. Обновлено описание. Демонстрация возможностей: Спойлер https://www.weights.gg/ru/models/cltcoksh0035iod98n7rmkg1f Дополнено 34 минуты спустя Протестирована и загружена модель Ковальского из Сталкер ЗП и Мельника из Метро 2033. Обновлено описание. Демонстрация возможностей: Спойлер https://www.weights.gg/ru/models/cltcoup6h03fwllczpn71s59b Дополнено 14 минуты спустя Протестирована и загружена модель Прохорова. Обновлено описание. Демонстрация возможностей: Спойлер https://www.weights.gg/ru/models/cltcopfxv039jz1dbk1s2r7vw Изменено 4 марта, 2024 пользователем Warlock700 1 1 Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты
Phantom_86 75 Опубликовано 7 марта, 2024 А голос Бороды будет? Вроде у него реплик плюс-минус нормально Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты
Warlock700 61 Опубликовано 8 марта, 2024 В 07.03.2024 в 08:17, Phantom_86 сказал: А голос Бороды будет? Вроде у него реплик плюс-минус нормально Попробую, но насколько я помню - у него не больше, чем 3-4 минуты набирается. Этого может быть мало для хорошей модели, но попытка - не пытка...) Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты
Phantom_86 75 Опубликовано 9 марта, 2024 Warlock700 Ну кстати если что - в Metro Last Light есть немало реплик неписей, озвученных Алексеем Череватенко (Борода, Азот, Ной). Могу покопаться в озвучке и вытащить их все. Потом модель на основе этих реплик потенциально можно будет использовать для вышеупомянутых персонажей Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты
Warlock700 61 Опубликовано 9 марта, 2024 (изменено) 2 часа назад, Phantom_86 сказал: Warlock700 Ну кстати если что - в Metro Last Light есть немало реплик неписей, озвученных Алексеем Череватенко (Борода, Азот, Ной). Могу покопаться в озвучке и вытащить их все. Потом модель на основе этих реплик потенциально можно будет использовать для вышеупомянутых персонажей Если Вы самостоятельно наберете фразы непосредственно из распакованных файлов, без эффектов рации и надетого шлема, то будет замечательно.) К сожалению, но не научился избавляться от данных эффектов, возвращая голосу обычное звучание, поэтому подходит для обучения только чистый голос. Изменено 9 марта, 2024 пользователем Warlock700 Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты
Sikorskyi 304 Опубликовано 9 марта, 2024 7 часов назад, Phantom_86 сказал: Metro Last Light есть немало реплик неписей Еще не стоит обходить вниманием игру Chernobylite. Главного героя Chernobylite действительно озвучивает Александр Вилков. Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты
Warlock700 61 Опубликовано 9 марта, 2024 (изменено) 19 минут назад, Sikorskyi сказал: Еще не стоит обходить вниманием игру Chernobylite. Главного героя Chernobylite действительно озвучивает Александр Вилков. На какой именно голос из сталкера там похож Александр Вилков? Дело в том, что фраз того же Долга в Метро и Сталкер набирается с запасом, даже перебором. А вот другие голоса присутствуют либо в ограниченном количестве, (Сидорович ЧН, Бармен, Новиков) либо же они схожи с тем, которым Виклов озвучивает долговцев. Изменено 9 марта, 2024 пользователем Warlock700 Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты
Phantom_86 75 Опубликовано 10 марта, 2024 Warlock700 Окей, как наберу достаточно фраз - обращусь в личку Дополнено 1 минуту спустя Sikorskyi Да в целом реплик Вилкова из трилогии достаточно для качественной rvc-модели, а вот для голоса Череватенко действительно не помешало бы ресурсы метро прошерстить Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты
Contentic 11 Опубликовано 10 марта, 2024 Скачал, распаковал, запустил, а куда текст набирать чтобы программа его озвучила? Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты
Warlock700 61 Опубликовано 10 марта, 2024 (изменено) В 10.03.2024 в 20:47, Contentic сказал: Скачал, распаковал, запустил, а куда текст набирать чтобы программа его озвучила? Практически все, кроме определенных фрагментов в роликах, создано на основе преобразования голоса.RVC Text-to-speech - немного другой проект, хоть так же способен преобразовывать голос, заранее сгенерированной движком Edge. В этом случае Вам либо необходимо скачать его по ссылке: Спойлер Скомпилированным пользователем с просторов сети RVC TTS:https://drive.google.com/file/d/1Lf6LOyFUcMh6BYcNTv_xPw4M_aSBNgb8/view Страница с кодом и инструкцией по самостоятельной компиляции:https://github.com/litagin02/rvc-tts-webui Либо же Вам необходим проект, за основу которого взята оригинальная RVC, но у которой есть собственный разработчик. Говоря иначе - это Fork RVC от Hispano, а именно - Applio. Этот fork способен и обучать голосовые модели, и преобразовывать аудиофрагменты, и имеет свой TTS. В проекте много экспериментальных функций, не все из них разработчик довел до ума: Спойлер Ссылка на последнюю на текущий момент версию Applio:https://huggingface.co/IAHispano/Applio/resolve/main/Compiled/ApplioV3.0.8.zip?download=true Дополнено 7 минуты спустя В 10.03.2024 в 06:47, Phantom_86 сказал: Warlock700 Окей, как наберу достаточно фраз - обращусь в личку Дополнено 1 минуту спустя Sikorskyi Да в целом реплик Вилкова из трилогии достаточно для качественной rvc-модели, а вот для голоса Череватенко действительно не помешало бы ресурсы метро прошерстить Именно так, если говорить о Вилкове. К слову, я уже отсортировал все сюжетные фразы и только там он наговорил в трех частях чистым голосом за 16 минут, а ведь есть еще диалоги NPS для каждой группировки. Так что можно смело сказать, что материала Вилкова достаточно. На очереди сортировка первых двух частей Метро, все так же фразы из сюжета. После того, как я закончу со всем голосами метро и сталкера, выполню окончательную сортировку на основе тембров, высоты и характерных черт, то начну выпускать модели на разных предобученных базах. (их на текущий момент не меньше 3 набралось) После того, как я это сделаю - проект RVC Stalker Voices можно будет считать полностью готовым, пока не выйдет новая версия RVC. Поэтому, по поводу Череватенко, если Вы выполните сортировку - это только ускорит выход модели Бороды и других персонажей, озвученных его голосом, но никак не поможет проекту в целом. Изменено 1 мая, 2024 пользователем Warlock700 1 Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты