RVC Stalker Voices - нейросетевые голосовые модели персонажей Сталкера

Warlock700 · 12 февраля

Здравствуйте, Сталкеры.

Ни для кого не секрет, что нейросети сейчас развиваются семимильными шагами, в свою очередь хотел бы Вам представить возможности одной из них.

RVC-Project - проект, чьей основной задачей является обучение голосовых моделей и преобразование с их помощью аудиофайлов. Достаточно нескольких минут в качестве образца речи, чтобы получить практически идентичный голос, сохранив основные его черты, и я не мог пропустить такую возможность в отношении сталкерских голосов. Мною было обучено несколько моделей, основанных на речи персонажей из вселенной Сталкер.
Для наглядной демонстрации предоставляю Вашему вниманию видеоролик, где собраны примеры по всем моделям, которые успел выпустить на текущий момент.

Созданные модели не являются финальными версия, по мере возможностей они будут улучшаться и переобучаться в случае создания новых алгоритмов или улучшения обучения, выхода новых версий RVC, а так же при использовании новых версий предобученных баз. На текущий момент предобученная база основана на англоязычном дата-сете, в связи с чем в иных языках появляются заметные уху артефакты. Существуют неофициальные предобученные русскоязычные базы, под которые со временем будут переобучены все модели. Ссылки на них будут добавлены в данной теме по мере их выхода.

Развитие проекта - патчноут:
13.02 - обучена модель Чехова и других свободовцев, озвученных голосом Григория Германа, проходит тестирование;
13.02 - обучена модель группировки Наемники, проходит тестирование;
13.02 - обучена модель Лесника, проходит тестирование;
13.02 - обучена модель речи Андрея Прохорова, основанная на черновых и релизных фразах, проходит тестирование;
13.02 - обучена модель Дегтярева, проходит тестирование;
13.02 - обучена модель коменданта Халецкого, проходит тестирование;
15.02 - протестирована и загружена модель Дегтярева;
15.02 - протестирована и загружена модель отца Валерьяна;
15.02 - протестирована и загружена модель Чехова и других бойцов Свободы в исполнении Григория Германа;
20.02 - протестирована и загружена модель Лесника;
21.02 - протестирована и загружена модель коменданта Халецкого;
22.02 - обучается, а в последствии будет протестирована модель новичков в озвучивании Руслана Гофурова;
23.02 - обучена модель Лебедева, проходит тестирование;
04.03 - протестирована и загружена модель новичков в исполнении Руслана Гофурова;
04.03 - протестирована и загружена модель голосов персонажей, озвученных Андреем Прохоровым;
04.03 - протестирована и загружена модель Ковальского из ЗП и Мельника из первых двух частей Метро 2033;
14.03 - протестирована и загружена модель Лебедева.
06.04 - протестирована и загружена модель голосов персонажей, озвученных Иваном Розиным (Гонта, Гаваец и др.)

Ссылки на программное обеспечение, примеры использования голосовых моделей, ссылки на их скачивание:

Спойлер

RVC-Project - обучение моделей, преобразование аудиофайлов: скачать
Voice-changer от W-Okada - преобразование голоса в реальном времени: скачать
Applio - fork RVC, доступны все функции оригинального проекта, есть встроенный Text-to-Speech
RVC-TTS - версия программы, способная генерировать любой текст и озвучивать его встроенными в движок Edge моделями с последующим преобразованием полученного результата голосовой моделью RVC.
Скомпилированным пользователем с просторов сети RVC TTS:
https://drive.google.com/file/d/1Lf6LOyFUcMh6BYcNTv_xPw4M_aSBNgb8/view
Страница с кодом и инструкцией по самостоятельной компиляции:
https://github.com/litagin02/rvc-tts-webui

Спойлер

Скачать

Спойлер

Скачать

Спойлер

Скачать

Спойлер

Скачать

Спойлер

Скачать

Спойлер

Скачать

Спойлер

Скачать

Спойлер

Скачать

Спойлер

Скачать

Спойлер

Скачать

Спойлер

Скачать

Спойлер

Скачать

Спойлер

Скачать

Спойлер

Скачать

Спойлер

Скачать

Спойлер

Скачать

Спойлер

Скачать

Спойлер

Скачать

Спойлер

Скачать

Спойлер

Скачать

Спойлер

Скачать

Изменено 18 апреля пользователем Warlock700
Добавлена новая модель

Phantom_86 · 16 апреля

Warlock700 Cкомпилированная - это которая pickle?

Warlock700 · 16 апреля

8 минут назад, Phantom_86 сказал:

Warlock700 Cкомпилированная - это которая pickle?

Обе версии на скриншоте одинаковы, одна является упакованной в .exe со строенным распаковщиком 7zip, а другая просто упакована в архив .zip. Она является "pickle" из-за того, что загружена последней, говоря иначе - свежая загрузка.

Phantom_86 · 18 апреля

Warlock700 Со скомпилированной тоже не выходит. При обычном запуске run-applio.bat - пустой батник открывается, а от имени администратора - это

Warlock700 · 18 апреля

6 часов назад, Phantom_86 сказал:

Warlock700 Со скомпилированной тоже не выходит. При обычном запуске run-applio.bat - пустой батник открывается, а от имени администратора - это

Предустановленный питон точно не требуется, у меня все проекты на нейросетях портативные, где питон уже имеется в папке, со всеми зависимостями и прописанными путями.

Вы до этого говорили, что ругался Ваш антивирус. Судя по всему именно он вносит изменение в запускной файл.
Содержание run-applio.bat должно быть таким:

Спойлер

@echo off
setlocal
title Applio

if not exist env (
    echo Please run 'run-install.bat' first to set up the environment.
    pause
    exit /b 1
)

env\python.exe app.py --open
echo.
pause

Так же очень похоже на то, что запуск батника осуществляется не из папки Applio, из-за чего не совпадают пути и возникает ошибка о том, что python.exe не является исполняемой программой/средой, поскольку система осуществляет запуск по пути "c:\Windows\System32", где такой папки и файла нет.
Если Вы хотите сделать себе запускной ярлык - создайте его именно для данного файла. Пример:

Изменено 18 апреля пользователем Warlock700

Phantom_86 · 18 апреля

Warlock700 Запускаю из папки, которую и распаковал. С выключенным брандмауэром то же самое..

Батник идентичен содержанию спойлера

Изменено 18 апреля пользователем Phantom_86

Warlock700 · 18 апреля

2 часа назад, Phantom_86 сказал:

Warlock700 Запускаю из папки, которую и распаковал. С выключенным брандмауэром то же самое..

Батник идентичен содержанию спойлера

Кажется, я понял, в чем причина - Вы недостаточное время ждете, пока осуществится запуск программы.
В моем случае на Ryzen 7500F и запуске с HDD первый запуск Applio осуществляется чуть больше минуты. Судя по всему так долго подгружаются процессы, ищутся зависимости или т.п.:

Видео с демонстрацией распаковки и запуска, распаковка ускорена в 6 раз:

Изменено 18 апреля пользователем Warlock700

Phantom_86 · 18 апреля

Warlock700 Реально, надо подождать лишь было) Храни тебя господь

Дополнено 5 минуты спустя

Warlock700 Я правильно понимаю, что если хочу например вашу модель задействовать, то мне надо содержимое, скачанное с weights gg кинуть в папку logs, что в каталоге апплио?

Kuroneko · 18 апреля

Где можно прочитать инструкцию по applio?

Настройка при обучении?

Озвучивании текста и т.д.

Т.к. придётся ещё для ещё двух старых игр создавать озвучку (star wars jedi knight ii jedi outcast & star wars jedi knight jedi academy) = с тех пор как фанаты озвучили игры, произошли изменения в тексте перевода и существенные.

Warlock700 · 18 апреля

30 минут назад, Phantom_86 сказал:

Warlock700 Реально, надо подождать лишь было) Храни тебя господь

Дополнено 5 минуты спустя

Warlock700 Я правильно понимаю, что если хочу например вашу модель задействовать, то мне надо содержимое, скачанное с weights gg кинуть в папку logs, что в каталоге апплио?

Не за что.)

Да, необходимо разместить файлы модели расширения .pht и .index в папку logs. Файл metadata.json для преобразования аудио не нужен, он автоматически добавляется сайтом weight-gg, в нем продублирована информация со страницы модели.

Phantom_86 · 18 апреля

Warlock700 Почему может ошибку выдавать?

Warlock700 · 18 апреля

В 18.04.2024 в 15:02, Kuroneko сказал:

Где можно прочитать инструкцию по applio?

Настройка при обучении?

Озвучивании текста и т.д.

Т.к. придётся ещё для ещё двух старых игр создавать озвучку (star wars jedi knight ii jedi outcast & star wars jedi knight jedi academy) = с тех пор как фанаты озвучили игры, произошли изменения в тексте перевода и существенные.

На первой странице есть ролики по RVC, они не отличаются своими действиями от Applio - так же необходимо указать путь к папке с дата-сетом ( аудиоматериалом(ами) ), выбрать версию претрейна v2, установить частоту модели, (рекомендуется 40 Кгц, зачастую работает лучше 48 Кгц) алгоритм обучения выбрать rmvpe. Однако, я бы не рекомендовал производить обучение моделей в Applio по причине того, что в нем в качестве мощностей для обучения будет использован CPU, а не GPU. Разработчик еще не реализован данную функцию. Размер партии (батча) обычно устанавливается того же объема, что и объем видеопамяти.
В своем случае я ставлю для RTX3060 12 gb значение на 11, поскольку при значении 12 и использовании ПК в других задачах обучение может вылететь. Количество эпох устанавливается в зависимости от объема дата-сета, опция "сохранять промежуточные модели" устанавливается по желанию. По большей части это все, что требуется, чтобы осуществить запуск обучения.

TTS в Applio работает таким же образом, как и в RVC-TTS:
Выбирается модель Edge по языку и полу, указывается модель для преобразования, (которая предварительно должна быть обучена/загружена) вводиться текст и запускается генерация. Applio сначала сгенерирует текст в Edge, после чего выполнит преобразование полученного материала, согласно выбранным параметрам. Для моих моделей, которые обучаются на англоязычном претрейне, рекомендуется устанавливать значение "соотношение поиска черт (поиска)" в среднем на не больше, чем 0.5. Этот параметр индивидуальный и зависит от схожести преобразовываемого голоса и голоса модели.

Дополнено 4 минуты спустя

В 18.04.2024 в 15:40, Phantom_86 сказал:

Warlock700 Почему может ошибку выдавать?

Порою не с первого раза Applio выполняет преобразование. В этом случае надо на крестик удалить добавленный файл и добавить его заново. А так же обязательно, чтобы консоль с запущенной программой была открыта и не закрывалась, пока с ней ведется работа.

В принципе, рекомендовал бы использовать RVC - программа более стабильна, корректно выполняет преобразование и обучение.

Изменено 19 апреля пользователем Warlock700

Phantom_86 · 18 апреля

Warlock700 а браузер, в котором открывается прога можно как-то поменять, думаю в нем тоже может быть дело

Warlock700 · 18 апреля

51 минуту назад, Kuroneko сказал:

Где можно прочитать инструкцию по applio?

Как писал до этого RVC и Applio практически не отличаются друг от друга, поскольку последний fork первого.
Сам я обучался работе с RVC по роликам этого человека. Вся информация, которая может Вам потребоваться для обучения, набора материала и оценке качества моделей есть у данного пользователя:
https://www.youtube.com/@ba1yya

Дополнено 1 минуту спустя

3 минуты назад, Phantom_86 сказал:

Warlock700 а браузер, в котором открывается прога можно как-то поменять, думаю в нем тоже может быть дело

Не исключено. Просто копируйте ссылку из того браузера, в котором открылось приложение и вставляйте ее в другой. Использую лично Firefox, порою не с первого раза запускаю преобразование.
По умолчанию это будет: http://127.0.0.1:6969/

Изменено 18 апреля пользователем Warlock700

Phantom_86 · 18 апреля

Warlock700 Однако с гугла заработало. Только Лебедев как-то странно "щёкает" вместо "ш", но думаю это прикол самой модели

Речь

Kuroneko · 18 апреля

6 минут назад, Phantom_86 сказал:

Warlock700 Однако с гугла заработало. Только Лебедев как-то странно "щёкает" вместо "ш", но думаю это прикол самой модели

Речь

Ну точно речь как у японок в песне Катюша из аниме.

Warlock700 · 18 апреля

1 час назад, Phantom_86 сказал:

Warlock700 Однако с гугла заработало. Только Лебедев как-то странно "щёкает" вместо "ш", но думаю это прикол самой модели

Речь

Отлично.) Процесс у Вас пошел.)

Попробуйте изменить параметры в "расширенных настройках":
Рекомендовал бы поиграться с параметрами "соотношение объектов поиска", по умолчанию оно установлено на 0.75, рекомендовал бы снизить его до значения 0.2, а если проблема останется, то сделать еще меньше.
Можете так же попробовать поставить галочку "чистый звук", которая уберет шумы из аудиофайла. Лично не проверял, делаю это заранее в аудиоредакторах.
В качестве алгоритма преобразование настоятельно рекомендую выставить Fcpe.

Дополнено 7 минуты спустя

56 минут назад, Kuroneko сказал:

Ну точно речь как у японок в песне Катюша из аниме.

Поскольку RVC был создан для англоязычных пользователей, то в качестве базы голосов (претрейн) используются англоязычные голоса. Эту проблему частично улучшил выход русскоязычных претрейнов, наиболее популярными являются Snowie и Rin-E3, однако полностью проблему они не решают, модели говорят с акцентом и артефактами, даже при чистой записи. Причина тому голосовая модель hubert-base, которая так же основана на англоязычных голосах. Лишь недавно стали появляться модели hubert на других языках, (итальянский и японский) но тут так же не обошлось без подводных камней - если модель была обучена на одном hubert, то другой неспособен ее использовать.

Поэтому, пока не выйдет hubert_base для русского языка - продолжу обучать модели на англоязычном hubert. Переобучение на других претрейнах запланировано и будет, но позднее - сейчас я занимаюсь сортировкой голосов из Метро 2033. Мне осталось 2500 фраз обработать, продолжительностью в два часа. Сортирую вручную, не все голоса удается определять с первого раза или даже вообще.
После этого все модели начнут переобучаться, а так же к ним будут применены различные варианты обработки и т.п.

Дополнено 18 минуты спустя

1 час назад, Phantom_86 сказал:

Warlock700 Однако с гугла заработало. Только Лебедев как-то странно "щёкает" вместо "ш", но думаю это прикол самой модели

Речь

Поэкспериментировал с этим же аудиофайлом (оригинал) - даже на индексе 0 не удалось полностью избавиться от проблем на шипящих, но результат в разы лучше. В своем варианте я попробовал еще понизить тон до -2 (в Applio это "Смола")
https://disk.yandex.ru/d/BXqRfiQIpdN7kw
P.S.: Файл поправил, случайно залил оригинальный файл Мельника.

Изменено 18 апреля пользователем Warlock700

Kuroneko · 18 апреля

44 минуты назад, Warlock700 сказал:

На первой странице есть ролики по RVC, они не отличаются своими действиями от Applio - так же необходимо указать путь к папке с дата-сетом ( аудиоматериалом(ами) ), выбрать версию претрейна v2, установить частоту модели, (рекомендуется 40 Кгц, зачастую работает лучше 48 Кгц) алгоритм обучения выбрать rmvpe. Однако, я бы не рекомендовал производить обучение моделей в Applio по причине того, что в нем в качестве мощностей для обучения будет использован CPU, а не GPU. Разработчик еще не реализован данную функцию. Размер партии (батча) обычно устанавливается того же объема, что и объем видеопамяти.
В своем случае я ставлю для RTX3060 12 gb значение на 11, поскольку при значении 12 и использовании ПК в других задачах обучение может вылететь. Количество эпох устанавливается в зависимости от объема дата-сета, опция "сохранять промежуточные модели" устанавливается по желанию. По большей части это все, что требуется, чтобы осуществить запуск обучения.

для 4090 с 24gb какие значения ставить в Шаг 3. Заполнение дополнительных настроек обучения и запуск обучения модели и индекса для RVC-TTS? (размер пачки это партии/батча)

Warlock700 · 18 апреля

13 минут назад, Kuroneko сказал:

для 4090 с 24gb какие значения ставить в Шаг 3. Заполнение дополнительных настроек обучения и запуск обучения модели и индекса для RVC-TTS? (размер пачки это партии/батча)

Рекомендовал бы попробовать установить batch (партия) на значение в 22 для небольшого дата-сета в размере до 10 минут на максимальное количество эпох (1000) и посмотреть, как будет проходить процесс обучения. Если планируете попутно во что-то играть, а не использовать компьютер только для браузера, то если игры не будут тяжеловесными, устанавливайте batch на значение 20.
Если процесс дойдет до конца - пробуйте повысить значение на одну единицу.

Сразу уточню - batch практически, либо не влияет на качество конечной модели. Споры активно идут, но пока разница минимальна, либо на уровне погрешности. batch (партия) отвечает за поток данных для обучения и чем он выше, тем быстрее модель обучится. Поэтому тут все методом проб и ошибок подбирается.

Модели для преобразования в TTS и для преобразования живой речи не отличаются. Для вокальных моделей нужен, естественно, максимально чистый вокал исполнителя. В последнем случае еще рекомендуется добавлять небольшое количество речи. Это так, к слову...)

Изменено 18 апреля пользователем Warlock700

Африканка Валерия · 18 апреля

Надо бы модельки сильнее обучить. )))

Warlock700 · 18 апреля

1 час назад, Африканка Валерия сказал:

Надо бы модельки сильнее обучить. )))

Я обучаю модели, набирая максимальное количество возможных фраз, формируя дата-сет из чистых записей, без эффектов рации и надетого шлема, предварительно очищая (новые модели) аудиоматериал от шума. При этом я использую максимальное значение для тренировок - 1000 эпох, а затем выбираю лучшую модель по графикам Tenserboard.

Не для всех персонажей можно набрать много фраз, даже если перелопатить (что я сделал) три части игры, тем более в некоторых персонажи присутствуют лишь в одной части. По этой причине я стал добирать материал из первых двух частей Метро 2033 и когда закончу сортировку, то начну повторное обучение моделей, применяя различные варианты обработки, (тщательное удаление шумов, нормализация, эквализация, де-эссер и т.д.) а так же используя русскоязычные претрейны, которые могут повысить качество произношения моделей. Помимо всего прочего я работаю совместно с одним человеком над вокальной моделью (Валерий Кипелов) и для нее он подготавливает дата-сет согласных букв, на которых, зачастую, и происходят артефакты, особенно шипящие, "С" и "З". Я уже пробовал добавлять раннюю версию этого дата-сета к файлам для обучения голосовых моделей и результат становился лучше, для вокальной модели так точно.

Поэтому всему свое время.) Если не считать сортировки фраз из Метро, то проект находится в ожидании дата-сета согласных, после чего модели начнут активно переобучаться.

Изменено 18 апреля пользователем Warlock700

Подборка недели

Последние обсуждения

В тренде

Новые темы

Активные авторы

RVC Stalker Voices - нейросетевые голосовые модели персонажей Сталкера

Рекомендуемые сообщения

Warlock700 50

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Злобная реклама

Phantom_86 61

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Warlock700 50

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Phantom_86 61

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Warlock700 50

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Phantom_86 61

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Warlock700 50

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Phantom_86 61

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Kuroneko 0

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Warlock700 50

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Phantom_86 61

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Warlock700 50

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Phantom_86 61

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Warlock700 50

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Phantom_86 61

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Kuroneko 0

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Warlock700 50

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Kuroneko 0

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты