Перейти к содержанию
Warlock700

RVC Stalker Voices - нейросетевые голосовые модели персонажей Сталкера

Рекомендуемые сообщения

 
 

Warlock700 Cкомпилированная - это которая pickle?image.png.93ba011f002a74c8c36a12fc9f4c8a05.png

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
 
8 минут назад, Phantom_86 сказал:

Warlock700 Cкомпилированная - это которая pickle?image.png.93ba011f002a74c8c36a12fc9f4c8a05.png

Обе версии на скриншоте одинаковы, одна является упакованной в .exe со строенным распаковщиком 7zip, а другая просто упакована в архив .zip. Она является "pickle" из-за того, что загружена последней, говоря иначе - свежая загрузка.

  • Спасибо 1

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
 

Warlock700 Со скомпилированной тоже не выходит. При обычном запуске run-applio.bat - пустой батник открывается, а от имени администратора - это    

image.png

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
 
6 часов назад, Phantom_86 сказал:

Warlock700 Со скомпилированной тоже не выходит. При обычном запуске run-applio.bat - пустой батник открывается, а от имени администратора - это    

image.png

Предустановленный питон точно не требуется, у меня все проекты на нейросетях портативные, где питон уже имеется в папке, со всеми зависимостями и прописанными путями.

Вы до этого говорили, что ругался Ваш антивирус. Судя по всему именно он вносит изменение в запускной файл.
Содержание run-applio.bat должно быть таким:

Спойлер

 

@echo off
setlocal
title Applio

if not exist env (
    echo Please run 'run-install.bat' first to set up the environment.
    pause
    exit /b 1
)

env\python.exe app.py --open
echo.
pause

 

Так же очень похоже на то, что запуск батника осуществляется не из папки Applio, из-за чего не совпадают пути и возникает ошибка о том, что python.exe не является исполняемой программой/средой, поскольку система осуществляет запуск по пути "c:\Windows\System32", где такой папки и файла нет.
Если Вы хотите сделать себе запускной ярлык - создайте его именно для данного файла. Пример:
64548440_.png.9b2cdc62086ed231ca7d99c9d9793277.png

Изменено пользователем Warlock700

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
 

Warlock700 Запускаю из папки, которую и распаковал. С выключенным брандмауэром то же самое..

Батник идентичен содержанию спойлера
image.png.e4abd783e9301eddba40c334c34707c8.png

Изменено пользователем Phantom_86

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
 
2 часа назад, Phantom_86 сказал:

Warlock700 Запускаю из папки, которую и распаковал. С выключенным брандмауэром то же самое..

Батник идентичен содержанию спойлера
image.png.e4abd783e9301eddba40c334c34707c8.png

Кажется, я понял, в чем причина - Вы недостаточное время ждете, пока осуществится запуск программы.
В моем случае на Ryzen 7500F и запуске с HDD первый запуск Applio осуществляется чуть больше минуты. Судя по всему так долго подгружаются процессы, ищутся зависимости или т.п.:

Видео с демонстрацией распаковки и запуска, распаковка ускорена в 6 раз:

 

Изменено пользователем Warlock700
  • Аплодисменты 1

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
 

Warlock700 Реально, надо подождать лишь было) Храни тебя господь


Дополнено 5 минуты спустя

Warlock700 Я правильно понимаю, что если хочу например вашу модель задействовать, то мне надо содержимое, скачанное с weights gg кинуть в папку logs, что в каталоге апплио?

  • Хабар 1

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
 

Где можно прочитать инструкцию по applio?

Настройка при обучении?

Озвучивании текста и т.д.

Т.к. придётся ещё для ещё двух старых игр создавать озвучку (star wars jedi knight ii jedi outcast & star wars jedi knight jedi academy) = с тех пор как фанаты озвучили игры, произошли изменения в тексте перевода и существенные.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
 
30 минут назад, Phantom_86 сказал:

Warlock700 Реально, надо подождать лишь было) Храни тебя господь


Дополнено 5 минуты спустя

Warlock700 Я правильно понимаю, что если хочу например вашу модель задействовать, то мне надо содержимое, скачанное с weights gg кинуть в папку logs, что в каталоге апплио?

Не за что.)

Да, необходимо разместить файлы модели расширения .pht и .index в папку logs. Файл metadata.json для преобразования аудио не нужен, он автоматически добавляется сайтом weight-gg, в нем продублирована информация со страницы модели.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
 

Warlock700 Почему может ошибку выдавать?

image.thumb.png.46e328fbb53c2318750f79bec01d152c.png

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
 
В 18.04.2024 в 15:02, Kuroneko сказал:

Где можно прочитать инструкцию по applio?

Настройка при обучении?

Озвучивании текста и т.д.

Т.к. придётся ещё для ещё двух старых игр создавать озвучку (star wars jedi knight ii jedi outcast & star wars jedi knight jedi academy) = с тех пор как фанаты озвучили игры, произошли изменения в тексте перевода и существенные.

На первой странице есть ролики по RVC, они не отличаются своими действиями от Applio - так же необходимо указать путь к папке с дата-сетом ( аудиоматериалом(ами) ), выбрать версию претрейна v2, установить частоту модели, (рекомендуется 40 Кгц, зачастую работает лучше 48 Кгц) алгоритм обучения выбрать rmvpe. Однако, я бы не рекомендовал производить обучение моделей в Applio по причине того, что в нем в качестве мощностей для обучения будет использован CPU, а не GPU. Разработчик еще не реализован данную функцию. Размер партии (батча) обычно устанавливается того же объема, что и объем видеопамяти.
В своем случае я ставлю для RTX3060 12 gb значение на 11, поскольку при значении 12 и использовании ПК в других задачах обучение может вылететь. Количество эпох устанавливается в зависимости от объема дата-сета, опция "сохранять промежуточные модели" устанавливается по желанию. По большей части это все, что требуется, чтобы осуществить запуск обучения.

TTS в Applio работает таким же образом, как и в RVC-TTS:
Выбирается модель Edge по языку и полу, указывается модель для преобразования, (которая предварительно должна быть обучена/загружена) вводиться текст и запускается генерация. Applio сначала сгенерирует текст в Edge, после чего выполнит преобразование полученного материала, согласно выбранным параметрам. Для моих моделей, которые обучаются на англоязычном претрейне, рекомендуется устанавливать значение "соотношение поиска черт (поиска)" в среднем на не больше, чем 0.5. Этот параметр индивидуальный и зависит от схожести преобразовываемого голоса и голоса модели.
 


Дополнено 4 минуты спустя
В 18.04.2024 в 15:40, Phantom_86 сказал:

Warlock700 Почему может ошибку выдавать?

image.thumb.png.46e328fbb53c2318750f79bec01d152c.png

Порою не с первого раза Applio выполняет преобразование. В этом случае надо на крестик удалить добавленный файл и добавить его заново. А так же обязательно, чтобы консоль с запущенной программой была открыта и не закрывалась, пока с ней ведется работа.

В принципе, рекомендовал бы использовать RVC - программа более стабильна, корректно выполняет преобразование и обучение.

Изменено пользователем Warlock700

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
 

Warlock700 а браузер, в котором открывается прога можно как-то поменять, думаю в нем тоже может быть дело

 

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
 
51 минуту назад, Kuroneko сказал:

Где можно прочитать инструкцию по applio?

Как писал до этого RVC и Applio практически не отличаются друг от друга, поскольку последний fork первого.
Сам я обучался работе с RVC по роликам этого человека. Вся информация, которая может Вам потребоваться для обучения, набора материала и оценке качества моделей есть у данного пользователя:
https://www.youtube.com/@ba1yya


Дополнено 1 минуту спустя
3 минуты назад, Phantom_86 сказал:

Warlock700 а браузер, в котором открывается прога можно как-то поменять, думаю в нем тоже может быть дело

 

Не исключено. Просто копируйте ссылку из того браузера, в котором открылось приложение и вставляйте ее в другой. Использую лично Firefox, порою не с первого раза запускаю преобразование.
По умолчанию это будет: http://127.0.0.1:6969/

Изменено пользователем Warlock700
  • Спасибо 1

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
 

Warlock700 Однако с гугла заработало. Только Лебедев как-то странно "щёкает" вместо "ш", но думаю это прикол самой модели

Речь

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
 
6 минут назад, Phantom_86 сказал:

Warlock700 Однако с гугла заработало. Только Лебедев как-то странно "щёкает" вместо "ш", но думаю это прикол самой модели

Речь

Ну точно речь как у японок в песне Катюша из аниме.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
 
1 час назад, Phantom_86 сказал:

Warlock700 Однако с гугла заработало. Только Лебедев как-то странно "щёкает" вместо "ш", но думаю это прикол самой модели

Речь

Отлично.) Процесс у Вас пошел.)

Попробуйте изменить параметры в "расширенных настройках":
Рекомендовал бы поиграться с параметрами "соотношение объектов поиска", по умолчанию оно установлено на 0.75, рекомендовал бы снизить его до значения 0.2, а если проблема останется, то сделать еще меньше.
Можете так же попробовать поставить галочку "чистый звук", которая уберет шумы из аудиофайла. Лично не проверял, делаю это заранее в аудиоредакторах.
В качестве алгоритма преобразование настоятельно рекомендую выставить Fcpe.


Дополнено 7 минуты спустя
56 минут назад, Kuroneko сказал:

Ну точно речь как у японок в песне Катюша из аниме.

Поскольку RVC был создан для англоязычных пользователей, то в качестве базы голосов (претрейн) используются англоязычные голоса. Эту проблему частично улучшил выход русскоязычных претрейнов, наиболее популярными являются Snowie и Rin-E3, однако полностью проблему они не решают, модели говорят с акцентом и артефактами, даже при чистой записи. Причина тому голосовая модель hubert-base, которая так же основана на англоязычных голосах. Лишь недавно стали появляться модели hubert на других языках, (итальянский и японский) но тут так же не обошлось без подводных камней - если модель была обучена на одном hubert, то другой неспособен ее использовать.

Поэтому, пока не выйдет hubert_base для русского языка - продолжу обучать модели на англоязычном hubert. Переобучение на других претрейнах запланировано и будет, но позднее - сейчас я занимаюсь сортировкой голосов из Метро 2033. Мне осталось 2500 фраз обработать, продолжительностью в два часа. Сортирую вручную, не все голоса удается определять с первого раза или даже вообще.
После этого все модели начнут переобучаться, а так же к ним будут применены различные варианты обработки и т.п.


Дополнено 18 минуты спустя
1 час назад, Phantom_86 сказал:

Warlock700 Однако с гугла заработало. Только Лебедев как-то странно "щёкает" вместо "ш", но думаю это прикол самой модели

Речь

Поэкспериментировал с этим же аудиофайлом (оригинал) - даже на индексе 0 не удалось полностью избавиться от проблем на шипящих, но результат в разы лучше. В своем варианте я попробовал еще понизить тон до -2Applio это "Смола")
https://disk.yandex.ru/d/BXqRfiQIpdN7kw
P
.S.: Файл поправил, случайно залил оригинальный файл Мельника.

Изменено пользователем Warlock700

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
 
44 минуты назад, Warlock700 сказал:

На первой странице есть ролики по RVC, они не отличаются своими действиями от Applio - так же необходимо указать путь к папке с дата-сетом ( аудиоматериалом(ами) ), выбрать версию претрейна v2, установить частоту модели, (рекомендуется 40 Кгц, зачастую работает лучше 48 Кгц) алгоритм обучения выбрать rmvpe. Однако, я бы не рекомендовал производить обучение моделей в Applio по причине того, что в нем в качестве мощностей для обучения будет использован CPU, а не GPU. Разработчик еще не реализован данную функцию. Размер партии (батча) обычно устанавливается того же объема, что и объем видеопамяти.
В своем случае я ставлю для RTX3060 12 gb значение на 11, поскольку при значении 12 и использовании ПК в других задачах обучение может вылететь. Количество эпох устанавливается в зависимости от объема дата-сета, опция "сохранять промежуточные модели" устанавливается по желанию. По большей части это все, что требуется, чтобы осуществить запуск обучения.

для 4090 с 24gb какие значения ставить в Шаг 3. Заполнение дополнительных настроек обучения и запуск обучения модели и индекса для RVC-TTS? (размер пачки это партии/батча)

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
 
13 минут назад, Kuroneko сказал:

для 4090 с 24gb какие значения ставить в Шаг 3. Заполнение дополнительных настроек обучения и запуск обучения модели и индекса для RVC-TTS? (размер пачки это партии/батча)

Рекомендовал бы попробовать установить batch (партия) на значение в 22 для небольшого дата-сета в размере до 10 минут на максимальное количество эпох (1000) и посмотреть, как будет проходить процесс обучения. Если планируете попутно во что-то играть, а не использовать компьютер только для браузера, то если игры не будут тяжеловесными, устанавливайте batch на значение 20.
Если процесс дойдет до конца - пробуйте повысить значение на одну единицу.

Сразу уточню - batch практически, либо не влияет на качество конечной модели. Споры активно идут, но пока разница минимальна, либо на уровне погрешности. batch (партия) отвечает за поток данных для обучения и чем он выше, тем быстрее модель обучится. Поэтому тут все методом проб и ошибок подбирается.

Модели для преобразования в TTS и для преобразования живой речи не отличаются. Для вокальных моделей нужен, естественно, максимально чистый вокал исполнителя. В последнем случае еще рекомендуется добавлять небольшое количество речи. Это так, к слову...)

Изменено пользователем Warlock700
  • Мастер! 1

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
 

Надо бы модельки сильнее обучить. )))

 

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
 
1 час назад, Африканка Валерия сказал:

Надо бы модельки сильнее обучить. )))

 

Я обучаю модели, набирая максимальное количество возможных фраз, формируя дата-сет из чистых записей, без эффектов рации и надетого шлема, предварительно очищая (новые модели) аудиоматериал от шума. При этом я использую максимальное  значение для тренировок - 1000 эпох, а затем выбираю лучшую модель по графикам Tenserboard.

Не для всех персонажей можно набрать много фраз, даже если перелопатить (что я сделал) три части игры, тем более в некоторых персонажи присутствуют лишь в одной части. По этой причине я стал добирать материал из первых двух частей Метро 2033 и когда закончу сортировку, то начну повторное обучение моделей, применяя различные варианты обработки, (тщательное удаление шумов, нормализация, эквализация, де-эссер и т.д.)  а так же используя русскоязычные претрейны, которые могут повысить качество произношения моделей. Помимо всего прочего я работаю совместно с одним человеком над вокальной моделью (Валерий Кипелов) и для нее он подготавливает дата-сет согласных букв, на которых, зачастую, и происходят артефакты, особенно шипящие, "С" и "З". Я уже пробовал добавлять раннюю версию этого дата-сета к файлам для обучения голосовых моделей и результат становился лучше, для вокальной модели так точно.

Поэтому всему свое время.) Если не считать сортировки фраз из Метро, то проект находится в ожидании дата-сета согласных, после чего модели начнут активно переобучаться.

Изменено пользователем Warlock700
  • Аплодисменты 1

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
 

Оффтоп-модель: Мельник из Метро исход.
Демонстрация возможностей:

 

Изменено пользователем Warlock700
  • Лайк 2

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
 

Протестирована и загружена модель персонажей, озвученных голосом Алексея Череватенко (Борода, Ной и др.)
Обновлено описание - доступна загрузка моделей с разной обработкой и обученной на нескольких претрейнах (скачивание через Hugging Face)
Демонстрация возможностей:

 

Изменено пользователем Warlock700
  • Мастер! 1
  • Хабар 1

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
 

За Череватенко респект, то, чего так долго не хватало) Хотел бы помочь в расширении пака сталкерских голосов, потому может полезно будет:

Я раньше для Silero бота собирал реплики из сталкера\метро, но их подход потом как-то перестал вызывать доверие. В общем есть у меня собранные полные паки реплик по 15 секунд для голоса Кардана и Вано (Игорь Мельников) из реплик персонажей Метро 2033 и второй голос бандитов из сталкера, озвученных Терещуком (все реплики из ТЧ, ЧН, ЗП). Хотелось бы верить что пригодится.

https://cloud.mail.ru/public/qBar/YFiZh12Xe - Кардан\Вано ака Мельников

https://cloud.mail.ru/public/UJeq/GcxQvXd7c - Бандиты Терещука

  • Мастер! 1

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
 
3 часа назад, Phantom_86 сказал:

За Череватенко респект, то, чего так долго не хватало) Хотел бы помочь в расширении пака сталкерских голосов, потому может полезно будет:

Я раньше для Silero бота собирал реплики из сталкера\метро, но их подход потом как-то перестал вызывать доверие. В общем есть у меня собранные полные паки реплик по 15 секунд для голоса Кардана и Вано (Игорь Мельников) из реплик персонажей Метро 2033 и второй голос бандитов из сталкера, озвученных Терещуком (все реплики из ТЧ, ЧН, ЗП). Хотелось бы верить что пригодится.

https://cloud.mail.ru/public/qBar/YFiZh12Xe - Кардан\Вано ака Мельников

https://cloud.mail.ru/public/UJeq/GcxQvXd7c - Бандиты Терещука

Меня еще давно просили сделать по голосу Бороды модель, но материала (чистого, без эффектов) в игре было мало, но подсказали вариант с добором из фраз в Метро 1-2.
Silero имеет куда более низкое качество, чем даже самая плохая голосовая модель, поскольку это все-таки TTS...

Приятно подобное слышать.) Спасибо, но материала у меня более, чем достаточно.) Весь он отсортирован по папкам, для некоторых актеров даже по роли. На ютубе выкладывал список, продублирую сюда:
На текущий момент по вселенной Метро и Сталкер имеется такое количество материала:

  • Анна Метро Исход - 10 минут;
  • Анна Метро 1-2 - 9 минут;
  • Артем Метро 1-2 - 57 минут;
  • Григорий Герман (Бандиты, Наемники) - 2 часа 21 минута;
  • Череватенько (Ной, Борода) - 27 минут;
  • Терещук (Военные) - 1 час 9 минут;
  • Розин (Гонта) - 55 минут;
  • Морозов (Дегтярев) - 55 минут;
  • Вилков (Долг) - 1 час 33 минуты;
  • Пашин (Мельник, Ковальский) - 1 час 6 минут;
  • Корбут, Москвин - 24 минуты;
  • Кордан, Вано - 4 минуты 30 секунд;
  • Сахаров, Лесник, Федя - 26 минут;
  • Лесницкий - 4 минуты;
  • Мельник Метро Исход - 12 минут 40 секунд;
  • Неизвестный голос 1 из Метро - 4 минуты 20 секунд;
  • Неизвестный голос 2 из Метро - 7 минут 30 секунд;
  • Группировка Монолит - 15 минут;
  • Малуха (Новички, экологи) - 46 минут;
  • Новички (Гофуров) - 12 минут;
  • Прохоров - 44 минуты;
  • Ребенок Метро - 4 минуты 50 секунд;
  • Богуш (Свобода) - 1 час 6 минут;
  • Сидорович ТЧ - 9 минут 20 секунд;
  • Стальчук (Сталкеры, Лебедев) - 2 часа 21 минута;
  • Флинт - 5 минут;
  • Халецкий - 5 минут 35 секунд;
  • Черный (ребенок) - 11 минут 40 секунд;

Для моделей мне необходимо только две вещи - время, так же узнать, чьи я собрал голоса и отсортировал в папки "неизвестный голос 1 из Метро" и "неизвестный голос 2 из Метро".
Я их отметил для себя, как "Молодой" и "Старый". Неизвестный голос "Старого" мне очень напомнил Юрия Яценко - голос озвучки Военных из Зова Припяти, встречающихся по сюжету. Согласно stalker-wiki он озвучивал часть фраз этих персонажей:
уникальных персонажей:
Прапорщик Валентир
Лейтенант Подорожный
Лейтенант Роговец
Лейтенант Смирнов
Лейтенант Стеценко
Капитан Тарасов
Но когда я посмотрел титры и каст актеров русского дубляжа, то его там не увидел.

Я буду очень благодарен тому, что сможет сказать, верно ли я выполнил сортировку, а так же за подсказку, кто именно озвучивал фразы из архивов. Если я действительно прав и неизвестный голос "Старого" - это действительно Яценко, то я смогу сделать полноценную модель по военным из госпиталя.
Неизвестный голос 1 из Метро (Молодой) - Скачать - Google.Drive
Неизвестный голос 2 из Метро (Старый) - Скачать - Google.Drive

Изменено пользователем Warlock700

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
 

Warlock700 Молодой - это точно один из разрабов 4а, который вместе с Профом из GSC перешел (уж не помню фамилию). В билдах Метро все реплики были озвучены им на пару с Профом, ну и как видно некоторые дошли до релиза (к слову его можно слышать также в некоторых билдах сталкера - Например). По старому - разрываюсь между Яценко и Сергеем Тихомировым (Тремор), еще повслушиваюсь.

"Кордан, Вано - 4 минуты 30 секунд" - это реплики только персонажей из ЗП, или уже включены фразы персонажей из Метро 2033, которые я выше скинул?

Ну и кстати, если вы заинтересованы в большом количестве материалов, то могу скинуть папку с озвучкой билда Metro Last light, где половина всей игры озвучена Прохоровым, чего нет в релизе.

 

 

 


Дополнено 22 минуты спустя

Warlock700 Поправочка, как выяснилось - в озвучке Метро не участвовали ни Яцекно, ни Тихомиров, так что "старый" - это актёр, не причастный к сталкеру.

Спойлер

image.png.9e2d0ed0f3e471c6793066523b69ceb8.pngimage.png.ef0e5d164a515f6dca3fa47c3b8b15ff.png

 

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Для публикации сообщений создайте учётную запись или авторизуйтесь

Вы должны быть пользователем, чтобы оставить комментарий

Создать учетную запись

Зарегистрируйте новую учётную запись в нашем сообществе. Это очень просто!

Регистрация нового пользователя

Войти

Уже есть аккаунт? Войти в систему.

Войти

  • Последние посетители   0 пользователей онлайн

    Ни одного зарегистрированного пользователя не просматривает данную страницу