Перейти к содержанию

Warlock700

Сталкеры
  • Публикаций

    35
  • Зарегистрирован

  • Посещение

Репутация

50 Нейтральная

Информация о Warlock700

  • Звание
    Новичок

Посетители профиля

Блок последних пользователей отключён и не показывается другим пользователям.

  1. Я обучаю модели, набирая максимальное количество возможных фраз, формируя дата-сет из чистых записей, без эффектов рации и надетого шлема, предварительно очищая (новые модели) аудиоматериал от шума. При этом я использую максимальное значение для тренировок - 1000 эпох, а затем выбираю лучшую модель по графикам Tenserboard. Не для всех персонажей можно набрать много фраз, даже если перелопатить (что я сделал) три части игры, тем более в некоторых персонажи присутствуют лишь в одной части. По этой причине я стал добирать материал из первых двух частей Метро 2033 и когда закончу сортировку, то начну повторное обучение моделей, применяя различные варианты обработки, (тщательное удаление шумов, нормализация, эквализация, де-эссер и т.д.) а так же используя русскоязычные претрейны, которые могут повысить качество произношения моделей. Помимо всего прочего я работаю совместно с одним человеком над вокальной моделью (Валерий Кипелов) и для нее он подготавливает дата-сет согласных букв, на которых, зачастую, и происходят артефакты, особенно шипящие, "С" и "З". Я уже пробовал добавлять раннюю версию этого дата-сета к файлам для обучения голосовых моделей и результат становился лучше, для вокальной модели так точно. Поэтому всему свое время.) Если не считать сортировки фраз из Метро, то проект находится в ожидании дата-сета согласных, после чего модели начнут активно переобучаться.
  2. Рекомендовал бы попробовать установить batch (партия) на значение в 22 для небольшого дата-сета в размере до 10 минут на максимальное количество эпох (1000) и посмотреть, как будет проходить процесс обучения. Если планируете попутно во что-то играть, а не использовать компьютер только для браузера, то если игры не будут тяжеловесными, устанавливайте batch на значение 20. Если процесс дойдет до конца - пробуйте повысить значение на одну единицу. Сразу уточню - batch практически, либо не влияет на качество конечной модели. Споры активно идут, но пока разница минимальна, либо на уровне погрешности. batch (партия) отвечает за поток данных для обучения и чем он выше, тем быстрее модель обучится. Поэтому тут все методом проб и ошибок подбирается. Модели для преобразования в TTS и для преобразования живой речи не отличаются. Для вокальных моделей нужен, естественно, максимально чистый вокал исполнителя. В последнем случае еще рекомендуется добавлять небольшое количество речи. Это так, к слову...)
  3. Отлично.) Процесс у Вас пошел.) Попробуйте изменить параметры в "расширенных настройках": Рекомендовал бы поиграться с параметрами "соотношение объектов поиска", по умолчанию оно установлено на 0.75, рекомендовал бы снизить его до значения 0.2, а если проблема останется, то сделать еще меньше. Можете так же попробовать поставить галочку "чистый звук", которая уберет шумы из аудиофайла. Лично не проверял, делаю это заранее в аудиоредакторах. В качестве алгоритма преобразование настоятельно рекомендую выставить Fcpe. Дополнено 7 минуты спустя Поскольку RVC был создан для англоязычных пользователей, то в качестве базы голосов (претрейн) используются англоязычные голоса. Эту проблему частично улучшил выход русскоязычных претрейнов, наиболее популярными являются Snowie и Rin-E3, однако полностью проблему они не решают, модели говорят с акцентом и артефактами, даже при чистой записи. Причина тому голосовая модель hubert-base, которая так же основана на англоязычных голосах. Лишь недавно стали появляться модели hubert на других языках, (итальянский и японский) но тут так же не обошлось без подводных камней - если модель была обучена на одном hubert, то другой неспособен ее использовать. Поэтому, пока не выйдет hubert_base для русского языка - продолжу обучать модели на англоязычном hubert. Переобучение на других претрейнах запланировано и будет, но позднее - сейчас я занимаюсь сортировкой голосов из Метро 2033. Мне осталось 2500 фраз обработать, продолжительностью в два часа. Сортирую вручную, не все голоса удается определять с первого раза или даже вообще. После этого все модели начнут переобучаться, а так же к ним будут применены различные варианты обработки и т.п. Дополнено 18 минуты спустя Поэкспериментировал с этим же аудиофайлом (оригинал) - даже на индексе 0 не удалось полностью избавиться от проблем на шипящих, но результат в разы лучше. В своем варианте я попробовал еще понизить тон до -2 (в Applio это "Смола") https://disk.yandex.ru/d/BXqRfiQIpdN7kw P.S.: Файл поправил, случайно залил оригинальный файл Мельника.
  4. Как писал до этого RVC и Applio практически не отличаются друг от друга, поскольку последний fork первого. Сам я обучался работе с RVC по роликам этого человека. Вся информация, которая может Вам потребоваться для обучения, набора материала и оценке качества моделей есть у данного пользователя: https://www.youtube.com/@ba1yya Дополнено 1 минуту спустя Не исключено. Просто копируйте ссылку из того браузера, в котором открылось приложение и вставляйте ее в другой. Использую лично Firefox, порою не с первого раза запускаю преобразование. По умолчанию это будет: http://127.0.0.1:6969/
  5. На первой странице есть ролики по RVC, они не отличаются своими действиями от Applio - так же необходимо указать путь к папке с дата-сетом ( аудиоматериалом(ами) ), выбрать версию претрейна v2, установить частоту модели, (рекомендуется 40 Кгц, зачастую работает лучше 48 Кгц) алгоритм обучения выбрать rmvpe. Однако, я бы не рекомендовал производить обучение моделей в Applio по причине того, что в нем в качестве мощностей для обучения будет использован CPU, а не GPU. Разработчик еще не реализован данную функцию. Размер партии (батча) обычно устанавливается того же объема, что и объем видеопамяти. В своем случае я ставлю для RTX3060 12 gb значение на 11, поскольку при значении 12 и использовании ПК в других задачах обучение может вылететь. Количество эпох устанавливается в зависимости от объема дата-сета, опция "сохранять промежуточные модели" устанавливается по желанию. По большей части это все, что требуется, чтобы осуществить запуск обучения. TTS в Applio работает таким же образом, как и в RVC-TTS: Выбирается модель Edge по языку и полу, указывается модель для преобразования, (которая предварительно должна быть обучена/загружена) вводиться текст и запускается генерация. Applio сначала сгенерирует текст в Edge, после чего выполнит преобразование полученного материала, согласно выбранным параметрам. Для моих моделей, которые обучаются на англоязычном претрейне, рекомендуется устанавливать значение "соотношение поиска черт (поиска)" в среднем на не больше, чем 0.5. Этот параметр индивидуальный и зависит от схожести преобразовываемого голоса и голоса модели. Дополнено 4 минуты спустя Порою не с первого раза Applio выполняет преобразование. В этом случае надо на крестик удалить добавленный файл и добавить его заново. А так же обязательно, чтобы консоль с запущенной программой была открыта и не закрывалась, пока с ней ведется работа. В принципе, рекомендовал бы использовать RVC - программа более стабильна, корректно выполняет преобразование и обучение.
  6. Не за что.) Да, необходимо разместить файлы модели расширения .pht и .index в папку logs. Файл metadata.json для преобразования аудио не нужен, он автоматически добавляется сайтом weight-gg, в нем продублирована информация со страницы модели.
  7. Кажется, я понял, в чем причина - Вы недостаточное время ждете, пока осуществится запуск программы. В моем случае на Ryzen 7500F и запуске с HDD первый запуск Applio осуществляется чуть больше минуты. Судя по всему так долго подгружаются процессы, ищутся зависимости или т.п.: Видео с демонстрацией распаковки и запуска, распаковка ускорена в 6 раз:
  8. Предустановленный питон точно не требуется, у меня все проекты на нейросетях портативные, где питон уже имеется в папке, со всеми зависимостями и прописанными путями. Вы до этого говорили, что ругался Ваш антивирус. Судя по всему именно он вносит изменение в запускной файл. Содержание run-applio.bat должно быть таким: Так же очень похоже на то, что запуск батника осуществляется не из папки Applio, из-за чего не совпадают пути и возникает ошибка о том, что python.exe не является исполняемой программой/средой, поскольку система осуществляет запуск по пути "c:\Windows\System32", где такой папки и файла нет. Если Вы хотите сделать себе запускной ярлык - создайте его именно для данного файла. Пример:
  9. Обе версии на скриншоте одинаковы, одна является упакованной в .exe со строенным распаковщиком 7zip, а другая просто упакована в архив .zip. Она является "pickle" из-за того, что загружена последней, говоря иначе - свежая загрузка.
  10. Судя по всему Вы скачали не скомпилированную версию, а ту, которую необходимо самостоятельно собирать. По этой ссылке можно скачать скомпилированные версии Applio: https://huggingface.co/IAHispano/Applio/tree/main/Compiled
  11. В описание добавлены ссылки на Applio и RVC-TTS. Первый проект является fork`ом оригинальной RVC. Помимо доступного функционала RVC в Applio имеется встроенный Test-to-Speech, а так же доступен алгоритм FCPE, который выдает более лучшие показатели преобразования, в сравнении с RMVPE. RVC-TTS в свою очередь является проектом для озвучивания текста в речь на движке Edge с последующим преобразованием полученного результата голосовыми моделями.
  12. К сожалению, но на текущем этапе проекта RVC подобное часто встречается у всех моделей. Это связано с двумя моментами: англоязычным претрейн (заранее обученная база голосов) и модель hubert_base. Если первое можно исправить ру-претрейном, то вот второй момент пока никак не поправить. Может быть со временем энтузиасты смогут сделать hubert_base для RVC для русскоговорящих голосов, но пока что никаких новостей. Только-только стали появляться hubert_base на других языках...
  13. Протестирована и загружена модель голосов персонажей, озвученных Иваном Розиным (Гонта, Гаваец и др.) Обновлено описание. Демонстрация возможностей:
  14. В отношении нейросетей пока еще законодательство мало способно регулировать данный процесс, но учитывая, что труда будет затрачено много, то Вам явно не хотелось бы столкнуться с иском в свою сторону в будущем. Здесь вижу следующие варианты событий: Пункт 1: (обязательный) Подготовка датасетов для создания голосовых моделей на основе фраз из игры с их сортировкой либо по актерам, либо по актерам, манере и тональности озвучки. Не исключено, что из 10 женских голосов в озвучивании принимали участие лишь три актрисы, а для мужских голосов - 5 актеров; Пункт 2: (обязательный) Создание голосовых моделей на основе полученных дата-сетов; Пункт 3: (вариантивный) Озвучка всех одним человеком, либо группой на русском языке с их последующим преобразованием голосовой моделью желаемого персонажа (актера); Пункт 4: (вариантивный) Подготовка необходимых фраз с помощью любой утилиты Test-to-speech с последующим преобразованием полученных результатов голосовыми моделями желаемых персонажей. (актеров)
  15. Если Вы имеете ввиду преобразование английской аудиодорожки с получением русского языка, то нет - это невозможно. Если Вы имеете ввиду создание модели на основе англоговорящего голоса с последующим его применением при преобразовании русской речи, то да - это возможно, но зачастую будет присутствовать акцент. Этот эффект возможно немного минимизировать, если использовать индекс от Snowie по улучшению речи из EN в RU, а так же если обучить саму голосовую модель на ру-претрейне.