Перейти к содержанию

Warlock700

Сталкеры
  • Публикаций

    36
  • Зарегистрирован

  • Посещение

Весь контент Warlock700

  1. Я обучаю модели, набирая максимальное количество возможных фраз, формируя дата-сет из чистых записей, без эффектов рации и надетого шлема, предварительно очищая (новые модели) аудиоматериал от шума. При этом я использую максимальное значение для тренировок - 1000 эпох, а затем выбираю лучшую модель по графикам Tenserboard. Не для всех персонажей можно набрать много фраз, даже если перелопатить (что я сделал) три части игры, тем более в некоторых персонажи присутствуют лишь в одной части. По этой причине я стал добирать материал из первых двух частей Метро 2033 и когда закончу сортировку, то начну повторное обучение моделей, применяя различные варианты обработки, (тщательное удаление шумов, нормализация, эквализация, де-эссер и т.д.) а так же используя русскоязычные претрейны, которые могут повысить качество произношения моделей. Помимо всего прочего я работаю совместно с одним человеком над вокальной моделью (Валерий Кипелов) и для нее он подготавливает дата-сет согласных букв, на которых, зачастую, и происходят артефакты, особенно шипящие, "С" и "З". Я уже пробовал добавлять раннюю версию этого дата-сета к файлам для обучения голосовых моделей и результат становился лучше, для вокальной модели так точно. Поэтому всему свое время.) Если не считать сортировки фраз из Метро, то проект находится в ожидании дата-сета согласных, после чего модели начнут активно переобучаться.
  2. Рекомендовал бы попробовать установить batch (партия) на значение в 22 для небольшого дата-сета в размере до 10 минут на максимальное количество эпох (1000) и посмотреть, как будет проходить процесс обучения. Если планируете попутно во что-то играть, а не использовать компьютер только для браузера, то если игры не будут тяжеловесными, устанавливайте batch на значение 20. Если процесс дойдет до конца - пробуйте повысить значение на одну единицу. Сразу уточню - batch практически, либо не влияет на качество конечной модели. Споры активно идут, но пока разница минимальна, либо на уровне погрешности. batch (партия) отвечает за поток данных для обучения и чем он выше, тем быстрее модель обучится. Поэтому тут все методом проб и ошибок подбирается. Модели для преобразования в TTS и для преобразования живой речи не отличаются. Для вокальных моделей нужен, естественно, максимально чистый вокал исполнителя. В последнем случае еще рекомендуется добавлять небольшое количество речи. Это так, к слову...)
  3. Отлично.) Процесс у Вас пошел.) Попробуйте изменить параметры в "расширенных настройках": Рекомендовал бы поиграться с параметрами "соотношение объектов поиска", по умолчанию оно установлено на 0.75, рекомендовал бы снизить его до значения 0.2, а если проблема останется, то сделать еще меньше. Можете так же попробовать поставить галочку "чистый звук", которая уберет шумы из аудиофайла. Лично не проверял, делаю это заранее в аудиоредакторах. В качестве алгоритма преобразование настоятельно рекомендую выставить Fcpe. Дополнено 7 минуты спустя Поскольку RVC был создан для англоязычных пользователей, то в качестве базы голосов (претрейн) используются англоязычные голоса. Эту проблему частично улучшил выход русскоязычных претрейнов, наиболее популярными являются Snowie и Rin-E3, однако полностью проблему они не решают, модели говорят с акцентом и артефактами, даже при чистой записи. Причина тому голосовая модель hubert-base, которая так же основана на англоязычных голосах. Лишь недавно стали появляться модели hubert на других языках, (итальянский и японский) но тут так же не обошлось без подводных камней - если модель была обучена на одном hubert, то другой неспособен ее использовать. Поэтому, пока не выйдет hubert_base для русского языка - продолжу обучать модели на англоязычном hubert. Переобучение на других претрейнах запланировано и будет, но позднее - сейчас я занимаюсь сортировкой голосов из Метро 2033. Мне осталось 2500 фраз обработать, продолжительностью в два часа. Сортирую вручную, не все голоса удается определять с первого раза или даже вообще. После этого все модели начнут переобучаться, а так же к ним будут применены различные варианты обработки и т.п. Дополнено 18 минуты спустя Поэкспериментировал с этим же аудиофайлом (оригинал) - даже на индексе 0 не удалось полностью избавиться от проблем на шипящих, но результат в разы лучше. В своем варианте я попробовал еще понизить тон до -2 (в Applio это "Смола") https://disk.yandex.ru/d/BXqRfiQIpdN7kw P.S.: Файл поправил, случайно залил оригинальный файл Мельника.
  4. Как писал до этого RVC и Applio практически не отличаются друг от друга, поскольку последний fork первого. Сам я обучался работе с RVC по роликам этого человека. Вся информация, которая может Вам потребоваться для обучения, набора материала и оценке качества моделей есть у данного пользователя: https://www.youtube.com/@ba1yya Дополнено 1 минуту спустя Не исключено. Просто копируйте ссылку из того браузера, в котором открылось приложение и вставляйте ее в другой. Использую лично Firefox, порою не с первого раза запускаю преобразование. По умолчанию это будет: http://127.0.0.1:6969/
  5. На первой странице есть ролики по RVC, они не отличаются своими действиями от Applio - так же необходимо указать путь к папке с дата-сетом ( аудиоматериалом(ами) ), выбрать версию претрейна v2, установить частоту модели, (рекомендуется 40 Кгц, зачастую работает лучше 48 Кгц) алгоритм обучения выбрать rmvpe. Однако, я бы не рекомендовал производить обучение моделей в Applio по причине того, что в нем в качестве мощностей для обучения будет использован CPU, а не GPU. Разработчик еще не реализован данную функцию. Размер партии (батча) обычно устанавливается того же объема, что и объем видеопамяти. В своем случае я ставлю для RTX3060 12 gb значение на 11, поскольку при значении 12 и использовании ПК в других задачах обучение может вылететь. Количество эпох устанавливается в зависимости от объема дата-сета, опция "сохранять промежуточные модели" устанавливается по желанию. По большей части это все, что требуется, чтобы осуществить запуск обучения. TTS в Applio работает таким же образом, как и в RVC-TTS: Выбирается модель Edge по языку и полу, указывается модель для преобразования, (которая предварительно должна быть обучена/загружена) вводиться текст и запускается генерация. Applio сначала сгенерирует текст в Edge, после чего выполнит преобразование полученного материала, согласно выбранным параметрам. Для моих моделей, которые обучаются на англоязычном претрейне, рекомендуется устанавливать значение "соотношение поиска черт (поиска)" в среднем на не больше, чем 0.5. Этот параметр индивидуальный и зависит от схожести преобразовываемого голоса и голоса модели. Дополнено 4 минуты спустя Порою не с первого раза Applio выполняет преобразование. В этом случае надо на крестик удалить добавленный файл и добавить его заново. А так же обязательно, чтобы консоль с запущенной программой была открыта и не закрывалась, пока с ней ведется работа. В принципе, рекомендовал бы использовать RVC - программа более стабильна, корректно выполняет преобразование и обучение.
  6. Не за что.) Да, необходимо разместить файлы модели расширения .pht и .index в папку logs. Файл metadata.json для преобразования аудио не нужен, он автоматически добавляется сайтом weight-gg, в нем продублирована информация со страницы модели.
  7. Кажется, я понял, в чем причина - Вы недостаточное время ждете, пока осуществится запуск программы. В моем случае на Ryzen 7500F и запуске с HDD первый запуск Applio осуществляется чуть больше минуты. Судя по всему так долго подгружаются процессы, ищутся зависимости или т.п.: Видео с демонстрацией распаковки и запуска, распаковка ускорена в 6 раз:
  8. Предустановленный питон точно не требуется, у меня все проекты на нейросетях портативные, где питон уже имеется в папке, со всеми зависимостями и прописанными путями. Вы до этого говорили, что ругался Ваш антивирус. Судя по всему именно он вносит изменение в запускной файл. Содержание run-applio.bat должно быть таким: Так же очень похоже на то, что запуск батника осуществляется не из папки Applio, из-за чего не совпадают пути и возникает ошибка о том, что python.exe не является исполняемой программой/средой, поскольку система осуществляет запуск по пути "c:\Windows\System32", где такой папки и файла нет. Если Вы хотите сделать себе запускной ярлык - создайте его именно для данного файла. Пример:
  9. Обе версии на скриншоте одинаковы, одна является упакованной в .exe со строенным распаковщиком 7zip, а другая просто упакована в архив .zip. Она является "pickle" из-за того, что загружена последней, говоря иначе - свежая загрузка.
  10. Судя по всему Вы скачали не скомпилированную версию, а ту, которую необходимо самостоятельно собирать. По этой ссылке можно скачать скомпилированные версии Applio: https://huggingface.co/IAHispano/Applio/tree/main/Compiled
  11. В описание добавлены ссылки на Applio и RVC-TTS. Первый проект является fork`ом оригинальной RVC. Помимо доступного функционала RVC в Applio имеется встроенный Test-to-Speech, а так же доступен алгоритм FCPE, который выдает более лучшие показатели преобразования, в сравнении с RMVPE. RVC-TTS в свою очередь является проектом для озвучивания текста в речь на движке Edge с последующим преобразованием полученного результата голосовыми моделями.
  12. К сожалению, но на текущем этапе проекта RVC подобное часто встречается у всех моделей. Это связано с двумя моментами: англоязычным претрейн (заранее обученная база голосов) и модель hubert_base. Если первое можно исправить ру-претрейном, то вот второй момент пока никак не поправить. Может быть со временем энтузиасты смогут сделать hubert_base для RVC для русскоговорящих голосов, но пока что никаких новостей. Только-только стали появляться hubert_base на других языках...
  13. Протестирована и загружена модель голосов персонажей, озвученных Иваном Розиным (Гонта, Гаваец и др.) Обновлено описание. Демонстрация возможностей:
  14. В отношении нейросетей пока еще законодательство мало способно регулировать данный процесс, но учитывая, что труда будет затрачено много, то Вам явно не хотелось бы столкнуться с иском в свою сторону в будущем. Здесь вижу следующие варианты событий: Пункт 1: (обязательный) Подготовка датасетов для создания голосовых моделей на основе фраз из игры с их сортировкой либо по актерам, либо по актерам, манере и тональности озвучки. Не исключено, что из 10 женских голосов в озвучивании принимали участие лишь три актрисы, а для мужских голосов - 5 актеров; Пункт 2: (обязательный) Создание голосовых моделей на основе полученных дата-сетов; Пункт 3: (вариантивный) Озвучка всех одним человеком, либо группой на русском языке с их последующим преобразованием голосовой моделью желаемого персонажа (актера); Пункт 4: (вариантивный) Подготовка необходимых фраз с помощью любой утилиты Test-to-speech с последующим преобразованием полученных результатов голосовыми моделями желаемых персонажей. (актеров)
  15. Если Вы имеете ввиду преобразование английской аудиодорожки с получением русского языка, то нет - это невозможно. Если Вы имеете ввиду создание модели на основе англоговорящего голоса с последующим его применением при преобразовании русской речи, то да - это возможно, но зачастую будет присутствовать акцент. Этот эффект возможно немного минимизировать, если использовать индекс от Snowie по улучшению речи из EN в RU, а так же если обучить саму голосовую модель на ру-претрейне.
  16. Протестирована и загружена модель Лебедева. Обновлено описание. Демонстрация возможностей:
  17. Теперь дошло.) Часть из них даже есть в релизе, но судя по всему не все, иначе вряд ли бы Вы заговорили о билдах. В архиве "dialogs" и он, и билдовский Сахаров, и Сидорович был. Да, кстати. Почему-то до такой идеи я не додумался. Наверное потому что не вслушивался и главной идеей была сортировка, а не анализ сказанного. Файлик гляну, когда появится настроение сделать "благотворительную" озвучку. Думаю, что он мне очень пригодиться в тот момент.) Спасибо.) Добро. Когда закончу с Метро и займусь все распределю - примусь за эти билды. Спасибо еще раз.)
  18. Не совсем понял про "как раз есть для всех диалогов". Имеете ввиду, что в билдах присутствует больше диалогов Вилкова? Спасибо, пороюсь в материалах на данном сайте. У Вас есть совет по тому, какой лучше скачать для набора наибольшего числа вырезанных фраз? За исключением Прохорова, его у меня в достатке.) 40 минут, если вдруг не говорил. Можно, конечно. С помощью Applio, либо RVC TTS, но я всегда "живость" модели проверяю посредством преобразования голоса. Только в этом случае я сужу о качестве модели. Именно по этой причине я не выложил недавно практически полностью готового Лебедева - непонятно с чего начал акцент выдавать. UPD: Я поступил проще - качаю все билды ТЧ, нашел ссылку на этом же форуме с торрент файлом.
  19. У меня билдовских фраз Бармена в наличии нет, только черновые Прохорова, которые уже были использованы для тренировки его модели. Не подскажите, где можно проверенные ссылки раздобыть на билды ТЧ? Еще лучше, конечно же, если сможете их скинуть - буду премного благодарен, не придется тогда еще сортировать фразы с билдов, тем более, что те будут повторяться. Хотя, наверное, со временем и это стоит сделать. Да, Воронина вроде тоже Вилков озвучивал. С долговским голосом у меня записей достаточно, чтобы еще модель обучить. Насчет расшифровок фраз - возможно пригодиться, конечно, но пока не хватает энтузиазма, чтобы наговорить разных фраз для мододелов - своего рода "благотворительную" озвучку сделать.
  20. Если Вы делали модель с помощью RVC, то с того момента много поменялось - добавили новые алгоритмы, вышла вторая версия претрейна, русские претрейны тоже вышли. К тому же, я больше позиционирую проект не для преобразования результатов из text-to-speech, а для преобразования голоса, будь то один человек, либо же группа "озвучеров". Только в этом случае, как мне кажется, можно получить достойный результат, который не стыдно будет добавлять в моды. Да, полностью согласен - голос узнается слабо на Вашем ролике, повлиял на это ограниченный дата-сет, либо преобразование голоса из text-to-speech результата - сказать трудно. У бармена прям совсем мало фраз, поэтому лучше всего добавить схожих по манере произношения фраз долговцев или других персонажей, которых Вилков озвучивал. Того же Сидоровича из ЧН, к примеру.
  21. Не у всех моделей хватает эмоциональности для TTS. Но Вы можете попробовать найти в глобальной сети TTS хорошим голосом, а затем в последствии преобразовать полученный результат в RVC. Мне кажется, что так лучше будет.
  22. Вы воспользовались TTS какой программы? Вроде как RVC TTS выдает довольно неплохие результаты и, как я заметил, зачастую для женских голосов. Мужские далеко не всегда выходят хорошо.
  23. Совсем нет, но уже не первый месяц занимаюсь данным делом, поэтому определенный базис успел накопиться...)
  24. Практически все, кроме определенных фрагментов в роликах, создано на основе преобразования голоса. RVC Text-to-speech - немного другой проект, хоть так же способен преобразовывать голос, заранее сгенерированной движком Edge. В этом случае Вам либо необходимо скачать его по ссылке: Либо же Вам необходим проект, за основу которого взята оригинальная RVC, но у которой есть собственный разработчик. Говоря иначе - это Fork RVC от Hispano, а именно - Applio. Этот fork способен и обучать голосовые модели, и преобразовывать аудиофрагменты, и имеет свой TTS. В проекте много экспериментальных функций, не все из них разработчик довел до ума: Дополнено 7 минуты спустя Именно так, если говорить о Вилкове. К слову, я уже отсортировал все сюжетные фразы и только там он наговорил в трех частях чистым голосом за 16 минут, а ведь есть еще диалоги NPS для каждой группировки. Так что можно смело сказать, что материала Вилкова достаточно. На очереди сортировка первых двух частей Метро, все так же фразы из сюжета. После того, как я закончу со всем голосами метро и сталкера, выполню окончательную сортировку на основе тембров, высоты и характерных черт, то начну выпускать модели на разных предобученных базах. (их на текущий момент не меньше 3 набралось) После того, как я это сделаю - проект RVC Stalker Voices можно будет считать полностью готовым, пока не выйдет новая версия RVC. Поэтому, по поводу Череватенко, если Вы выполните сортировку - это только ускорит выход модели Бороды и других персонажей, озвученных его голосом, но никак не поможет проекту в целом.