Перейти к содержанию

Warlock700

Сталкеры
  • Публикаций

    42
  • Зарегистрирован

  • Посещение

Репутация

60 Нейтральная

Информация о Warlock700

  • Звание
    Новичок

Посетители профиля

Блок последних пользователей отключён и не показывается другим пользователям.

  1. Протестированы и загружены новые модели: Владимир Плахов - голос Артема и других NPC из Метро 2033; Владимир Терещук - голос военных, бандитов NPC-2, а так же других NPC из серии Сталкер и Метро 2033; Игорь Мельников - голос Кардана и Вано из Сталкер Зов Припяти, а так же Евгения из Метро 2033 Примечание: образцов чистого голоса без эффектов в Сталкере для Мельникова мало, поэтому большая часть образцов взята из Метро 2033. Модель обучена под разные разные претрейны и хуберты (процесс обучения продолжается) Обновленная модель Сидоровича под разные претрейны, типы обработки и хуберты. Важное нововведение: С текущего момента модели обучаются не только под разные претрейны, (они же образцы голоса) но и под другие модели хуберт - важнейшая модель, ответственное за ассоциирование и детектирование речи образцов голоса. Обучение происходит в Applio для соблюдения максимальной совместимости, а так же для простоты переключения при использовании. Информация о хубертах и претрейнах появится в ближайшее время. Дополнено 23 минуты спустя Добавлены пояснения по моделям, разным hubert и pretrained models. Подробное описание pretrained models будет составлено позднее. Дополнено 56 минуты спустя Добавлена черновая инструкция по работе с RVC на примере его fork`а - Applio. В руководстве на текущий момент полностью описаны процессы преобразования голоса, а так же использование TTS.
  2. Какое именно приложение у Вас не работает? Если RVC, то какую версию использовали? RVC_AMD-INTEL, либо RVC-Nvidia? Версия Nvidia может не запуститься с старыми видеокартами этой компании, как и с видеокартами других производителей. Какая видеокарта установлена у Вас? Что именно Вы подразумеваете под "А с сайтом фигня"? Какой именно сайт? Локальный адрес для работы с программой, либо сайт для скачивания моделей?
  3. За информацию спасибо, наверняка у кого-то возникнет необходимость в ней при установке на Win 7. Благо, на Win 10 не требуется столько ухищрений для запуска, особенно если обновлены все библиотеки.
  4. Ооо, спасибо, это уже гораздо больше, чем ничего, как это было у меня до этого.) Значит надо будет искать, чей именно это голос, а уже после обучить и выложить модель. И если материала присутствует с Прохоровым во всех частях Сталкера в огромном количестве , то до релиза у этого разработчика совсем чуть-чуть дошло. А может быть и не дошло и это остатки от билдов, которые не вырезали полностью из игры. По Кордану и Вано - это реплики из Сталкера ЗП и Метро 1-2, где голос чистый, без эффектов надетого шлема и рации. У Вано хоть и прилично фраз в игре, но они либо с эффектом надетого шлема, (Путепровод "Припять") либо с эффектом рации. Такие голоса я не использую, исключением был лишь Монолит, где персонажи всегда говорят с таким эффектом. Хм... Предложение весьма заманчивое, но мне очень не хочется заниматься сортировкой снова.) Тем более, многие фразы будут повторятся с теми, что попали в релиз, из-за чего в итоге потребуется еще раз материал сортировать от того, что есть в папке у меня и того, что будет в этом билде. А я где-то два чистых дня убил только на сортировку голосов с Метро... В принципе, можете скинуть - пусть лучше будет, вдруг появится необходимость дополнить материал на модели, ведь мне не обязательно заниматься сортировкой сию же минуту.) Дополнено 9 минуты спустя Сортировку я делал фраз из релизных версий Metro 2033 Redux и Metro 2033 Redux Last Light, в титрах я тоже не обнаружил Яценко и Тихомирова. Но на Яценко голос очень похож. Методом исключения можно предположить, что голос "Старого" персонажа из Метро - это Анатолий Зиновенко, поскольку среди актеров озвучивания Сталкера его не было. Ролик, откуда титры Last Light Redux взял: https://www.youtube.com/watch?v=s9G2kydljQ8 Может быть это и есть Яценко, но его не указали в титрах, поскольку голос ну очень похож на него. Фразы из ЗП Яценко: Скачать - Google.Drive На "Молодой" голос еще думал, что это Гофуров (Новички ТЧ), но его в игре мало оказалось - нашел лишь несколько фраз бандитов в его исполнении. Левитский озвучивал Корбута и Москвина, поэтому это тоже не голос "Старого" персонажа. Поэтому все это тайна, покрытая мраком...) P.S.: Мне в игре не удалось нигде найти Алексея Зорина (Флинт из ЗП). Либо у него было очень немного фраз, либо же я перепутал его с кем-то, разместив его фразы в папку с другим актером.
  5. Меня еще давно просили сделать по голосу Бороды модель, но материала (чистого, без эффектов) в игре было мало, но подсказали вариант с добором из фраз в Метро 1-2. Silero имеет куда более низкое качество, чем даже самая плохая голосовая модель, поскольку это все-таки TTS... Приятно подобное слышать.) Спасибо, но материала у меня более, чем достаточно.) Весь он отсортирован по папкам, для некоторых актеров даже по роли. На ютубе выкладывал список, продублирую сюда: На текущий момент по вселенной Метро и Сталкер имеется такое количество материала: Анна Метро Исход - 10 минут; Анна Метро 1-2 - 9 минут; Артем Метро 1-2 - 57 минут; Григорий Герман (Бандиты, Наемники) - 2 часа 21 минута; Череватенько (Ной, Борода) - 27 минут; Терещук (Военные) - 1 час 9 минут; Розин (Гонта) - 55 минут; Морозов (Дегтярев) - 55 минут; Вилков (Долг) - 1 час 33 минуты; Пашин (Мельник, Ковальский) - 1 час 6 минут; Корбут, Москвин - 24 минуты; Кордан, Вано - 4 минуты 30 секунд; Сахаров, Лесник, Федя - 26 минут; Лесницкий - 4 минуты; Мельник Метро Исход - 12 минут 40 секунд; Неизвестный голос 1 из Метро - 4 минуты 20 секунд; Неизвестный голос 2 из Метро - 7 минут 30 секунд; Группировка Монолит - 15 минут; Малуха (Новички, экологи) - 46 минут; Новички (Гофуров) - 12 минут; Прохоров - 44 минуты; Ребенок Метро - 4 минуты 50 секунд; Богуш (Свобода) - 1 час 6 минут; Сидорович ТЧ - 9 минут 20 секунд; Стальчук (Сталкеры, Лебедев) - 2 часа 21 минута; Флинт - 5 минут; Халецкий - 5 минут 35 секунд; Черный (ребенок) - 11 минут 40 секунд; Для моделей мне необходимо только две вещи - время, так же узнать, чьи я собрал голоса и отсортировал в папки "неизвестный голос 1 из Метро" и "неизвестный голос 2 из Метро". Я их отметил для себя, как "Молодой" и "Старый". Неизвестный голос "Старого" мне очень напомнил Юрия Яценко - голос озвучки Военных из Зова Припяти, встречающихся по сюжету. Согласно stalker-wiki он озвучивал часть фраз этих персонажей: уникальных персонажей: Прапорщик Валентир Лейтенант Подорожный Лейтенант Роговец Лейтенант Смирнов Лейтенант Стеценко Капитан Тарасов Но когда я посмотрел титры и каст актеров русского дубляжа, то его там не увидел. Я буду очень благодарен тому, что сможет сказать, верно ли я выполнил сортировку, а так же за подсказку, кто именно озвучивал фразы из архивов. Если я действительно прав и неизвестный голос "Старого" - это действительно Яценко, то я смогу сделать полноценную модель по военным из госпиталя. Неизвестный голос 1 из Метро (Молодой) - Скачать - Google.Drive Неизвестный голос 2 из Метро (Старый) - Скачать - Google.Drive
  6. Протестирована и загружена модель персонажей, озвученных голосом Алексея Череватенко (Борода, Ной и др.) Обновлено описание - доступна загрузка моделей с разной обработкой и обученной на нескольких претрейнах (скачивание через Hugging Face) Демонстрация возможностей:
  7. Я обучаю модели, набирая максимальное количество возможных фраз, формируя дата-сет из чистых записей, без эффектов рации и надетого шлема, предварительно очищая (новые модели) аудиоматериал от шума. При этом я использую максимальное значение для тренировок - 1000 эпох, а затем выбираю лучшую модель по графикам Tenserboard. Не для всех персонажей можно набрать много фраз, даже если перелопатить (что я сделал) три части игры, тем более в некоторых персонажи присутствуют лишь в одной части. По этой причине я стал добирать материал из первых двух частей Метро 2033 и когда закончу сортировку, то начну повторное обучение моделей, применяя различные варианты обработки, (тщательное удаление шумов, нормализация, эквализация, де-эссер и т.д.) а так же используя русскоязычные претрейны, которые могут повысить качество произношения моделей. Помимо всего прочего я работаю совместно с одним человеком над вокальной моделью (Валерий Кипелов) и для нее он подготавливает дата-сет согласных букв, на которых, зачастую, и происходят артефакты, особенно шипящие, "С" и "З". Я уже пробовал добавлять раннюю версию этого дата-сета к файлам для обучения голосовых моделей и результат становился лучше, для вокальной модели так точно. Поэтому всему свое время.) Если не считать сортировки фраз из Метро, то проект находится в ожидании дата-сета согласных, после чего модели начнут активно переобучаться.
  8. Рекомендовал бы попробовать установить batch (партия) на значение в 22 для небольшого дата-сета в размере до 10 минут на максимальное количество эпох (1000) и посмотреть, как будет проходить процесс обучения. Если планируете попутно во что-то играть, а не использовать компьютер только для браузера, то если игры не будут тяжеловесными, устанавливайте batch на значение 20. Если процесс дойдет до конца - пробуйте повысить значение на одну единицу. Сразу уточню - batch практически, либо не влияет на качество конечной модели. Споры активно идут, но пока разница минимальна, либо на уровне погрешности. batch (партия) отвечает за поток данных для обучения и чем он выше, тем быстрее модель обучится. Поэтому тут все методом проб и ошибок подбирается. Модели для преобразования в TTS и для преобразования живой речи не отличаются. Для вокальных моделей нужен, естественно, максимально чистый вокал исполнителя. В последнем случае еще рекомендуется добавлять небольшое количество речи. Это так, к слову...)
  9. Отлично.) Процесс у Вас пошел.) Попробуйте изменить параметры в "расширенных настройках": Рекомендовал бы поиграться с параметрами "соотношение объектов поиска", по умолчанию оно установлено на 0.75, рекомендовал бы снизить его до значения 0.2, а если проблема останется, то сделать еще меньше. Можете так же попробовать поставить галочку "чистый звук", которая уберет шумы из аудиофайла. Лично не проверял, делаю это заранее в аудиоредакторах. В качестве алгоритма преобразование настоятельно рекомендую выставить Fcpe. Дополнено 7 минуты спустя Поскольку RVC был создан для англоязычных пользователей, то в качестве базы голосов (претрейн) используются англоязычные голоса. Эту проблему частично улучшил выход русскоязычных претрейнов, наиболее популярными являются Snowie и Rin-E3, однако полностью проблему они не решают, модели говорят с акцентом и артефактами, даже при чистой записи. Причина тому голосовая модель hubert-base, которая так же основана на англоязычных голосах. Лишь недавно стали появляться модели hubert на других языках, (итальянский и японский) но тут так же не обошлось без подводных камней - если модель была обучена на одном hubert, то другой неспособен ее использовать. Поэтому, пока не выйдет hubert_base для русского языка - продолжу обучать модели на англоязычном hubert. Переобучение на других претрейнах запланировано и будет, но позднее - сейчас я занимаюсь сортировкой голосов из Метро 2033. Мне осталось 2500 фраз обработать, продолжительностью в два часа. Сортирую вручную, не все голоса удается определять с первого раза или даже вообще. После этого все модели начнут переобучаться, а так же к ним будут применены различные варианты обработки и т.п. Дополнено 18 минуты спустя Поэкспериментировал с этим же аудиофайлом (оригинал) - даже на индексе 0 не удалось полностью избавиться от проблем на шипящих, но результат в разы лучше. В своем варианте я попробовал еще понизить тон до -2 (в Applio это "Смола") https://disk.yandex.ru/d/BXqRfiQIpdN7kw P.S.: Файл поправил, случайно залил оригинальный файл Мельника.
  10. Как писал до этого RVC и Applio практически не отличаются друг от друга, поскольку последний fork первого. Сам я обучался работе с RVC по роликам этого человека. Вся информация, которая может Вам потребоваться для обучения, набора материала и оценке качества моделей есть у данного пользователя: https://www.youtube.com/@ba1yya Дополнено 1 минуту спустя Не исключено. Просто копируйте ссылку из того браузера, в котором открылось приложение и вставляйте ее в другой. Использую лично Firefox, порою не с первого раза запускаю преобразование. По умолчанию это будет: http://127.0.0.1:6969/
  11. На первой странице есть ролики по RVC, они не отличаются своими действиями от Applio - так же необходимо указать путь к папке с дата-сетом ( аудиоматериалом(ами) ), выбрать версию претрейна v2, установить частоту модели, (рекомендуется 40 Кгц, зачастую работает лучше 48 Кгц) алгоритм обучения выбрать rmvpe. Однако, я бы не рекомендовал производить обучение моделей в Applio по причине того, что в нем в качестве мощностей для обучения будет использован CPU, а не GPU. Разработчик еще не реализован данную функцию. Размер партии (батча) обычно устанавливается того же объема, что и объем видеопамяти. В своем случае я ставлю для RTX3060 12 gb значение на 11, поскольку при значении 12 и использовании ПК в других задачах обучение может вылететь. Количество эпох устанавливается в зависимости от объема дата-сета, опция "сохранять промежуточные модели" устанавливается по желанию. По большей части это все, что требуется, чтобы осуществить запуск обучения. TTS в Applio работает таким же образом, как и в RVC-TTS: Выбирается модель Edge по языку и полу, указывается модель для преобразования, (которая предварительно должна быть обучена/загружена) вводиться текст и запускается генерация. Applio сначала сгенерирует текст в Edge, после чего выполнит преобразование полученного материала, согласно выбранным параметрам. Для моих моделей, которые обучаются на англоязычном претрейне, рекомендуется устанавливать значение "соотношение поиска черт (поиска)" в среднем на не больше, чем 0.5. Этот параметр индивидуальный и зависит от схожести преобразовываемого голоса и голоса модели. Дополнено 4 минуты спустя Порою не с первого раза Applio выполняет преобразование. В этом случае надо на крестик удалить добавленный файл и добавить его заново. А так же обязательно, чтобы консоль с запущенной программой была открыта и не закрывалась, пока с ней ведется работа. В принципе, рекомендовал бы использовать RVC - программа более стабильна, корректно выполняет преобразование и обучение.
  12. Не за что.) Да, необходимо разместить файлы модели расширения .pht и .index в папку logs. Файл metadata.json для преобразования аудио не нужен, он автоматически добавляется сайтом weight-gg, в нем продублирована информация со страницы модели.
  13. Кажется, я понял, в чем причина - Вы недостаточное время ждете, пока осуществится запуск программы. В моем случае на Ryzen 7500F и запуске с HDD первый запуск Applio осуществляется чуть больше минуты. Судя по всему так долго подгружаются процессы, ищутся зависимости или т.п.: Видео с демонстрацией распаковки и запуска, распаковка ускорена в 6 раз:
  14. Предустановленный питон точно не требуется, у меня все проекты на нейросетях портативные, где питон уже имеется в папке, со всеми зависимостями и прописанными путями. Вы до этого говорили, что ругался Ваш антивирус. Судя по всему именно он вносит изменение в запускной файл. Содержание run-applio.bat должно быть таким: Так же очень похоже на то, что запуск батника осуществляется не из папки Applio, из-за чего не совпадают пути и возникает ошибка о том, что python.exe не является исполняемой программой/средой, поскольку система осуществляет запуск по пути "c:\Windows\System32", где такой папки и файла нет. Если Вы хотите сделать себе запускной ярлык - создайте его именно для данного файла. Пример: