Warlock700
Сталкеры-
Публикаций
41 -
Зарегистрирован
-
Посещение
Репутация
57 НейтральнаяИнформация о Warlock700
-
Звание
Новичок
Посетители профиля
Блок последних пользователей отключён и не показывается другим пользователям.
-
Какое именно приложение у Вас не работает? Если RVC, то какую версию использовали? RVC_AMD-INTEL, либо RVC-Nvidia? Версия Nvidia может не запуститься с старыми видеокартами этой компании, как и с видеокартами других производителей. Какая видеокарта установлена у Вас? Что именно Вы подразумеваете под "А с сайтом фигня"? Какой именно сайт? Локальный адрес для работы с программой, либо сайт для скачивания моделей?
-
За информацию спасибо, наверняка у кого-то возникнет необходимость в ней при установке на Win 7. Благо, на Win 10 не требуется столько ухищрений для запуска, особенно если обновлены все библиотеки.
-
Ооо, спасибо, это уже гораздо больше, чем ничего, как это было у меня до этого.) Значит надо будет искать, чей именно это голос, а уже после обучить и выложить модель. И если материала присутствует с Прохоровым во всех частях Сталкера в огромном количестве , то до релиза у этого разработчика совсем чуть-чуть дошло. А может быть и не дошло и это остатки от билдов, которые не вырезали полностью из игры. По Кордану и Вано - это реплики из Сталкера ЗП и Метро 1-2, где голос чистый, без эффектов надетого шлема и рации. У Вано хоть и прилично фраз в игре, но они либо с эффектом надетого шлема, (Путепровод "Припять") либо с эффектом рации. Такие голоса я не использую, исключением был лишь Монолит, где персонажи всегда говорят с таким эффектом. Хм... Предложение весьма заманчивое, но мне очень не хочется заниматься сортировкой снова.) Тем более, многие фразы будут повторятся с теми, что попали в релиз, из-за чего в итоге потребуется еще раз материал сортировать от того, что есть в папке у меня и того, что будет в этом билде. А я где-то два чистых дня убил только на сортировку голосов с Метро... В принципе, можете скинуть - пусть лучше будет, вдруг появится необходимость дополнить материал на модели, ведь мне не обязательно заниматься сортировкой сию же минуту.) Дополнено 9 минуты спустя Сортировку я делал фраз из релизных версий Metro 2033 Redux и Metro 2033 Redux Last Light, в титрах я тоже не обнаружил Яценко и Тихомирова. Но на Яценко голос очень похож. Методом исключения можно предположить, что голос "Старого" персонажа из Метро - это Анатолий Зиновенко, поскольку среди актеров озвучивания Сталкера его не было. Ролик, откуда титры Last Light Redux взял: https://www.youtube.com/watch?v=s9G2kydljQ8 Может быть это и есть Яценко, но его не указали в титрах, поскольку голос ну очень похож на него. Фразы из ЗП Яценко: Скачать - Google.Drive На "Молодой" голос еще думал, что это Гофуров (Новички ТЧ), но его в игре мало оказалось - нашел лишь несколько фраз бандитов в его исполнении. Левитский озвучивал Корбута и Москвина, поэтому это тоже не голос "Старого" персонажа. Поэтому все это тайна, покрытая мраком...) P.S.: Мне в игре не удалось нигде найти Алексея Зорина (Флинт из ЗП). Либо у него было очень немного фраз, либо же я перепутал его с кем-то, разместив его фразы в папку с другим актером.
-
Меня еще давно просили сделать по голосу Бороды модель, но материала (чистого, без эффектов) в игре было мало, но подсказали вариант с добором из фраз в Метро 1-2. Silero имеет куда более низкое качество, чем даже самая плохая голосовая модель, поскольку это все-таки TTS... Приятно подобное слышать.) Спасибо, но материала у меня более, чем достаточно.) Весь он отсортирован по папкам, для некоторых актеров даже по роли. На ютубе выкладывал список, продублирую сюда: На текущий момент по вселенной Метро и Сталкер имеется такое количество материала: Анна Метро Исход - 10 минут; Анна Метро 1-2 - 9 минут; Артем Метро 1-2 - 57 минут; Григорий Герман (Бандиты, Наемники) - 2 часа 21 минута; Череватенько (Ной, Борода) - 27 минут; Терещук (Военные) - 1 час 9 минут; Розин (Гонта) - 55 минут; Морозов (Дегтярев) - 55 минут; Вилков (Долг) - 1 час 33 минуты; Пашин (Мельник, Ковальский) - 1 час 6 минут; Корбут, Москвин - 24 минуты; Кордан, Вано - 4 минуты 30 секунд; Сахаров, Лесник, Федя - 26 минут; Лесницкий - 4 минуты; Мельник Метро Исход - 12 минут 40 секунд; Неизвестный голос 1 из Метро - 4 минуты 20 секунд; Неизвестный голос 2 из Метро - 7 минут 30 секунд; Группировка Монолит - 15 минут; Малуха (Новички, экологи) - 46 минут; Новички (Гофуров) - 12 минут; Прохоров - 44 минуты; Ребенок Метро - 4 минуты 50 секунд; Богуш (Свобода) - 1 час 6 минут; Сидорович ТЧ - 9 минут 20 секунд; Стальчук (Сталкеры, Лебедев) - 2 часа 21 минута; Флинт - 5 минут; Халецкий - 5 минут 35 секунд; Черный (ребенок) - 11 минут 40 секунд; Для моделей мне необходимо только две вещи - время, так же узнать, чьи я собрал голоса и отсортировал в папки "неизвестный голос 1 из Метро" и "неизвестный голос 2 из Метро". Я их отметил для себя, как "Молодой" и "Старый". Неизвестный голос "Старого" мне очень напомнил Юрия Яценко - голос озвучки Военных из Зова Припяти, встречающихся по сюжету. Согласно stalker-wiki он озвучивал часть фраз этих персонажей: уникальных персонажей: Прапорщик Валентир Лейтенант Подорожный Лейтенант Роговец Лейтенант Смирнов Лейтенант Стеценко Капитан Тарасов Но когда я посмотрел титры и каст актеров русского дубляжа, то его там не увидел. Я буду очень благодарен тому, что сможет сказать, верно ли я выполнил сортировку, а так же за подсказку, кто именно озвучивал фразы из архивов. Если я действительно прав и неизвестный голос "Старого" - это действительно Яценко, то я смогу сделать полноценную модель по военным из госпиталя. Неизвестный голос 1 из Метро (Молодой) - Скачать - Google.Drive Неизвестный голос 2 из Метро (Старый) - Скачать - Google.Drive
-
Протестирована и загружена модель персонажей, озвученных голосом Алексея Череватенко (Борода, Ной и др.) Обновлено описание - доступна загрузка моделей с разной обработкой и обученной на нескольких претрейнах (скачивание через Hugging Face) Демонстрация возможностей:
-
Я обучаю модели, набирая максимальное количество возможных фраз, формируя дата-сет из чистых записей, без эффектов рации и надетого шлема, предварительно очищая (новые модели) аудиоматериал от шума. При этом я использую максимальное значение для тренировок - 1000 эпох, а затем выбираю лучшую модель по графикам Tenserboard. Не для всех персонажей можно набрать много фраз, даже если перелопатить (что я сделал) три части игры, тем более в некоторых персонажи присутствуют лишь в одной части. По этой причине я стал добирать материал из первых двух частей Метро 2033 и когда закончу сортировку, то начну повторное обучение моделей, применяя различные варианты обработки, (тщательное удаление шумов, нормализация, эквализация, де-эссер и т.д.) а так же используя русскоязычные претрейны, которые могут повысить качество произношения моделей. Помимо всего прочего я работаю совместно с одним человеком над вокальной моделью (Валерий Кипелов) и для нее он подготавливает дата-сет согласных букв, на которых, зачастую, и происходят артефакты, особенно шипящие, "С" и "З". Я уже пробовал добавлять раннюю версию этого дата-сета к файлам для обучения голосовых моделей и результат становился лучше, для вокальной модели так точно. Поэтому всему свое время.) Если не считать сортировки фраз из Метро, то проект находится в ожидании дата-сета согласных, после чего модели начнут активно переобучаться.
-
Рекомендовал бы попробовать установить batch (партия) на значение в 22 для небольшого дата-сета в размере до 10 минут на максимальное количество эпох (1000) и посмотреть, как будет проходить процесс обучения. Если планируете попутно во что-то играть, а не использовать компьютер только для браузера, то если игры не будут тяжеловесными, устанавливайте batch на значение 20. Если процесс дойдет до конца - пробуйте повысить значение на одну единицу. Сразу уточню - batch практически, либо не влияет на качество конечной модели. Споры активно идут, но пока разница минимальна, либо на уровне погрешности. batch (партия) отвечает за поток данных для обучения и чем он выше, тем быстрее модель обучится. Поэтому тут все методом проб и ошибок подбирается. Модели для преобразования в TTS и для преобразования живой речи не отличаются. Для вокальных моделей нужен, естественно, максимально чистый вокал исполнителя. В последнем случае еще рекомендуется добавлять небольшое количество речи. Это так, к слову...)
-
Отлично.) Процесс у Вас пошел.) Попробуйте изменить параметры в "расширенных настройках": Рекомендовал бы поиграться с параметрами "соотношение объектов поиска", по умолчанию оно установлено на 0.75, рекомендовал бы снизить его до значения 0.2, а если проблема останется, то сделать еще меньше. Можете так же попробовать поставить галочку "чистый звук", которая уберет шумы из аудиофайла. Лично не проверял, делаю это заранее в аудиоредакторах. В качестве алгоритма преобразование настоятельно рекомендую выставить Fcpe. Дополнено 7 минуты спустя Поскольку RVC был создан для англоязычных пользователей, то в качестве базы голосов (претрейн) используются англоязычные голоса. Эту проблему частично улучшил выход русскоязычных претрейнов, наиболее популярными являются Snowie и Rin-E3, однако полностью проблему они не решают, модели говорят с акцентом и артефактами, даже при чистой записи. Причина тому голосовая модель hubert-base, которая так же основана на англоязычных голосах. Лишь недавно стали появляться модели hubert на других языках, (итальянский и японский) но тут так же не обошлось без подводных камней - если модель была обучена на одном hubert, то другой неспособен ее использовать. Поэтому, пока не выйдет hubert_base для русского языка - продолжу обучать модели на англоязычном hubert. Переобучение на других претрейнах запланировано и будет, но позднее - сейчас я занимаюсь сортировкой голосов из Метро 2033. Мне осталось 2500 фраз обработать, продолжительностью в два часа. Сортирую вручную, не все голоса удается определять с первого раза или даже вообще. После этого все модели начнут переобучаться, а так же к ним будут применены различные варианты обработки и т.п. Дополнено 18 минуты спустя Поэкспериментировал с этим же аудиофайлом (оригинал) - даже на индексе 0 не удалось полностью избавиться от проблем на шипящих, но результат в разы лучше. В своем варианте я попробовал еще понизить тон до -2 (в Applio это "Смола") https://disk.yandex.ru/d/BXqRfiQIpdN7kw P.S.: Файл поправил, случайно залил оригинальный файл Мельника.
-
Как писал до этого RVC и Applio практически не отличаются друг от друга, поскольку последний fork первого. Сам я обучался работе с RVC по роликам этого человека. Вся информация, которая может Вам потребоваться для обучения, набора материала и оценке качества моделей есть у данного пользователя: https://www.youtube.com/@ba1yya Дополнено 1 минуту спустя Не исключено. Просто копируйте ссылку из того браузера, в котором открылось приложение и вставляйте ее в другой. Использую лично Firefox, порою не с первого раза запускаю преобразование. По умолчанию это будет: http://127.0.0.1:6969/
-
На первой странице есть ролики по RVC, они не отличаются своими действиями от Applio - так же необходимо указать путь к папке с дата-сетом ( аудиоматериалом(ами) ), выбрать версию претрейна v2, установить частоту модели, (рекомендуется 40 Кгц, зачастую работает лучше 48 Кгц) алгоритм обучения выбрать rmvpe. Однако, я бы не рекомендовал производить обучение моделей в Applio по причине того, что в нем в качестве мощностей для обучения будет использован CPU, а не GPU. Разработчик еще не реализован данную функцию. Размер партии (батча) обычно устанавливается того же объема, что и объем видеопамяти. В своем случае я ставлю для RTX3060 12 gb значение на 11, поскольку при значении 12 и использовании ПК в других задачах обучение может вылететь. Количество эпох устанавливается в зависимости от объема дата-сета, опция "сохранять промежуточные модели" устанавливается по желанию. По большей части это все, что требуется, чтобы осуществить запуск обучения. TTS в Applio работает таким же образом, как и в RVC-TTS: Выбирается модель Edge по языку и полу, указывается модель для преобразования, (которая предварительно должна быть обучена/загружена) вводиться текст и запускается генерация. Applio сначала сгенерирует текст в Edge, после чего выполнит преобразование полученного материала, согласно выбранным параметрам. Для моих моделей, которые обучаются на англоязычном претрейне, рекомендуется устанавливать значение "соотношение поиска черт (поиска)" в среднем на не больше, чем 0.5. Этот параметр индивидуальный и зависит от схожести преобразовываемого голоса и голоса модели. Дополнено 4 минуты спустя Порою не с первого раза Applio выполняет преобразование. В этом случае надо на крестик удалить добавленный файл и добавить его заново. А так же обязательно, чтобы консоль с запущенной программой была открыта и не закрывалась, пока с ней ведется работа. В принципе, рекомендовал бы использовать RVC - программа более стабильна, корректно выполняет преобразование и обучение.
-
Не за что.) Да, необходимо разместить файлы модели расширения .pht и .index в папку logs. Файл metadata.json для преобразования аудио не нужен, он автоматически добавляется сайтом weight-gg, в нем продублирована информация со страницы модели.
-
Кажется, я понял, в чем причина - Вы недостаточное время ждете, пока осуществится запуск программы. В моем случае на Ryzen 7500F и запуске с HDD первый запуск Applio осуществляется чуть больше минуты. Судя по всему так долго подгружаются процессы, ищутся зависимости или т.п.: Видео с демонстрацией распаковки и запуска, распаковка ускорена в 6 раз:
-
Предустановленный питон точно не требуется, у меня все проекты на нейросетях портативные, где питон уже имеется в папке, со всеми зависимостями и прописанными путями. Вы до этого говорили, что ругался Ваш антивирус. Судя по всему именно он вносит изменение в запускной файл. Содержание run-applio.bat должно быть таким: Так же очень похоже на то, что запуск батника осуществляется не из папки Applio, из-за чего не совпадают пути и возникает ошибка о том, что python.exe не является исполняемой программой/средой, поскольку система осуществляет запуск по пути "c:\Windows\System32", где такой папки и файла нет. Если Вы хотите сделать себе запускной ярлык - создайте его именно для данного файла. Пример:
-
Обе версии на скриншоте одинаковы, одна является упакованной в .exe со строенным распаковщиком 7zip, а другая просто упакована в архив .zip. Она является "pickle" из-за того, что загружена последней, говоря иначе - свежая загрузка.