Merge pull request #250 from Tps-F/Fix-vencoder-warning

Fix vencoder warning
2023-06-23 00:54:23 +08:00 · 2023-06-23 00:54:23 +08:00 · 4f43531207
parent f120ca2498 7d76d46d29
commit 4f43531207
14 changed files with 96 additions and 62 deletions
--- a/vencoder/CNHubertLarge.py
+++ b/vencoder/CNHubertLarge.py
@ -2,8 +2,10 @@ from vencoder.encoder import SpeechEncoder
 import torch
 from fairseq import checkpoint_utils

+
 class CNHubertLarge(SpeechEncoder):
    def __init__(self, vec_path="pretrain/chinese-hubert-large-fairseq-ckpt.pt", device=None):
+        super().__init__()
        print("load model(s) from {}".format(vec_path))
        self.hidden_dim = 1024
        models, saved_cfg, task = checkpoint_utils.load_model_ensemble_and_task(
--- a/vencoder/ContentVec256L12_Onnx.py
+++ b/vencoder/ContentVec256L12_Onnx.py
@ -2,18 +2,22 @@ from vencoder.encoder import SpeechEncoder
 import onnxruntime
 import torch

+
 class ContentVec256L12_Onnx(SpeechEncoder):
    def __init__(self, vec_path="pretrain/vec-256-layer-12.onnx", device=None):
+        super().__init__()
        print("load model(s) from {}".format(vec_path))
        self.hidden_dim = 256
        if device is None:
            self.dev = torch.device("cpu")
        else:
            self.dev = torch.device(device)
-        if device == 'cpu' or device == torch.device("cpu") or device is None:
-            providers = ['CPUExecutionProvider']
-        elif device == 'cuda' or device == torch.device("cuda"):
+
+        if device == 'cuda' or device == torch.device("cuda"):
            providers = ['CUDAExecutionProvider', 'CPUExecutionProvider']
+        else:
+            providers = ['CPUExecutionProvider']
+
        self.model = onnxruntime.InferenceSession(vec_path, providers=providers)

    def encoder(self, wav):
--- a/vencoder/ContentVec256L9.py
+++ b/vencoder/ContentVec256L9.py
@ -2,8 +2,10 @@ from vencoder.encoder import SpeechEncoder
 import torch
 from fairseq import checkpoint_utils

+
 class ContentVec256L9(SpeechEncoder):
    def __init__(self, vec_path="pretrain/checkpoint_best_legacy_500.pt", device=None):
+        super().__init__()
        print("load model(s) from {}".format(vec_path))
        models, saved_cfg, task = checkpoint_utils.load_model_ensemble_and_task(
          [vec_path],
--- a/vencoder/ContentVec256L9_Onnx.py
+++ b/vencoder/ContentVec256L9_Onnx.py
@ -4,6 +4,7 @@ import torch

 class ContentVec256L9_Onnx(SpeechEncoder):
    def __init__(self, vec_path="pretrain/vec-256-layer-9.onnx", device=None):
+        super().__init__()
        print("load model(s) from {}".format(vec_path))
        self.hidden_dim = 256
        if device is None:
@ -26,3 +27,4 @@ class ContentVec256L9_Onnx(SpeechEncoder):
        onnx_input = {self.model.get_inputs()[0].name: feats}
        logits = self.model.run(None, onnx_input)
        return torch.tensor(logits[0]).transpose(1, 2).to(self.dev)
+    
--- a/vencoder/ContentVec768L12.py
+++ b/vencoder/ContentVec768L12.py
@ -2,8 +2,10 @@ from vencoder.encoder import SpeechEncoder
 import torch
 from fairseq import checkpoint_utils

+
 class ContentVec768L12(SpeechEncoder):
    def __init__(self, vec_path="pretrain/checkpoint_best_legacy_500.pt", device=None):
+        super().__init__()
        print("load model(s) from {}".format(vec_path))
        self.hidden_dim = 768
        models, saved_cfg, task = checkpoint_utils.load_model_ensemble_and_task(
--- a/vencoder/ContentVec768L12_Onnx.py
+++ b/vencoder/ContentVec768L12_Onnx.py
@ -2,18 +2,22 @@ from vencoder.encoder import SpeechEncoder
 import onnxruntime
 import torch

+
 class ContentVec768L12_Onnx(SpeechEncoder):
    def __init__(self, vec_path="pretrain/vec-768-layer-12.onnx", device=None):
+        super().__init__()
        print("load model(s) from {}".format(vec_path))
        self.hidden_dim = 768
        if device is None:
            self.dev = torch.device("cpu")
        else:
            self.dev = torch.device(device)
-        if device == 'cpu' or device == torch.device("cpu") or device is None:
-            providers = ['CPUExecutionProvider']
-        elif device == 'cuda' or device == torch.device("cuda"):
+
+        if device == 'cuda' or device == torch.device("cuda"):
            providers = ['CUDAExecutionProvider', 'CPUExecutionProvider']
+        else:
+            providers = ['CPUExecutionProvider']
+            
        self.model = onnxruntime.InferenceSession(vec_path, providers=providers)

    def encoder(self, wav):
--- a/vencoder/ContentVec768L9_Onnx.py
+++ b/vencoder/ContentVec768L9_Onnx.py
@ -2,18 +2,22 @@ from vencoder.encoder import SpeechEncoder
 import onnxruntime
 import torch

+
 class ContentVec768L9_Onnx(SpeechEncoder):
    def __init__(self,vec_path = "pretrain/vec-768-layer-9.onnx",device=None):
+        super().__init__()
        print("load model(s) from {}".format(vec_path))
        self.hidden_dim = 768
        if device is None:
            self.dev = torch.device("cpu")
        else:
            self.dev = torch.device(device)
-        if device == 'cpu' or device == torch.device("cpu") or device is None:
-            providers = ['CPUExecutionProvider']
-        elif device == 'cuda' or device == torch.device("cuda"):
+
+        if device == 'cuda' or device == torch.device("cuda"):
            providers = ['CUDAExecutionProvider', 'CPUExecutionProvider']
+        else:
+            providers = ['CPUExecutionProvider']
+            
        self.model = onnxruntime.InferenceSession(vec_path, providers=providers)

    def encoder(self, wav):
--- a/vencoder/DPHubert.py
+++ b/vencoder/DPHubert.py
@ -2,8 +2,10 @@ from vencoder.encoder import SpeechEncoder
 import torch
 from vencoder.dphubert.model import wav2vec2_model

+
 class DPHubert(SpeechEncoder):
    def __init__(self, vec_path="pretrain/DPHuBERT-sp0.75.pth", device=None):
+        super().__init__()
        print("load model(s) from {}".format(vec_path))
        if device is None:
            self.dev = torch.device("cuda" if torch.cuda.is_available() else "cpu")
--- a/vencoder/HubertSoft.py
+++ b/vencoder/HubertSoft.py
@ -1,8 +1,11 @@
 from vencoder.encoder import SpeechEncoder
 import torch
 from vencoder.hubert import hubert_model
+
+
 class HubertSoft(SpeechEncoder):
    def __init__(self, vec_path="pretrain/hubert-soft-0d54a1f4.pt", device=None):
+        super().__init__()
        print("load model(s) from {}".format(vec_path))
        hubert_soft = hubert_model.hubert_soft(vec_path)
        if device is None:
--- a/vencoder/HubertSoft_Onnx.py
+++ b/vencoder/HubertSoft_Onnx.py
@ -2,18 +2,22 @@ from vencoder.encoder import SpeechEncoder
 import onnxruntime
 import torch

+
 class HubertSoft_Onnx(SpeechEncoder):
    def __init__(self, vec_path="pretrain/hubert-soft.onnx", device=None):
+        super().__init__()
        print("load model(s) from {}".format(vec_path))
        self.hidden_dim = 256
        if device is None:
            self.dev = torch.device("cpu")
        else:
            self.dev = torch.device(device)
-        if device == 'cpu' or device == torch.device("cpu") or device is None:
-            providers = ['CPUExecutionProvider']
-        elif device == 'cuda' or device == torch.device("cuda"):
+
+        if device == 'cuda' or device == torch.device("cuda"):
            providers = ['CUDAExecutionProvider', 'CPUExecutionProvider']
+        else:
+            providers = ['CPUExecutionProvider']
+            
        self.model = onnxruntime.InferenceSession(vec_path, providers=providers)

    def encoder(self, wav):
--- a/vencoder/WavLMBasePlus.py
+++ b/vencoder/WavLMBasePlus.py
@ -2,8 +2,10 @@ from vencoder.encoder import SpeechEncoder
 import torch
 from vencoder.wavlm.WavLM import WavLM, WavLMConfig

+
 class WavLMBasePlus(SpeechEncoder):
    def __init__(self, vec_path="pretrain/WavLM-Base+.pt", device=None):
+        super().__init__()
        print("load model(s) from {}".format(vec_path))
        checkpoint = torch.load(vec_path)
        self.cfg = WavLMConfig(checkpoint['cfg'])
--- a/vencoder/WhisperPPG.py
+++ b/vencoder/WhisperPPG.py
@ -7,6 +7,7 @@ from vencoder.whisper.audio import pad_or_trim, log_mel_spectrogram

 class WhisperPPG(SpeechEncoder):
    def __init__(self, vec_path="pretrain/medium.pt", device=None):
+        super().__init__()
        if device is None:
            self.dev = torch.device("cuda" if torch.cuda.is_available() else "cpu")
        else:
--- a/vencoder/WhisperPPGLarge.py
+++ b/vencoder/WhisperPPGLarge.py
@ -7,6 +7,7 @@ from vencoder.whisper.audio import pad_or_trim, log_mel_spectrogram

 class WhisperPPGLarge(SpeechEncoder):
    def __init__(self, vec_path="pretrain/large-v2.pt", device=None):
+        super().__init__()
        if device is None:
            self.dev = torch.device("cuda" if torch.cuda.is_available() else "cpu")
        else:
--- a/vencoder/encoder.py
+++ b/vencoder/encoder.py
@ -4,9 +4,10 @@ class SpeechEncoder(object):
        self.hidden_dim = 768
        pass

+
    def encoder(self, wav):
-        '''
+        """
        input: wav:[signal_length]
        output: embedding:[batchsize,hidden_dim,wav_frame]
-        '''
+        """
        pass