add log and typing

5 months ago · 367477797b
parent 4375948481
commit 367477797b
11 changed files with 173 additions and 149 deletions
--- a/app.py
+++ b/app.py
@ -19,12 +19,10 @@
 from flask import Flask, render_template,send_from_directory,request, jsonify
 from flask_sockets import Sockets
 import base64
-import time
 import json
 #import gevent
 #from gevent import pywsgi
 #from geventwebsocket.handler import WebSocketHandler
-import os
 import re
 import numpy as np
 from threading import Thread,Event
@ -37,86 +35,36 @@ import aiohttp_cors
 from aiortc import RTCPeerConnection, RTCSessionDescription
 from aiortc.rtcrtpsender import RTCRtpSender
 from webrtc import HumanPlayer
+from basereal import BaseReal
+from llm import llm_response

 import argparse
 import random
-
 import shutil
 import asyncio
 import torch
+from typing import Dict
+from logger import logger


 app = Flask(__name__)
 #sockets = Sockets(app)
-nerfreals = {}
+nerfreals:Dict[int, BaseReal] = {} #sessionid:BaseReal
 opt = None
 model = None
 avatar = None
-
-
-# def llm_response(message):
-#     from llm.LLM import LLM
-#     # llm = LLM().init_model('Gemini', model_path= 'gemini-pro',api_key='Your API Key', proxy_url=None)
-#     # llm = LLM().init_model('ChatGPT', model_path= 'gpt-3.5-turbo',api_key='Your API Key')
-#     llm = LLM().init_model('VllmGPT', model_path= 'THUDM/chatglm3-6b')
-#     response = llm.chat(message)
-#     print(response)
-#     return response
-
-def llm_response(message,nerfreal):
-    start = time.perf_counter()
-    from openai import OpenAI
-    client = OpenAI(
-        # 如果您没有配置环境变量，请在此处用您的API Key进行替换
-        api_key=os.getenv("DASHSCOPE_API_KEY"),
-        # 填写DashScope SDK的base_url
-        base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
-    )
-    end = time.perf_counter()
-    print(f"llm Time init: {end-start}s")
-    completion = client.chat.completions.create(
-        model="qwen-plus",
-        messages=[{'role': 'system', 'content': 'You are a helpful assistant.'},
-                  {'role': 'user', 'content': message}],
-        stream=True,
-        # 通过以下设置，在流式输出的最后一行展示token使用信息
-        stream_options={"include_usage": True}
-    )
-    result=""
-    first = True
-    for chunk in completion:
-        if len(chunk.choices)>0:
-            #print(chunk.choices[0].delta.content)
-            if first:
-                end = time.perf_counter()
-                print(f"llm Time to first chunk: {end-start}s")
-                first = False
-            msg = chunk.choices[0].delta.content
-            lastpos=0
-            #msglist = re.split('[,.!;:，。！?]',msg)
-            for i, char in enumerate(msg):
-                if char in ",.!;:，。！？：；" :
-                    result = result+msg[lastpos:i+1]
-                    lastpos = i+1
-                    if len(result)>10:
-                        print(result)
-                        nerfreal.put_msg_txt(result)
-                        result=""
-            result = result+msg[lastpos:]
-    end = time.perf_counter()
-    print(f"llm Time to last chunk: {end-start}s")
-    nerfreal.put_msg_txt(result)            
+        

 #####webrtc###############################
 pcs = set()

-def randN(N):
+def randN(N)->int:
    '''生成长度为 N的随机数 '''
    min = pow(10, N - 1)
    max = pow(10, N)
    return random.randint(min, max - 1)

-def build_nerfreal(sessionid):
+def build_nerfreal(sessionid:int)->BaseReal:
    opt.sessionid=sessionid
    if opt.model == 'wav2lip':
        from lipreal import LipReal
@ -138,10 +86,10 @@ async def offer(request):
    offer = RTCSessionDescription(sdp=params["sdp"], type=params["type"])

    if len(nerfreals) >= opt.max_session:
-        print('reach max session')
+        logger.info('reach max session')
        return -1
    sessionid = randN(6) #len(nerfreals)
-    print('sessionid=',sessionid)
+    logger.info('sessionid=%d',sessionid)
    nerfreals[sessionid] = None
    nerfreal = await asyncio.get_event_loop().run_in_executor(None, build_nerfreal,sessionid)
    nerfreals[sessionid] = nerfreal
@ -151,7 +99,7 @@ async def offer(request):

    @pc.on("connectionstatechange")
    async def on_connectionstatechange():
-        print("Connection state is %s" % pc.connectionState)
+        logger.info("Connection state is %s" % pc.connectionState)
        if pc.connectionState == "failed":
            await pc.close()
            pcs.discard(pc)
@ -280,7 +228,7 @@ async def post(url,data):
            async with session.post(url,data=data) as response:
                return await response.text()
    except aiohttp.ClientError as e:
-        print(f'Error: {e}')
+        logger.info(f'Error: {e}')

 async def run(push_url,sessionid):
    nerfreal = await asyncio.get_event_loop().run_in_executor(None, build_nerfreal,sessionid)
@ -291,7 +239,7 @@ async def run(push_url,sessionid):

    @pc.on("connectionstatechange")
    async def on_connectionstatechange():
-        print("Connection state is %s" % pc.connectionState)
+        logger.info("Connection state is %s" % pc.connectionState)
        if pc.connectionState == "failed":
            await pc.close()
            pcs.discard(pc)
@ -465,7 +413,7 @@ if __name__ == '__main__':
        #     nerfreals.append(nerfreal)
    elif opt.model == 'musetalk':
        from musereal import MuseReal,load_model,load_avatar,warm_up
-        print(opt)
+        logger.info(opt)
        model = load_model()
        avatar = load_avatar(opt.avatar_id) 
        warm_up(opt.batch_size,model)      
@ -475,7 +423,7 @@ if __name__ == '__main__':
        #     nerfreals.append(nerfreal)
    elif opt.model == 'wav2lip':
        from lipreal import LipReal,load_model,load_avatar,warm_up
-        print(opt)
+        logger.info(opt)
        model = load_model("./models/wav2lip.pth")
        avatar = load_avatar(opt.avatar_id)
        warm_up(opt.batch_size,model,256)
@ -485,7 +433,7 @@ if __name__ == '__main__':
        #     nerfreals.append(nerfreal)
    elif opt.model == 'ultralight':
        from lightreal import LightReal,load_model,load_avatar,warm_up
-        print(opt)
+        logger.info(opt)
        model = load_model(opt)
        avatar = load_avatar(opt.avatar_id)
        warm_up(opt.batch_size,avatar,160)
@ -524,7 +472,7 @@ if __name__ == '__main__':
        pagename='echoapi.html'
    elif opt.transport=='rtcpush':
        pagename='rtcpushapi.html'
-    print('start http server; http://<serverip>:'+str(opt.listenport)+'/'+pagename)
+    logger.info('start http server; http://<serverip>:'+str(opt.listenport)+'/'+pagename)
    def run_server(runner):
        loop = asyncio.new_event_loop()
        asyncio.set_event_loop(loop)
--- a/baseasr.py
+++ b/baseasr.py
@ -22,9 +22,11 @@ import queue
 from queue import Queue
 import torch.multiprocessing as mp

+from basereal import BaseReal
+

 class BaseASR:
-    def __init__(self, opt, parent=None):
+    def __init__(self, opt, parent:BaseReal|None = None):
        self.opt = opt
        self.parent = parent

--- a/basereal.py
+++ b/basereal.py
@ -36,11 +36,12 @@ import av
 from fractions import Fraction

 from ttsreal import EdgeTTS,VoitsTTS,XTTS,CosyVoiceTTS,FishTTS
+from logger import logger

 from tqdm import tqdm
 def read_imgs(img_list):
    frames = []
-    print('reading images...')
+    logger.info('reading images...')
    for img_path in tqdm(img_list):
        frame = cv2.imread(img_path)
        frames.append(frame)
@ -98,15 +99,15 @@ class BaseReal:
    def __create_bytes_stream(self,byte_stream):
        #byte_stream=BytesIO(buffer)
        stream, sample_rate = sf.read(byte_stream) # [T*sample_rate,] float64
-        print(f'[INFO]put audio stream {sample_rate}: {stream.shape}')
+        logger.info(f'[INFO]put audio stream {sample_rate}: {stream.shape}')
        stream = stream.astype(np.float32)

        if stream.ndim > 1:
-            print(f'[WARN] audio has {stream.shape[1]} channels, only use the first.')
+            logger.info(f'[WARN] audio has {stream.shape[1]} channels, only use the first.')
            stream = stream[:, 0]
    
        if sample_rate != self.sample_rate and stream.shape[0]>0:
-            print(f'[WARN] audio sample rate is {sample_rate}, resampling into {self.sample_rate}.')
+            logger.info(f'[WARN] audio sample rate is {sample_rate}, resampling into {self.sample_rate}.')
            stream = resampy.resample(x=stream, sr_orig=sample_rate, sr_new=self.sample_rate)

        return stream
@ -120,7 +121,7 @@ class BaseReal:
    
    def __loadcustom(self):
        for item in self.opt.customopt:
-            print(item)
+            logger.info(item)
            input_img_list = glob.glob(os.path.join(item['imgpath'], '*.[jpJP][pnPN]*[gG]'))
            input_img_list = sorted(input_img_list, key=lambda x: int(os.path.splitext(os.path.basename(x))[0]))
            self.custom_img_cycle[item['audiotype']] = read_imgs(input_img_list)
@ -137,7 +138,7 @@ class BaseReal:
            self.custom_index[key]=0

    def notify(self,eventpoint):
-        print("notify:",eventpoint)
+        logger.info("notify:%s",eventpoint)

    def start_recording(self):
        """开始录制视频"""
--- a/lightreal.py
+++ b/lightreal.py
@ -54,11 +54,11 @@ from transformers import Wav2Vec2Processor, HubertModel
 from torch.utils.data import DataLoader
 from ultralight.unet import Model
 from ultralight.audio2feature import Audio2Feature
-
+from logger import logger


 device = 'cuda' if torch.cuda.is_available() else 'cpu'
-print('Using {} for inference.'.format(device))
+logger.info('Using {} for inference.'.format(device))


 def load_model(opt):
@ -89,7 +89,7 @@ def load_avatar(avatar_id):

@torch.no_grad()
 def warm_up(batch_size,avatar,modelres):
-    print('warmup model...')
+    logger.info('warmup model...')
    model,_,_,_ = avatar
    img_batch = torch.ones(batch_size, 6, modelres, modelres).to(device)
    mel_batch = torch.ones(batch_size, 32, 32, 32).to(device)
@ -97,7 +97,7 @@ def warm_up(batch_size,avatar,modelres):

 def read_imgs(img_list):
    frames = []
-    print('reading images...')
+    logger.info('reading images...')
    for img_path in tqdm(img_list):
        frame = cv2.imread(img_path)
        frames.append(frame)
@ -124,7 +124,7 @@ def get_audio_features(features, index):

 def read_lms(lms_list):
    land_marks = []
-    print('reading lms...')
+    logger.info('reading lms...')
    for lms_path in tqdm(lms_list):
        file_landmarks = []  # Store landmarks for this file
        with open(lms_path, "r") as f:
@ -152,7 +152,7 @@ def inference(quit_event, batch_size, face_list_cycle, audio_feat_queue, audio_o
    index = 0
    count = 0
    counttime = 0
-    print('start inference')
+    logger.info('start inference')

    while not quit_event.is_set():
        starttime=time.perf_counter()
@ -206,7 +206,7 @@ def inference(quit_event, batch_size, face_list_cycle, audio_feat_queue, audio_o
            counttime += (time.perf_counter() - t)
            count += batch_size
            if count >= 100:
-                print(f"------actual avg infer fps:{count / counttime:.4f}")
+                logger.info(f"------actual avg infer fps:{count / counttime:.4f}")
                count = 0
                counttime = 0
            for i,res_frame in enumerate(pred):
@ -221,7 +221,7 @@ def inference(quit_event, batch_size, face_list_cycle, audio_feat_queue, audio_o

        #print('total batch time:', time.perf_counter() - starttime)

-    print('lightreal inference processor stop')
+    logger.info('lightreal inference processor stop')


 class LightReal(BaseReal):
@ -248,7 +248,7 @@ class LightReal(BaseReal):
        self.render_event = mp.Event()
    
    def __del__(self):
-        print(f'lightreal({self.sessionid}) delete')
+        logger.info(f'lightreal({self.sessionid}) delete')

   
    def process_frames(self,quit_event,loop=None,audio_track=None,video_track=None):
@ -302,7 +302,7 @@ class LightReal(BaseReal):
                asyncio.run_coroutine_threadsafe(audio_track._queue.put((new_frame,eventpoint)), loop)
                self.record_audio_data(frame)
                #self.notify(eventpoint)
-        print('lightreal process_frames thread stop') 
+        logger.info('lightreal process_frames thread stop') 
            
    def render(self,quit_event,loop=None,audio_track=None,video_track=None):
        #if self.opt.asr:
@ -331,13 +331,13 @@ class LightReal(BaseReal):
            #     print('sleep qsize=',video_track._queue.qsize())
            #     time.sleep(0.04*video_track._queue.qsize()*0.8)
            if video_track._queue.qsize()>=5:
-                print('sleep qsize=',video_track._queue.qsize())
+                logger.debug('sleep qsize=%d',video_track._queue.qsize())
                time.sleep(0.04*video_track._queue.qsize()*0.8)
                
            # delay = _starttime+_totalframe*0.04-time.perf_counter() #40ms
            # if delay > 0:
            #     time.sleep(delay)
        #self.render_event.clear() #end infer process render
-        print('lightreal thread stop')
+        logger.info('lightreal thread stop')
            

--- a/lipreal.py
+++ b/lipreal.py
@ -42,9 +42,10 @@ from basereal import BaseReal
 #from imgcache import ImgCache

 from tqdm import tqdm
+from logger import logger

 device = 'cuda' if torch.cuda.is_available() else 'cpu'
-print('Using {} for inference.'.format(device))
+logger.info('Using {} for inference.'.format(device))

 def _load(checkpoint_path):
 	if device == 'cuda':
@ -56,7 +57,7 @@ def _load(checkpoint_path):

 def load_model(path):
 	model = Wav2Lip()
-	print("Load checkpoint from: {}".format(path))
+	logger.info("Load checkpoint from: {}".format(path))
 	checkpoint = _load(path)
 	s = checkpoint["state_dict"]
 	new_s = {}
@ -88,14 +89,14 @@ def load_avatar(avatar_id):
@torch.no_grad()
 def warm_up(batch_size,model,modelres):
    # 预热函数
-    print('warmup model...')
+    logger.info('warmup model...')
    img_batch = torch.ones(batch_size, 6, modelres, modelres).to(device)
    mel_batch = torch.ones(batch_size, 1, 80, 16).to(device)
    model(mel_batch, img_batch)

 def read_imgs(img_list):
    frames = []
-    print('reading images...')
+    logger.info('reading images...')
    for img_path in tqdm(img_list):
        frame = cv2.imread(img_path)
        frames.append(frame)
@ -122,7 +123,7 @@ def inference(quit_event,batch_size,face_list_cycle,audio_feat_queue,audio_out_q
    index = 0
    count=0
    counttime=0
-    print('start inference')
+    logger.info('start inference')
    while not quit_event.is_set():
        starttime=time.perf_counter()
        mel_batch = []
@ -170,7 +171,7 @@ def inference(quit_event,batch_size,face_list_cycle,audio_feat_queue,audio_out_q
            count += batch_size
            #_totalframe += 1
            if count>=100:
-                print(f"------actual avg infer fps:{count/counttime:.4f}")
+                logger.info(f"------actual avg infer fps:{count/counttime:.4f}")
                count=0
                counttime=0
            for i,res_frame in enumerate(pred):
@ -178,7 +179,7 @@ def inference(quit_event,batch_size,face_list_cycle,audio_feat_queue,audio_out_q
                res_frame_queue.put((res_frame,__mirror_index(length,index),audio_frames[i*2:i*2+2]))
                index = index + 1
            #print('total batch time:',time.perf_counter()-starttime)            
-    print('lipreal inference processor stop')
+    logger.info('lipreal inference processor stop')

 class LipReal(BaseReal):
    @torch.no_grad()
@ -203,7 +204,7 @@ class LipReal(BaseReal):
        self.render_event = mp.Event()
    
    def __del__(self):
-        print(f'lipreal({self.sessionid}) delete')
+        logger.info(f'lipreal({self.sessionid}) delete')

   
    def process_frames(self,quit_event,loop=None,audio_track=None,video_track=None):
@ -256,7 +257,7 @@ class LipReal(BaseReal):
                asyncio.run_coroutine_threadsafe(audio_track._queue.put((new_frame,eventpoint)), loop)
                self.record_audio_data(frame)
                #self.notify(eventpoint)
-        print('lipreal process_frames thread stop') 
+        logger.info('lipreal process_frames thread stop') 
            
    def render(self,quit_event,loop=None,audio_track=None,video_track=None):
        #if self.opt.asr:
@ -286,12 +287,12 @@ class LipReal(BaseReal):
            #     print('sleep qsize=',video_track._queue.qsize())
            #     time.sleep(0.04*video_track._queue.qsize()*0.8)
            if video_track._queue.qsize()>=5:
-                print('sleep qsize=',video_track._queue.qsize())
+                logger.debug('sleep qsize=%d',video_track._queue.qsize())
                time.sleep(0.04*video_track._queue.qsize()*0.8)
                
            # delay = _starttime+_totalframe*0.04-time.perf_counter() #40ms
            # if delay > 0:
            #     time.sleep(delay)
        #self.render_event.clear() #end infer process render
-        print('lipreal thread stop')
+        logger.info('lipreal thread stop')
            
--- a/llm.py
+++ b/llm.py
@ -0,0 +1,48 @@
+import time
+import os
+from basereal import BaseReal
+from logger import logger
+
+def llm_response(message,nerfreal:BaseReal):
+    start = time.perf_counter()
+    from openai import OpenAI
+    client = OpenAI(
+        # 如果您没有配置环境变量，请在此处用您的API Key进行替换
+        api_key=os.getenv("DASHSCOPE_API_KEY"),
+        # 填写DashScope SDK的base_url
+        base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
+    )
+    end = time.perf_counter()
+    logger.info(f"llm Time init: {end-start}s")
+    completion = client.chat.completions.create(
+        model="qwen-plus",
+        messages=[{'role': 'system', 'content': 'You are a helpful assistant.'},
+                  {'role': 'user', 'content': message}],
+        stream=True,
+        # 通过以下设置，在流式输出的最后一行展示token使用信息
+        stream_options={"include_usage": True}
+    )
+    result=""
+    first = True
+    for chunk in completion:
+        if len(chunk.choices)>0:
+            #print(chunk.choices[0].delta.content)
+            if first:
+                end = time.perf_counter()
+                logger.info(f"llm Time to first chunk: {end-start}s")
+                first = False
+            msg = chunk.choices[0].delta.content
+            lastpos=0
+            #msglist = re.split('[,.!;:，。！?]',msg)
+            for i, char in enumerate(msg):
+                if char in ",.!;:，。！？：；" :
+                    result = result+msg[lastpos:i+1]
+                    lastpos = i+1
+                    if len(result)>10:
+                        logger.info(result)
+                        nerfreal.put_msg_txt(result)
+                        result=""
+            result = result+msg[lastpos:]
+    end = time.perf_counter()
+    logger.info(f"llm Time to last chunk: {end-start}s")
+    nerfreal.put_msg_txt(result)    
--- a/logger.py
+++ b/logger.py
@ -0,0 +1,16 @@
+import logging
+ 
+# 配置日志器
+logger = logging.getLogger(__name__)
+logger.setLevel(logging.DEBUG)
+formatter = logging.Formatter('%(asctime)s - %(name)s - %(levelname)s - %(message)s')
+fhandler = logging.FileHandler('livetalking.log')  # 可以改为StreamHandler输出到控制台或多个Handler组合使用等。
+fhandler.setFormatter(formatter)
+fhandler.setLevel(logging.INFO)
+logger.addHandler(fhandler)
+
+handler = logging.StreamHandler()
+handler.setLevel(logging.DEBUG)
+sformatter = logging.Formatter('%(asctime)s - %(levelname)s - %(message)s')
+handler.setFormatter(sformatter)
+logger.addHandler(handler)
--- a/musereal.py
+++ b/musereal.py
@ -46,6 +46,7 @@ from av import AudioFrame, VideoFrame
 from basereal import BaseReal

 from tqdm import tqdm
+from logger import logger

 def load_model():
    # load model weights
@ -92,7 +93,7 @@ def load_avatar(avatar_id):
@torch.no_grad()
 def warm_up(batch_size,model):
    # 预热函数
-    print('warmup model...')
+    logger.info('warmup model...')
    vae, unet, pe, timesteps, audio_processor = model
    #batch_size = 16
    #timesteps = torch.tensor([0], device=unet.device)
@ -110,7 +111,7 @@ def warm_up(batch_size,model):

 def read_imgs(img_list):
    frames = []
-    print('reading images...')
+    logger.info('reading images...')
    for img_path in tqdm(img_list):
        frame = cv2.imread(img_path)
        frames.append(frame)
@ -140,7 +141,7 @@ def inference(render_event,batch_size,input_latent_list_cycle,audio_feat_queue,a
    index = 0
    count=0
    counttime=0
-    print('start inference')
+    logger.info('start inference')
    while render_event.is_set():
        starttime=time.perf_counter()
        try:
@ -195,7 +196,7 @@ def inference(render_event,batch_size,input_latent_list_cycle,audio_feat_queue,a
            count += batch_size
            #_totalframe += 1
            if count>=100:
-                print(f"------actual avg infer fps:{count/counttime:.4f}")
+                logger.info(f"------actual avg infer fps:{count/counttime:.4f}")
                count=0
                counttime=0
            for i,res_frame in enumerate(recon):
@ -203,7 +204,7 @@ def inference(render_event,batch_size,input_latent_list_cycle,audio_feat_queue,a
                res_frame_queue.put((res_frame,__mirror_index(length,index),audio_frames[i*2:i*2+2]))
                index = index + 1
            #print('total batch time:',time.perf_counter()-starttime)            
-    print('musereal inference processor stop')
+    logger.info('musereal inference processor stop')

 class MuseReal(BaseReal):
    @torch.no_grad()
@ -229,7 +230,7 @@ class MuseReal(BaseReal):
        self.render_event = mp.Event()

    def __del__(self):
-        print(f'musereal({self.sessionid}) delete')
+        logger.info(f'musereal({self.sessionid}) delete')
    

    def __mirror_index(self, index):
@ -251,7 +252,7 @@ class MuseReal(BaseReal):
            latent = self.input_latent_list_cycle[idx]
            latent_batch.append(latent)
        latent_batch = torch.cat(latent_batch, dim=0)
-        print('infer=======')
+        logger.info('infer=======')
        # for i, (whisper_batch,latent_batch) in enumerate(gen):
        audio_feature_batch = torch.from_numpy(whisper_batch)
        audio_feature_batch = audio_feature_batch.to(device=self.unet.device,
@ -317,7 +318,7 @@ class MuseReal(BaseReal):
                self.record_audio_data(frame)
                #self.notify(eventpoint)
                #self.recordq_audio.put(new_frame)
-        print('musereal process_frames thread stop') 
+        logger.info('musereal process_frames thread stop') 
            
    def render(self,quit_event,loop=None,audio_track=None,video_track=None):
        #if self.opt.asr:
@ -349,7 +350,7 @@ class MuseReal(BaseReal):
            #     count=0
            #     totaltime=0
            if video_track._queue.qsize()>=1.5*self.opt.batch_size:
-                print('sleep qsize=',video_track._queue.qsize())
+                logger.debug('sleep qsize=%d',video_track._queue.qsize())
                time.sleep(0.04*video_track._queue.qsize()*0.8)
            # if video_track._queue.qsize()>=5:
            #     print('sleep qsize=',video_track._queue.qsize())
@ -359,5 +360,5 @@ class MuseReal(BaseReal):
            # if delay > 0:
            #     time.sleep(delay)
        self.render_event.clear() #end infer process render
-        print('musereal thread stop')
+        logger.info('musereal thread stop')
            
--- a/nerfreal.py
+++ b/nerfreal.py
@ -38,10 +38,11 @@ from ernerf.nerf_triplane.utils import *
 from ernerf.nerf_triplane.network import NeRFNetwork
 from transformers import AutoModelForCTC, AutoProcessor, Wav2Vec2Processor, HubertModel

+from logger import logger
 from tqdm import tqdm
 def read_imgs(img_list):
    frames = []
-    print('reading images...')
+    logger.info('reading images...')
    for img_path in tqdm(img_list):
        frame = cv2.imread(img_path)
        frames.append(frame)
@ -74,21 +75,21 @@ def load_model(opt):
        # assert opt.patch_size > 16, "patch_size should > 16 to run LPIPS loss."
        assert opt.num_rays % (opt.patch_size ** 2) == 0, "patch_size ** 2 should be dividable by num_rays."
    seed_everything(opt.seed)
-    print(opt)
+    logger.info(opt)

    device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
    model = NeRFNetwork(opt)

    criterion = torch.nn.MSELoss(reduction='none')
    metrics = [] # use no metric in GUI for faster initialization...
-    print(model)
+    logger.info(model)
    trainer = Trainer('ngp', opt, model, device=device, workspace=opt.workspace, criterion=criterion, fp16=opt.fp16, metrics=metrics, use_checkpoint=opt.ckpt)

    test_loader = NeRFDataset_Test(opt, device=device).dataloader()
    model.aud_features = test_loader._data.auds
    model.eye_areas = test_loader._data.eye_area

-    print(f'[INFO] loading ASR model {opt.asr_model}...')
+    logger.info(f'[INFO] loading ASR model {opt.asr_model}...')
    if 'hubert' in opt.asr_model:
        audio_processor = Wav2Vec2Processor.from_pretrained(opt.asr_model)
        audio_model = HubertModel.from_pretrained(opt.asr_model).to(device) 
@ -197,7 +198,7 @@ class NeRFReal(BaseReal):
        '''

    def __del__(self):
-        print(f'nerfreal({self.sessionid}) delete')    
+        logger.info(f'nerfreal({self.sessionid}) delete')    

    def __enter__(self):
        return self
@ -365,7 +366,7 @@ class NeRFReal(BaseReal):
            count += 1
            _totalframe += 1
            if count==100:
-                print(f"------actual avg infer fps:{count/totaltime:.4f}")
+                logger.info(f"------actual avg infer fps:{count/totaltime:.4f}")
                count=0
                totaltime=0
            if self.opt.transport=='rtmp':
@ -376,6 +377,6 @@ class NeRFReal(BaseReal):
                if video_track._queue.qsize()>=5:
                    #print('sleep qsize=',video_track._queue.qsize())
                    time.sleep(0.04*video_track._queue.qsize()*0.8)
-        print('nerfreal thread stop')
+        logger.info('nerfreal thread stop')
            
            
--- a/ttsreal.py
+++ b/ttsreal.py
@ -14,7 +14,7 @@
 #  See the License for the specific language governing permissions and
 #  limitations under the License.
 ###############################################################################
-import os
+from __future__ import annotations
 import time
 import numpy as np
 import soundfile as sf
@ -32,12 +32,17 @@ from io import BytesIO
 from threading import Thread, Event
 from enum import Enum

+from typing import TYPE_CHECKING
+if TYPE_CHECKING:
+    from basereal import BaseReal
+
+from logger import logger
 class State(Enum):
    RUNNING=0
    PAUSE=1

 class BaseTTS:
-    def __init__(self, opt, parent):
+    def __init__(self, opt, parent:BaseReal):
        self.opt=opt
        self.parent = parent

@ -53,7 +58,7 @@ class BaseTTS:
        self.msgqueue.queue.clear()
        self.state = State.PAUSE

-    def put_msg_txt(self,msg,eventpoint=None): 
+    def put_msg_txt(self,msg:str,eventpoint=None): 
        if len(msg)>0:
            self.msgqueue.put((msg,eventpoint))

@ -69,7 +74,7 @@ class BaseTTS:
            except queue.Empty:
                continue
            self.txt_to_audio(msg)
-        print('ttsreal thread stop')
+        logger.info('ttsreal thread stop')
    
    def txt_to_audio(self,msg):
        pass
@ -82,9 +87,9 @@ class EdgeTTS(BaseTTS):
        text,textevent = msg
        t = time.time()
        asyncio.new_event_loop().run_until_complete(self.__main(voicename,text))
-        print(f'-------edge tts time:{time.time()-t:.4f}s')
+        logger.info(f'-------edge tts time:{time.time()-t:.4f}s')
        if self.input_stream.getbuffer().nbytes<=0: #edgetts err
-            print('edgetts err!!!!!')
+            logger.error('edgetts err!!!!!')
            return
        
        self.input_stream.seek(0)
@ -108,15 +113,15 @@ class EdgeTTS(BaseTTS):
    def __create_bytes_stream(self,byte_stream):
        #byte_stream=BytesIO(buffer)
        stream, sample_rate = sf.read(byte_stream) # [T*sample_rate,] float64
-        print(f'[INFO]tts audio stream {sample_rate}: {stream.shape}')
+        logger.info(f'[INFO]tts audio stream {sample_rate}: {stream.shape}')
        stream = stream.astype(np.float32)

        if stream.ndim > 1:
-            print(f'[WARN] audio has {stream.shape[1]} channels, only use the first.')
+            logger.info(f'[WARN] audio has {stream.shape[1]} channels, only use the first.')
            stream = stream[:, 0]
    
        if sample_rate != self.sample_rate and stream.shape[0]>0:
-            print(f'[WARN] audio sample rate is {sample_rate}, resampling into {self.sample_rate}.')
+            logger.info(f'[WARN] audio sample rate is {sample_rate}, resampling into {self.sample_rate}.')
            stream = resampy.resample(x=stream, sr_orig=sample_rate, sr_new=self.sample_rate)

        return stream
@ -137,7 +142,7 @@ class EdgeTTS(BaseTTS):
                elif chunk["type"] == "WordBoundary":
                    pass
        except Exception as e:
-            print(e)
+            logger.exception('edgetts')

 ###########################################################################################
 class FishTTS(BaseTTS):
@ -173,10 +178,10 @@ class FishTTS(BaseTTS):
                },
            )
            end = time.perf_counter()
-            print(f"fish_speech Time to make POST: {end-start}s")
+            logger.info(f"fish_speech Time to make POST: {end-start}s")

            if res.status_code != 200:
-                print("Error:", res.text)
+                logger.error("Error:%s", res.text)
                return
                
            first = True
@ -185,13 +190,13 @@ class FishTTS(BaseTTS):
                #print('chunk len:',len(chunk))
                if first:
                    end = time.perf_counter()
-                    print(f"fish_speech Time to first chunk: {end-start}s")
+                    logger.info(f"fish_speech Time to first chunk: {end-start}s")
                    first = False
                if chunk and self.state==State.RUNNING:
                    yield chunk
            #print("gpt_sovits response.elapsed:", res.elapsed)
        except Exception as e:
-            print(e)
+            logger.exception('fishtts')

    def stream_tts(self,audio_stream,msg):
        text,textevent = msg
@ -254,38 +259,38 @@ class VoitsTTS(BaseTTS):
                stream=True,
            )
            end = time.perf_counter()
-            print(f"gpt_sovits Time to make POST: {end-start}s")
+            logger.info(f"gpt_sovits Time to make POST: {end-start}s")

            if res.status_code != 200:
-                print("Error:", res.text)
+                logger.error("Error:%s", res.text)
                return
                
            first = True
        
            for chunk in res.iter_content(chunk_size=None): #12800 1280 32K*20ms*2
-                print('chunk len:',len(chunk))
+                logger.info('chunk len:%d',len(chunk))
                if first:
                    end = time.perf_counter()
-                    print(f"gpt_sovits Time to first chunk: {end-start}s")
+                    logger.info(f"gpt_sovits Time to first chunk: {end-start}s")
                    first = False
                if chunk and self.state==State.RUNNING:
                    yield chunk
            #print("gpt_sovits response.elapsed:", res.elapsed)
        except Exception as e:
-            print(e)
+            logger.exception('sovits')

    def __create_bytes_stream(self,byte_stream):
        #byte_stream=BytesIO(buffer)
        stream, sample_rate = sf.read(byte_stream) # [T*sample_rate,] float64
-        print(f'[INFO]tts audio stream {sample_rate}: {stream.shape}')
+        logger.info(f'[INFO]tts audio stream {sample_rate}: {stream.shape}')
        stream = stream.astype(np.float32)

        if stream.ndim > 1:
-            print(f'[WARN] audio has {stream.shape[1]} channels, only use the first.')
+            logger.info(f'[WARN] audio has {stream.shape[1]} channels, only use the first.')
            stream = stream[:, 0]
    
        if sample_rate != self.sample_rate and stream.shape[0]>0:
-            print(f'[WARN] audio sample rate is {sample_rate}, resampling into {self.sample_rate}.')
+            logger.info(f'[WARN] audio sample rate is {sample_rate}, resampling into {self.sample_rate}.')
            stream = resampy.resample(x=stream, sr_orig=sample_rate, sr_new=self.sample_rate)

        return stream
@ -338,10 +343,10 @@ class CosyVoiceTTS(BaseTTS):
            res = requests.request("GET", f"{server_url}/inference_zero_shot", data=payload, files=files, stream=True)
            
            end = time.perf_counter()
-            print(f"cosy_voice Time to make POST: {end-start}s")
+            logger.info(f"cosy_voice Time to make POST: {end-start}s")

            if res.status_code != 200:
-                print("Error:", res.text)
+                logger.error("Error:%s", res.text)
                return
                
            first = True
@ -349,12 +354,12 @@ class CosyVoiceTTS(BaseTTS):
            for chunk in res.iter_content(chunk_size=8820): # 882 22.05K*20ms*2
                if first:
                    end = time.perf_counter()
-                    print(f"cosy_voice Time to first chunk: {end-start}s")
+                    logger.info(f"cosy_voice Time to first chunk: {end-start}s")
                    first = False
                if chunk and self.state==State.RUNNING:
                    yield chunk
        except Exception as e:
-            print(e)
+            logger.exception('cosyvoice')

    def stream_tts(self,audio_stream,msg):
        text,textevent = msg
@ -414,7 +419,7 @@ class XTTS(BaseTTS):
                stream=True,
            )
            end = time.perf_counter()
-            print(f"xtts Time to make POST: {end-start}s")
+            logger.info(f"xtts Time to make POST: {end-start}s")

            if res.status_code != 200:
                print("Error:", res.text)
@ -425,7 +430,7 @@ class XTTS(BaseTTS):
            for chunk in res.iter_content(chunk_size=9600): #24K*20ms*2
                if first:
                    end = time.perf_counter()
-                    print(f"xtts Time to first chunk: {end-start}s")
+                    logger.info(f"xtts Time to first chunk: {end-start}s")
                    first = False
                if chunk:
                    yield chunk
--- a/webrtc.py
+++ b/webrtc.py
@ -40,8 +40,9 @@ from aiortc import (
    MediaStreamTrack,
 )

-logging.basicConfig()
-logger = logging.getLogger(__name__)
+#logging.basicConfig()
+#logger = logging.getLogger(__name__)
+from logger import logger


 class PlayerStreamTrack(MediaStreamTrack):
@ -82,7 +83,7 @@ class PlayerStreamTrack(MediaStreamTrack):
                self._start = time.time()
                self._timestamp = 0
                self.timelist.append(self._start)
-                print('video start:',self._start)
+                logger.info('video start:%f',self._start)
            return self._timestamp, VIDEO_TIME_BASE
        else: #audio
            if hasattr(self, "_timestamp"):
@ -100,7 +101,7 @@ class PlayerStreamTrack(MediaStreamTrack):
                self._start = time.time()
                self._timestamp = 0
                self.timelist.append(self._start)
-                print('audio start:',self._start)
+                logger.info('audio start:%f',self._start)
            return self._timestamp, AUDIO_TIME_BASE

    async def recv(self) -> Union[Frame, Packet]:
@ -136,7 +137,7 @@ class PlayerStreamTrack(MediaStreamTrack):
            self.framecount += 1
            self.lasttime = time.perf_counter()
            if self.framecount==100:
-                print(f"------actual avg final fps:{self.framecount/self.totaltime:.4f}")
+                logger.info(f"------actual avg final fps:{self.framecount/self.totaltime:.4f}")
                self.framecount = 0
                self.totaltime=0
        return frame