feat: add voice transcription

2025-07-03 10:02:12 +07:00
parent f047a3c1c2
commit 0fd8170c5b
5 changed files with 53 additions and 7 deletions
--- a/app/api/v1/voice.py
+++ b/app/api/v1/voice.py
@@ -1,6 +1,6 @@
 from fastapi import APIRouter
-from app.models.voice import VoiceRequest, VoiceResponse
+from app.models.voice import VoiceRequest, VoiceResponse, TranscriptionRequest, TranscriptionResponse
-from app.services.voice import generate_voice
+from app.services.voice import generate_voice, generate_transcription
 router = APIRouter()
@@ -8,3 +8,9 @@ router = APIRouter()
 async def voice(request: VoiceRequest):
    voice = await generate_voice(request.text)
    return VoiceResponse(voice=voice)
@router.post("/transcription", response_model=TranscriptionResponse)
 async def transcription(request: TranscriptionRequest):
    transcription = await generate_transcription(request.audio_file_path)
    return TranscriptionResponse(transcription=transcription)
--- a/app/core/openai_voice_transcription_client.py
+++ b/app/core/openai_voice_transcription_client.py
@@ -20,8 +20,36 @@ async def generate_voice(messages: list):
    try:
        response = client.chat.completions.create(
            model=OPENAI_AUDIO_MODEL,
            response_format="mp3",
            messages=messages,
            max_tokens=1000,
            temperature=0.7,
            stream=False
        )
        if not response.choices or not response.choices[0].message.content:
            return "No response content from the model"
        return response.choices[0].message.content
    except OpenAIError as e:
        error_msg = f"OpenAI API Error: {str(e)}"
        print(error_msg)
        raise Exception(error_msg) from e
    except Exception as e:
        error_msg = f"Unexpected error: {str(e)}"
        print(error_msg)
        raise Exception(error_msg) from e
 async def generate_transcription(audio_file_path: str) -> str:
    if not audio_file_path:
        raise ValueError("Audio file path cannot be empty")
    try:
        response = client.audio.transcriptions.create(
            model=OPENAI_AUDIO_MODEL,
            file=audio_file_path,
            response_format="text",
            language="id"
        )
        if not response.choices or not response.choices[0].message.content:
--- a/app/main.py
+++ b/app/main.py
@@ -6,4 +6,4 @@ app = FastAPI()
 # Include your routes
 app.include_router(translate.router, prefix="/api/v1/translate", tags=["translate"])
-app.include_router(voice.router, prefix="/api/v1/voice", tags=["voice"])
+app.include_router(voice.router, prefix="/api/v1/voice", tags=["voice"])
--- a/app/models/voice.py
+++ b/app/models/voice.py
@@ -1,8 +1,17 @@
 from pydantic import BaseModel
 from typing import Optional
-
+# Text-to-Speech Models
 class VoiceRequest(BaseModel):
    text: str
 class VoiceResponse(BaseModel):
-    voice: str
+    voice_output: str
 # Speech-to-Text Models
 class TranscriptionRequest(BaseModel):
    audio_file_path: str
    target_language: Optional[str] = "id"  # Default to English
 class TranscriptionResponse(BaseModel):
    text: str
--- a/app/services/voice.py
+++ b/app/services/voice.py
@@ -1,7 +1,10 @@
-from app.core.openai_voice_client import generate_voice
+from app.core.openai_voice_transcription_client import generate_voice, generate_transcription
 async def generate_voice(text: str) -> str:
    voice = await generate_voice(text)
    return voice
 async def generate_transcription(audio_file_path: str) -> str:
    transcription = await generate_transcription(audio_file_path)
    return transcription