Click here to view the next lesson.

Capítulo 2: Comprensión y Generación de Audio con Whisper y GPT-4o

Ejercicios Prácticos — Capítulo 2

Ejercicio 1: Transcribir un Archivo de Audio en Inglés

Tarea:

Utiliza la API de Whisper para transcribir un archivo de audio corto .mp3 que contenga voz en inglés.

Solución:

import openai
import os
from dotenv import load_dotenv

load_dotenv()
openai.api_key = os.getenv("OPENAI_API_KEY")

audio_file = open("english_note.mp3", "rb")

transcript = openai.Audio.transcribe(
    model="whisper-1",
    file=audio_file,
    response_format="text"
)

print("Transcript:\n", transcript)

Ejercicio 2: Traducir Audio en Idioma Extranjero al Inglés

Tarea:

Sube un archivo de audio que no esté en inglés y tradúcelo al inglés usando la API de Whisper.

Solución:

translated = openai.Audio.translate(
    model="whisper-1",
    file=open("spanish_clip.mp3", "rb"),
    response_format="text"
)

print("Translation:\n", translated)

Ejercicio 3: Subir y Analizar un Archivo de Audio con GPT-4o

Tarea:

Sube un archivo de audio .mp3 y pide a GPT-4o que lo resuma.

Solución:

audio_upload = openai.files.create(
    file=open("meeting_summary.mp3", "rb"),
    purpose="assistants"
)

response = openai.ChatCompletion.create(
    model="gpt-4o",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "Please summarize this meeting."},
                {"type": "audio", "audio": {"file_id": audio_upload.id}}
            ]
        }
    ]
)

print("Summary:\n", response["choices"][0]["message"]["content"])

Ejercicio 4: Generar una Respuesta Hablada Usando Texto a Voz

Tarea:

Toma una respuesta generada por GPT y conviértela a voz usando la API de TTS de OpenAI.

Solución:

text_to_speak = "Sure! The marketing meeting discussed Q3 strategies and budget allocations."

speech = openai.audio.speech.create(
    model="tts-1",
    voice="nova",
    input=text_to_speak
)

with open("spoken_reply.mp3", "wb") as f:
    f.write(speech.content)

print("Voice reply saved as 'spoken_reply.mp3'")

Ejercicio 5: Construir un Mini Asistente de Voz a Voz

Tarea:

Construir un pipeline básico que acepte audio, genere una respuesta usando GPT-4o y responda mediante voz sintetizada.

Solución:

# Step 1: Upload audio
uploaded_audio = openai.files.create(
    file=open("user_voice_prompt.mp3", "rb"),
    purpose="assistants"
)

# Step 2: GPT-4o processes it
chat = openai.ChatCompletion.create(
    model="gpt-4o",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "Please answer this question politely."},
                {"type": "audio", "audio": {"file_id": uploaded_audio.id}}
            ]
        }
    ]
)

reply = chat["choices"][0]["message"]["content"]

# Step 3: Convert GPT reply to audio
tts = openai.audio.speech.create(
    model="tts-1",
    voice="echo",
    input=reply
)

with open("voice_response.mp3", "wb") as f:
    f.write(tts.content)

print("Assistant reply saved as 'voice_response.mp3'")

En estos ejercicios, practicaste:

Subir y transcribir audio con Whisper
Traducir voz extranjera al inglés
Resumir e interpretar audio con GPT-4o
Convertir respuestas de GPT en voz natural
Construir tu primer pipeline de asistente de voz a voz

Ahora tienes todas las herramientas para integrar poderosamente el habla en cualquier proyecto de IA, ya sea que estés construyendo un tutor de idiomas, un asistente de accesibilidad, una herramienta de productividad basada en voz o una experiencia de altavoz inteligente.

Ejercicios Prácticos — Capítulo 2

Ejercicio 1: Transcribir un Archivo de Audio en Inglés

Tarea:

Utiliza la API de Whisper para transcribir un archivo de audio corto .mp3 que contenga voz en inglés.

Solución:

import openai
import os
from dotenv import load_dotenv

load_dotenv()
openai.api_key = os.getenv("OPENAI_API_KEY")

audio_file = open("english_note.mp3", "rb")

transcript = openai.Audio.transcribe(
    model="whisper-1",
    file=audio_file,
    response_format="text"
)

print("Transcript:\n", transcript)

Ejercicio 2: Traducir Audio en Idioma Extranjero al Inglés

Tarea:

Sube un archivo de audio que no esté en inglés y tradúcelo al inglés usando la API de Whisper.

Solución:

translated = openai.Audio.translate(
    model="whisper-1",
    file=open("spanish_clip.mp3", "rb"),
    response_format="text"
)

print("Translation:\n", translated)

Ejercicio 3: Subir y Analizar un Archivo de Audio con GPT-4o

Tarea:

Sube un archivo de audio .mp3 y pide a GPT-4o que lo resuma.

Solución:

audio_upload = openai.files.create(
    file=open("meeting_summary.mp3", "rb"),
    purpose="assistants"
)

response = openai.ChatCompletion.create(
    model="gpt-4o",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "Please summarize this meeting."},
                {"type": "audio", "audio": {"file_id": audio_upload.id}}
            ]
        }
    ]
)

print("Summary:\n", response["choices"][0]["message"]["content"])

Ejercicio 4: Generar una Respuesta Hablada Usando Texto a Voz

Tarea:

Toma una respuesta generada por GPT y conviértela a voz usando la API de TTS de OpenAI.

Solución:

text_to_speak = "Sure! The marketing meeting discussed Q3 strategies and budget allocations."

speech = openai.audio.speech.create(
    model="tts-1",
    voice="nova",
    input=text_to_speak
)

with open("spoken_reply.mp3", "wb") as f:
    f.write(speech.content)

print("Voice reply saved as 'spoken_reply.mp3'")

Ejercicio 5: Construir un Mini Asistente de Voz a Voz

Tarea:

Construir un pipeline básico que acepte audio, genere una respuesta usando GPT-4o y responda mediante voz sintetizada.

Solución:

# Step 1: Upload audio
uploaded_audio = openai.files.create(
    file=open("user_voice_prompt.mp3", "rb"),
    purpose="assistants"
)

# Step 2: GPT-4o processes it
chat = openai.ChatCompletion.create(
    model="gpt-4o",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "Please answer this question politely."},
                {"type": "audio", "audio": {"file_id": uploaded_audio.id}}
            ]
        }
    ]
)

reply = chat["choices"][0]["message"]["content"]

# Step 3: Convert GPT reply to audio
tts = openai.audio.speech.create(
    model="tts-1",
    voice="echo",
    input=reply
)

with open("voice_response.mp3", "wb") as f:
    f.write(tts.content)

print("Assistant reply saved as 'voice_response.mp3'")

En estos ejercicios, practicaste:

Subir y transcribir audio con Whisper
Traducir voz extranjera al inglés
Resumir e interpretar audio con GPT-4o
Convertir respuestas de GPT en voz natural
Construir tu primer pipeline de asistente de voz a voz

Ejercicios Prácticos — Capítulo 2

Ejercicio 1: Transcribir un Archivo de Audio en Inglés

Tarea:

Utiliza la API de Whisper para transcribir un archivo de audio corto .mp3 que contenga voz en inglés.

Solución:

import openai
import os
from dotenv import load_dotenv

load_dotenv()
openai.api_key = os.getenv("OPENAI_API_KEY")

audio_file = open("english_note.mp3", "rb")

transcript = openai.Audio.transcribe(
    model="whisper-1",
    file=audio_file,
    response_format="text"
)

print("Transcript:\n", transcript)

Ejercicio 2: Traducir Audio en Idioma Extranjero al Inglés

Tarea:

Sube un archivo de audio que no esté en inglés y tradúcelo al inglés usando la API de Whisper.

Solución:

translated = openai.Audio.translate(
    model="whisper-1",
    file=open("spanish_clip.mp3", "rb"),
    response_format="text"
)

print("Translation:\n", translated)

Ejercicio 3: Subir y Analizar un Archivo de Audio con GPT-4o

Tarea:

Sube un archivo de audio .mp3 y pide a GPT-4o que lo resuma.

Solución:

audio_upload = openai.files.create(
    file=open("meeting_summary.mp3", "rb"),
    purpose="assistants"
)

response = openai.ChatCompletion.create(
    model="gpt-4o",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "Please summarize this meeting."},
                {"type": "audio", "audio": {"file_id": audio_upload.id}}
            ]
        }
    ]
)

print("Summary:\n", response["choices"][0]["message"]["content"])

Ejercicio 4: Generar una Respuesta Hablada Usando Texto a Voz

Tarea:

Toma una respuesta generada por GPT y conviértela a voz usando la API de TTS de OpenAI.

Solución:

text_to_speak = "Sure! The marketing meeting discussed Q3 strategies and budget allocations."

speech = openai.audio.speech.create(
    model="tts-1",
    voice="nova",
    input=text_to_speak
)

with open("spoken_reply.mp3", "wb") as f:
    f.write(speech.content)

print("Voice reply saved as 'spoken_reply.mp3'")

Ejercicio 5: Construir un Mini Asistente de Voz a Voz

Tarea:

Construir un pipeline básico que acepte audio, genere una respuesta usando GPT-4o y responda mediante voz sintetizada.

Solución:

# Step 1: Upload audio
uploaded_audio = openai.files.create(
    file=open("user_voice_prompt.mp3", "rb"),
    purpose="assistants"
)

# Step 2: GPT-4o processes it
chat = openai.ChatCompletion.create(
    model="gpt-4o",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "Please answer this question politely."},
                {"type": "audio", "audio": {"file_id": uploaded_audio.id}}
            ]
        }
    ]
)

reply = chat["choices"][0]["message"]["content"]

# Step 3: Convert GPT reply to audio
tts = openai.audio.speech.create(
    model="tts-1",
    voice="echo",
    input=reply
)

with open("voice_response.mp3", "wb") as f:
    f.write(tts.content)

print("Assistant reply saved as 'voice_response.mp3'")

En estos ejercicios, practicaste:

Subir y transcribir audio con Whisper
Traducir voz extranjera al inglés
Resumir e interpretar audio con GPT-4o
Convertir respuestas de GPT en voz natural
Construir tu primer pipeline de asistente de voz a voz

Ejercicios Prácticos — Capítulo 2

Ejercicio 1: Transcribir un Archivo de Audio en Inglés

Tarea:

Utiliza la API de Whisper para transcribir un archivo de audio corto .mp3 que contenga voz en inglés.

Solución:

import openai
import os
from dotenv import load_dotenv

load_dotenv()
openai.api_key = os.getenv("OPENAI_API_KEY")

audio_file = open("english_note.mp3", "rb")

transcript = openai.Audio.transcribe(
    model="whisper-1",
    file=audio_file,
    response_format="text"
)

print("Transcript:\n", transcript)

Ejercicio 2: Traducir Audio en Idioma Extranjero al Inglés

Tarea:

Sube un archivo de audio que no esté en inglés y tradúcelo al inglés usando la API de Whisper.

Solución:

translated = openai.Audio.translate(
    model="whisper-1",
    file=open("spanish_clip.mp3", "rb"),
    response_format="text"
)

print("Translation:\n", translated)

Ejercicio 3: Subir y Analizar un Archivo de Audio con GPT-4o

Tarea:

Sube un archivo de audio .mp3 y pide a GPT-4o que lo resuma.

Solución:

audio_upload = openai.files.create(
    file=open("meeting_summary.mp3", "rb"),
    purpose="assistants"
)

response = openai.ChatCompletion.create(
    model="gpt-4o",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "Please summarize this meeting."},
                {"type": "audio", "audio": {"file_id": audio_upload.id}}
            ]
        }
    ]
)

print("Summary:\n", response["choices"][0]["message"]["content"])

Ejercicio 4: Generar una Respuesta Hablada Usando Texto a Voz

Tarea:

Toma una respuesta generada por GPT y conviértela a voz usando la API de TTS de OpenAI.

Solución:

text_to_speak = "Sure! The marketing meeting discussed Q3 strategies and budget allocations."

speech = openai.audio.speech.create(
    model="tts-1",
    voice="nova",
    input=text_to_speak
)

with open("spoken_reply.mp3", "wb") as f:
    f.write(speech.content)

print("Voice reply saved as 'spoken_reply.mp3'")

Ejercicio 5: Construir un Mini Asistente de Voz a Voz

Tarea:

Construir un pipeline básico que acepte audio, genere una respuesta usando GPT-4o y responda mediante voz sintetizada.

Solución:

# Step 1: Upload audio
uploaded_audio = openai.files.create(
    file=open("user_voice_prompt.mp3", "rb"),
    purpose="assistants"
)

# Step 2: GPT-4o processes it
chat = openai.ChatCompletion.create(
    model="gpt-4o",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "Please answer this question politely."},
                {"type": "audio", "audio": {"file_id": uploaded_audio.id}}
            ]
        }
    ]
)

reply = chat["choices"][0]["message"]["content"]

# Step 3: Convert GPT reply to audio
tts = openai.audio.speech.create(
    model="tts-1",
    voice="echo",
    input=reply
)

with open("voice_response.mp3", "wb") as f:
    f.write(tts.content)

print("Assistant reply saved as 'voice_response.mp3'")

En estos ejercicios, practicaste:

Subir y transcribir audio con Whisper
Traducir voz extranjera al inglés
Resumir e interpretar audio con GPT-4o
Convertir respuestas de GPT en voz natural
Construir tu primer pipeline de asistente de voz a voz

Compra este libro