Capítulo 2: Comprensión y Generación de Audio con Whisper y GPT-4o
Ejercicios Prácticos — Capítulo 2
Ejercicio 1: Transcribir un Archivo de Audio en Inglés
Tarea:
Utiliza la API de Whisper para transcribir un archivo de audio corto .mp3
que contenga voz en inglés.
Solución:
import openai
import os
from dotenv import load_dotenv
load_dotenv()
openai.api_key = os.getenv("OPENAI_API_KEY")
audio_file = open("english_note.mp3", "rb")
transcript = openai.Audio.transcribe(
model="whisper-1",
file=audio_file,
response_format="text"
)
print("Transcript:\n", transcript)
Ejercicio 2: Traducir Audio en Idioma Extranjero al Inglés
Tarea:
Sube un archivo de audio que no esté en inglés y tradúcelo al inglés usando la API de Whisper.
Solución:
translated = openai.Audio.translate(
model="whisper-1",
file=open("spanish_clip.mp3", "rb"),
response_format="text"
)
print("Translation:\n", translated)
Ejercicio 3: Subir y Analizar un Archivo de Audio con GPT-4o
Tarea:
Sube un archivo de audio .mp3
y pide a GPT-4o que lo resuma.
Solución:
audio_upload = openai.files.create(
file=open("meeting_summary.mp3", "rb"),
purpose="assistants"
)
response = openai.ChatCompletion.create(
model="gpt-4o",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "Please summarize this meeting."},
{"type": "audio", "audio": {"file_id": audio_upload.id}}
]
}
]
)
print("Summary:\n", response["choices"][0]["message"]["content"])
Ejercicio 4: Generar una Respuesta Hablada Usando Texto a Voz
Tarea:
Toma una respuesta generada por GPT y conviértela a voz usando la API de TTS de OpenAI.
Solución:
text_to_speak = "Sure! The marketing meeting discussed Q3 strategies and budget allocations."
speech = openai.audio.speech.create(
model="tts-1",
voice="nova",
input=text_to_speak
)
with open("spoken_reply.mp3", "wb") as f:
f.write(speech.content)
print("Voice reply saved as 'spoken_reply.mp3'")
Ejercicio 5: Construir un Mini Asistente de Voz a Voz
Tarea:
Construir un pipeline básico que acepte audio, genere una respuesta usando GPT-4o y responda mediante voz sintetizada.
Solución:
# Step 1: Upload audio
uploaded_audio = openai.files.create(
file=open("user_voice_prompt.mp3", "rb"),
purpose="assistants"
)
# Step 2: GPT-4o processes it
chat = openai.ChatCompletion.create(
model="gpt-4o",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "Please answer this question politely."},
{"type": "audio", "audio": {"file_id": uploaded_audio.id}}
]
}
]
)
reply = chat["choices"][0]["message"]["content"]
# Step 3: Convert GPT reply to audio
tts = openai.audio.speech.create(
model="tts-1",
voice="echo",
input=reply
)
with open("voice_response.mp3", "wb") as f:
f.write(tts.content)
print("Assistant reply saved as 'voice_response.mp3'")
En estos ejercicios, practicaste:
- Subir y transcribir audio con Whisper
- Traducir voz extranjera al inglés
- Resumir e interpretar audio con GPT-4o
- Convertir respuestas de GPT en voz natural
- Construir tu primer pipeline de asistente de voz a voz
Ahora tienes todas las herramientas para integrar poderosamente el habla en cualquier proyecto de IA, ya sea que estés construyendo un tutor de idiomas, un asistente de accesibilidad, una herramienta de productividad basada en voz o una experiencia de altavoz inteligente.
Ejercicios Prácticos — Capítulo 2
Ejercicio 1: Transcribir un Archivo de Audio en Inglés
Tarea:
Utiliza la API de Whisper para transcribir un archivo de audio corto .mp3
que contenga voz en inglés.
Solución:
import openai
import os
from dotenv import load_dotenv
load_dotenv()
openai.api_key = os.getenv("OPENAI_API_KEY")
audio_file = open("english_note.mp3", "rb")
transcript = openai.Audio.transcribe(
model="whisper-1",
file=audio_file,
response_format="text"
)
print("Transcript:\n", transcript)
Ejercicio 2: Traducir Audio en Idioma Extranjero al Inglés
Tarea:
Sube un archivo de audio que no esté en inglés y tradúcelo al inglés usando la API de Whisper.
Solución:
translated = openai.Audio.translate(
model="whisper-1",
file=open("spanish_clip.mp3", "rb"),
response_format="text"
)
print("Translation:\n", translated)
Ejercicio 3: Subir y Analizar un Archivo de Audio con GPT-4o
Tarea:
Sube un archivo de audio .mp3
y pide a GPT-4o que lo resuma.
Solución:
audio_upload = openai.files.create(
file=open("meeting_summary.mp3", "rb"),
purpose="assistants"
)
response = openai.ChatCompletion.create(
model="gpt-4o",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "Please summarize this meeting."},
{"type": "audio", "audio": {"file_id": audio_upload.id}}
]
}
]
)
print("Summary:\n", response["choices"][0]["message"]["content"])
Ejercicio 4: Generar una Respuesta Hablada Usando Texto a Voz
Tarea:
Toma una respuesta generada por GPT y conviértela a voz usando la API de TTS de OpenAI.
Solución:
text_to_speak = "Sure! The marketing meeting discussed Q3 strategies and budget allocations."
speech = openai.audio.speech.create(
model="tts-1",
voice="nova",
input=text_to_speak
)
with open("spoken_reply.mp3", "wb") as f:
f.write(speech.content)
print("Voice reply saved as 'spoken_reply.mp3'")
Ejercicio 5: Construir un Mini Asistente de Voz a Voz
Tarea:
Construir un pipeline básico que acepte audio, genere una respuesta usando GPT-4o y responda mediante voz sintetizada.
Solución:
# Step 1: Upload audio
uploaded_audio = openai.files.create(
file=open("user_voice_prompt.mp3", "rb"),
purpose="assistants"
)
# Step 2: GPT-4o processes it
chat = openai.ChatCompletion.create(
model="gpt-4o",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "Please answer this question politely."},
{"type": "audio", "audio": {"file_id": uploaded_audio.id}}
]
}
]
)
reply = chat["choices"][0]["message"]["content"]
# Step 3: Convert GPT reply to audio
tts = openai.audio.speech.create(
model="tts-1",
voice="echo",
input=reply
)
with open("voice_response.mp3", "wb") as f:
f.write(tts.content)
print("Assistant reply saved as 'voice_response.mp3'")
En estos ejercicios, practicaste:
- Subir y transcribir audio con Whisper
- Traducir voz extranjera al inglés
- Resumir e interpretar audio con GPT-4o
- Convertir respuestas de GPT en voz natural
- Construir tu primer pipeline de asistente de voz a voz
Ahora tienes todas las herramientas para integrar poderosamente el habla en cualquier proyecto de IA, ya sea que estés construyendo un tutor de idiomas, un asistente de accesibilidad, una herramienta de productividad basada en voz o una experiencia de altavoz inteligente.
Ejercicios Prácticos — Capítulo 2
Ejercicio 1: Transcribir un Archivo de Audio en Inglés
Tarea:
Utiliza la API de Whisper para transcribir un archivo de audio corto .mp3
que contenga voz en inglés.
Solución:
import openai
import os
from dotenv import load_dotenv
load_dotenv()
openai.api_key = os.getenv("OPENAI_API_KEY")
audio_file = open("english_note.mp3", "rb")
transcript = openai.Audio.transcribe(
model="whisper-1",
file=audio_file,
response_format="text"
)
print("Transcript:\n", transcript)
Ejercicio 2: Traducir Audio en Idioma Extranjero al Inglés
Tarea:
Sube un archivo de audio que no esté en inglés y tradúcelo al inglés usando la API de Whisper.
Solución:
translated = openai.Audio.translate(
model="whisper-1",
file=open("spanish_clip.mp3", "rb"),
response_format="text"
)
print("Translation:\n", translated)
Ejercicio 3: Subir y Analizar un Archivo de Audio con GPT-4o
Tarea:
Sube un archivo de audio .mp3
y pide a GPT-4o que lo resuma.
Solución:
audio_upload = openai.files.create(
file=open("meeting_summary.mp3", "rb"),
purpose="assistants"
)
response = openai.ChatCompletion.create(
model="gpt-4o",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "Please summarize this meeting."},
{"type": "audio", "audio": {"file_id": audio_upload.id}}
]
}
]
)
print("Summary:\n", response["choices"][0]["message"]["content"])
Ejercicio 4: Generar una Respuesta Hablada Usando Texto a Voz
Tarea:
Toma una respuesta generada por GPT y conviértela a voz usando la API de TTS de OpenAI.
Solución:
text_to_speak = "Sure! The marketing meeting discussed Q3 strategies and budget allocations."
speech = openai.audio.speech.create(
model="tts-1",
voice="nova",
input=text_to_speak
)
with open("spoken_reply.mp3", "wb") as f:
f.write(speech.content)
print("Voice reply saved as 'spoken_reply.mp3'")
Ejercicio 5: Construir un Mini Asistente de Voz a Voz
Tarea:
Construir un pipeline básico que acepte audio, genere una respuesta usando GPT-4o y responda mediante voz sintetizada.
Solución:
# Step 1: Upload audio
uploaded_audio = openai.files.create(
file=open("user_voice_prompt.mp3", "rb"),
purpose="assistants"
)
# Step 2: GPT-4o processes it
chat = openai.ChatCompletion.create(
model="gpt-4o",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "Please answer this question politely."},
{"type": "audio", "audio": {"file_id": uploaded_audio.id}}
]
}
]
)
reply = chat["choices"][0]["message"]["content"]
# Step 3: Convert GPT reply to audio
tts = openai.audio.speech.create(
model="tts-1",
voice="echo",
input=reply
)
with open("voice_response.mp3", "wb") as f:
f.write(tts.content)
print("Assistant reply saved as 'voice_response.mp3'")
En estos ejercicios, practicaste:
- Subir y transcribir audio con Whisper
- Traducir voz extranjera al inglés
- Resumir e interpretar audio con GPT-4o
- Convertir respuestas de GPT en voz natural
- Construir tu primer pipeline de asistente de voz a voz
Ahora tienes todas las herramientas para integrar poderosamente el habla en cualquier proyecto de IA, ya sea que estés construyendo un tutor de idiomas, un asistente de accesibilidad, una herramienta de productividad basada en voz o una experiencia de altavoz inteligente.
Ejercicios Prácticos — Capítulo 2
Ejercicio 1: Transcribir un Archivo de Audio en Inglés
Tarea:
Utiliza la API de Whisper para transcribir un archivo de audio corto .mp3
que contenga voz en inglés.
Solución:
import openai
import os
from dotenv import load_dotenv
load_dotenv()
openai.api_key = os.getenv("OPENAI_API_KEY")
audio_file = open("english_note.mp3", "rb")
transcript = openai.Audio.transcribe(
model="whisper-1",
file=audio_file,
response_format="text"
)
print("Transcript:\n", transcript)
Ejercicio 2: Traducir Audio en Idioma Extranjero al Inglés
Tarea:
Sube un archivo de audio que no esté en inglés y tradúcelo al inglés usando la API de Whisper.
Solución:
translated = openai.Audio.translate(
model="whisper-1",
file=open("spanish_clip.mp3", "rb"),
response_format="text"
)
print("Translation:\n", translated)
Ejercicio 3: Subir y Analizar un Archivo de Audio con GPT-4o
Tarea:
Sube un archivo de audio .mp3
y pide a GPT-4o que lo resuma.
Solución:
audio_upload = openai.files.create(
file=open("meeting_summary.mp3", "rb"),
purpose="assistants"
)
response = openai.ChatCompletion.create(
model="gpt-4o",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "Please summarize this meeting."},
{"type": "audio", "audio": {"file_id": audio_upload.id}}
]
}
]
)
print("Summary:\n", response["choices"][0]["message"]["content"])
Ejercicio 4: Generar una Respuesta Hablada Usando Texto a Voz
Tarea:
Toma una respuesta generada por GPT y conviértela a voz usando la API de TTS de OpenAI.
Solución:
text_to_speak = "Sure! The marketing meeting discussed Q3 strategies and budget allocations."
speech = openai.audio.speech.create(
model="tts-1",
voice="nova",
input=text_to_speak
)
with open("spoken_reply.mp3", "wb") as f:
f.write(speech.content)
print("Voice reply saved as 'spoken_reply.mp3'")
Ejercicio 5: Construir un Mini Asistente de Voz a Voz
Tarea:
Construir un pipeline básico que acepte audio, genere una respuesta usando GPT-4o y responda mediante voz sintetizada.
Solución:
# Step 1: Upload audio
uploaded_audio = openai.files.create(
file=open("user_voice_prompt.mp3", "rb"),
purpose="assistants"
)
# Step 2: GPT-4o processes it
chat = openai.ChatCompletion.create(
model="gpt-4o",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "Please answer this question politely."},
{"type": "audio", "audio": {"file_id": uploaded_audio.id}}
]
}
]
)
reply = chat["choices"][0]["message"]["content"]
# Step 3: Convert GPT reply to audio
tts = openai.audio.speech.create(
model="tts-1",
voice="echo",
input=reply
)
with open("voice_response.mp3", "wb") as f:
f.write(tts.content)
print("Assistant reply saved as 'voice_response.mp3'")
En estos ejercicios, practicaste:
- Subir y transcribir audio con Whisper
- Traducir voz extranjera al inglés
- Resumir e interpretar audio con GPT-4o
- Convertir respuestas de GPT en voz natural
- Construir tu primer pipeline de asistente de voz a voz
Ahora tienes todas las herramientas para integrar poderosamente el habla en cualquier proyecto de IA, ya sea que estés construyendo un tutor de idiomas, un asistente de accesibilidad, una herramienta de productividad basada en voz o una experiencia de altavoz inteligente.