Click here to view the next lesson.

Quiz Parte I

Respuestas

Preguntas de Opción Múltiple

c) Permitir que las máquinas procesen, comprendan y generen lenguaje humano.
b) Ignora el orden y el contexto de las palabras.
c) Aprendizaje supervisado.
b) Introducir no linealidad al modelo.
b) Capturan relaciones semánticas entre palabras.

Preguntas de Verdadero/Falso

Falso - La self-attention permite que los tokens atiendan a todos los demás tokens en una secuencia, no solo a los precedentes.
Verdadero - La atención dispersa reduce el cálculo al enfocarse en subconjuntos relevantes.
Falso - Los Transformers eliminan la necesidad de RNNs al usar mecanismos de atención y procesamiento paralelo.

Preguntas de Respuesta Corta

Las RNNs enfrentan desafíos con dependencias de largo alcance porque procesan las secuencias de forma secuencial, lo que dificulta retener información de partes anteriores de una secuencia larga. Además, el problema de los gradientes que desaparecen durante la retropropagación limita el aprendizaje efectivo de dependencias distantes.
En el mecanismo de atención:
- Query (Q): Representa el token para el cual el modelo busca contexto relevante.
- Key (K): Codifica las características de todos los tokens en la secuencia.
- Value (V): Contiene la información asociada con cada token.El modelo usa el producto punto de Q y K para calcular puntuaciones de atención, que luego se utilizan para ponderar los valores (V) y generar una representación final consciente del contexto.

Pregunta Basada en Código

Solución:

import numpy as np

def scaled_dot_product_attention(Q, K, V):
    """
    Compute scaled dot-product attention.
    Q: Queries
    K: Keys
    V: Values
    """
    d_k = Q.shape[-1]
    scores = np.dot(Q, K.T) / np.sqrt(d_k)  # Scaled dot product
    weights = np.exp(scores) / np.sum(np.exp(scores), axis=-1, keepdims=True)  # Softmax
    output = np.dot(weights, V)  # Weighted sum of values
    return output, weights

# Example inputs
Q = np.array([[1, 0, 1]])
K = np.array([[1, 0, 1], [0, 1, 0], [1, 1, 0]])
V = np.array([[0.5, 1.0], [0.2, 0.8], [0.9, 0.3]])

output, weights = scaled_dot_product_attention(Q, K, V)
print("Attention Weights:\n", weights)
print("Attention Output:\n", output)

¡Felicidades!

Completar este cuestionario demuestra tu comprensión de los conceptos fundamentales de NLP, aprendizaje automático y mecanismos de atención. A medida que avances a la siguiente parte, profundizarás en estas ideas para explorar los Transformers y sus aplicaciones transformadoras.

Respuestas

Preguntas de Opción Múltiple

c) Permitir que las máquinas procesen, comprendan y generen lenguaje humano.
b) Ignora el orden y el contexto de las palabras.
c) Aprendizaje supervisado.
b) Introducir no linealidad al modelo.
b) Capturan relaciones semánticas entre palabras.

Preguntas de Verdadero/Falso

Falso - La self-attention permite que los tokens atiendan a todos los demás tokens en una secuencia, no solo a los precedentes.
Verdadero - La atención dispersa reduce el cálculo al enfocarse en subconjuntos relevantes.
Falso - Los Transformers eliminan la necesidad de RNNs al usar mecanismos de atención y procesamiento paralelo.

Preguntas de Respuesta Corta

Las RNNs enfrentan desafíos con dependencias de largo alcance porque procesan las secuencias de forma secuencial, lo que dificulta retener información de partes anteriores de una secuencia larga. Además, el problema de los gradientes que desaparecen durante la retropropagación limita el aprendizaje efectivo de dependencias distantes.
En el mecanismo de atención:
- Query (Q): Representa el token para el cual el modelo busca contexto relevante.
- Key (K): Codifica las características de todos los tokens en la secuencia.
- Value (V): Contiene la información asociada con cada token.El modelo usa el producto punto de Q y K para calcular puntuaciones de atención, que luego se utilizan para ponderar los valores (V) y generar una representación final consciente del contexto.

Pregunta Basada en Código

Solución:

import numpy as np

def scaled_dot_product_attention(Q, K, V):
    """
    Compute scaled dot-product attention.
    Q: Queries
    K: Keys
    V: Values
    """
    d_k = Q.shape[-1]
    scores = np.dot(Q, K.T) / np.sqrt(d_k)  # Scaled dot product
    weights = np.exp(scores) / np.sum(np.exp(scores), axis=-1, keepdims=True)  # Softmax
    output = np.dot(weights, V)  # Weighted sum of values
    return output, weights

# Example inputs
Q = np.array([[1, 0, 1]])
K = np.array([[1, 0, 1], [0, 1, 0], [1, 1, 0]])
V = np.array([[0.5, 1.0], [0.2, 0.8], [0.9, 0.3]])

output, weights = scaled_dot_product_attention(Q, K, V)
print("Attention Weights:\n", weights)
print("Attention Output:\n", output)

¡Felicidades!

Respuestas

Preguntas de Opción Múltiple

c) Permitir que las máquinas procesen, comprendan y generen lenguaje humano.
b) Ignora el orden y el contexto de las palabras.
c) Aprendizaje supervisado.
b) Introducir no linealidad al modelo.
b) Capturan relaciones semánticas entre palabras.

Preguntas de Verdadero/Falso

Falso - La self-attention permite que los tokens atiendan a todos los demás tokens en una secuencia, no solo a los precedentes.
Verdadero - La atención dispersa reduce el cálculo al enfocarse en subconjuntos relevantes.
Falso - Los Transformers eliminan la necesidad de RNNs al usar mecanismos de atención y procesamiento paralelo.

Preguntas de Respuesta Corta

Las RNNs enfrentan desafíos con dependencias de largo alcance porque procesan las secuencias de forma secuencial, lo que dificulta retener información de partes anteriores de una secuencia larga. Además, el problema de los gradientes que desaparecen durante la retropropagación limita el aprendizaje efectivo de dependencias distantes.
En el mecanismo de atención:
- Query (Q): Representa el token para el cual el modelo busca contexto relevante.
- Key (K): Codifica las características de todos los tokens en la secuencia.
- Value (V): Contiene la información asociada con cada token.El modelo usa el producto punto de Q y K para calcular puntuaciones de atención, que luego se utilizan para ponderar los valores (V) y generar una representación final consciente del contexto.

Pregunta Basada en Código

Solución:

import numpy as np

def scaled_dot_product_attention(Q, K, V):
    """
    Compute scaled dot-product attention.
    Q: Queries
    K: Keys
    V: Values
    """
    d_k = Q.shape[-1]
    scores = np.dot(Q, K.T) / np.sqrt(d_k)  # Scaled dot product
    weights = np.exp(scores) / np.sum(np.exp(scores), axis=-1, keepdims=True)  # Softmax
    output = np.dot(weights, V)  # Weighted sum of values
    return output, weights

# Example inputs
Q = np.array([[1, 0, 1]])
K = np.array([[1, 0, 1], [0, 1, 0], [1, 1, 0]])
V = np.array([[0.5, 1.0], [0.2, 0.8], [0.9, 0.3]])

output, weights = scaled_dot_product_attention(Q, K, V)
print("Attention Weights:\n", weights)
print("Attention Output:\n", output)

¡Felicidades!

Respuestas

Preguntas de Opción Múltiple

c) Permitir que las máquinas procesen, comprendan y generen lenguaje humano.
b) Ignora el orden y el contexto de las palabras.
c) Aprendizaje supervisado.
b) Introducir no linealidad al modelo.
b) Capturan relaciones semánticas entre palabras.

Preguntas de Verdadero/Falso

Falso - La self-attention permite que los tokens atiendan a todos los demás tokens en una secuencia, no solo a los precedentes.
Verdadero - La atención dispersa reduce el cálculo al enfocarse en subconjuntos relevantes.
Falso - Los Transformers eliminan la necesidad de RNNs al usar mecanismos de atención y procesamiento paralelo.

Preguntas de Respuesta Corta

Las RNNs enfrentan desafíos con dependencias de largo alcance porque procesan las secuencias de forma secuencial, lo que dificulta retener información de partes anteriores de una secuencia larga. Además, el problema de los gradientes que desaparecen durante la retropropagación limita el aprendizaje efectivo de dependencias distantes.
En el mecanismo de atención:
- Query (Q): Representa el token para el cual el modelo busca contexto relevante.
- Key (K): Codifica las características de todos los tokens en la secuencia.
- Value (V): Contiene la información asociada con cada token.El modelo usa el producto punto de Q y K para calcular puntuaciones de atención, que luego se utilizan para ponderar los valores (V) y generar una representación final consciente del contexto.

Pregunta Basada en Código

Solución:

import numpy as np

def scaled_dot_product_attention(Q, K, V):
    """
    Compute scaled dot-product attention.
    Q: Queries
    K: Keys
    V: Values
    """
    d_k = Q.shape[-1]
    scores = np.dot(Q, K.T) / np.sqrt(d_k)  # Scaled dot product
    weights = np.exp(scores) / np.sum(np.exp(scores), axis=-1, keepdims=True)  # Softmax
    output = np.dot(weights, V)  # Weighted sum of values
    return output, weights

# Example inputs
Q = np.array([[1, 0, 1]])
K = np.array([[1, 0, 1], [0, 1, 0], [1, 1, 0]])
V = np.array([[0.5, 1.0], [0.2, 0.8], [0.9, 0.3]])

output, weights = scaled_dot_product_attention(Q, K, V)
print("Attention Weights:\n", weights)
print("Attention Output:\n", output)

¡Felicidades!

Compra este libro