Apuntes sobre Modelos de Lenguaje

Comparti en tus redes

Inteligencia Artificial – Historia – Conceptos y Usos actuales. Material Introductorio para el encuentro sobre IA y el Asistente GPT de Consensos del Gabinete Multisectorial, organizado por la Multisectorial Federal de la República Argentina, que tendrá lugar este Jueves 28 de Noviembre para las militancias multisectoriales inscriptas en todo el país. La charla estará a cargo de María del Carmen Romano.

PDF completo del texto introductorio luego de estos párrafos finales. Se adjunta Audiolibro del Documento Completo en PDF.

Por Analía Mesa para Argentina en Red

Importante encuentro de presentación del modelo de prueba que la Multisectorial Federal puso a disposición de las militancias. El Asistente de Consensos del Gabinete Multisectorial sobre el que siguen cargando material producido por los equipos durante 2024. Este es el Video en que se agradece la alta participación inscripta para mañana a las 20:00 hs.

Lic. María del Carmen Romano

Grandes Modelos de Lenguaje

Los grandes modelos de lenguaje (LLM, Large Language Models) consisten en tecnología de IA avanzada que se centra en comprender y analizar texto. Son más precisos que los algoritmos de aprendizaje automático tradicionales, porque pueden
comprender las complejidades del lenguaje natural. Para ello, los grandes modelos de lenguaje requieren una gran cantidad de datos de entrenamiento, como libros y artículos, para aprender el funcionamiento del lenguaje. Pueden generar respuestas significativas y proporcionar información valiosa procesando enormes cantidades de texto. Los LLM son ahora codiciados para tareas de traducción, de respuesta a preguntas y para completar textos. Con más avances, podemos esperar modelos de lenguaje incluso más potentes en el futuro.
¿Cuál es el proceso de entrenamiento de los grandes modelos de lenguaje
(LLM)?


El proceso de entrenamiento de los grandes modelos de lenguaje (LLM) se
compone de varios pasos
:

  • Recopilación de datos: se recopila un conjunto de datos de texto diverso
    procedente de varios orígenes.
  • Preprocesamiento: se limpian y estandarizan los datos del texto
    recopilado.
  • Tokenización: se divide el texto preprocesado en unidades más
    pequeñas, llamadas «tokens».
  • Selección de arquitectura: se elige la arquitectura de aprendizaje
    profundo adecuada, como un modelo transformador.
  • Entrenamiento: el propio proceso de entrenamiento por el que el
    modelo aprende los datos.
  • Mejora de los resultados: se optimiza el modelo introduciendo ajustes
    precisos.
  • Evaluación: se evalúan los resultados y la precisión del modelo.
  • Implementación: se implementa el modelo en un sistema en
    funcionamiento para su uso.
  • ¿Qué es una red neuronal?
    Una red neuronal es un método de la inteligencia artificial que enseña a las
    computadoras a procesar datos de una manera similar a como lo hace el cerebro
    humano. Se trata de un tipo de proceso de machine learning llamado aprendizaje
    profundo, el cual utiliza los nodos o las neuronas interconectados en una estructura de
    capas que se parece al cerebro humano. Crea un sistema adaptable que las
    computadoras utilizan para aprender de sus errores y mejorar continuamente. De esta
    forma, las redes neuronales artificiales intentan resolver problemas complicados,
  • 8 como la realización de resúmenes de documentos o el reconocimiento de rostros, con
    mayor precisión.
    ¿Cómo funcionan las redes neuronales?
    El cerebro humano es lo que inspira la arquitectura de las redes neuronales. Las células
    del cerebro humano, llamadas neuronas, forman una red compleja y con un alto nivel
    de interconexión y se envían señales eléctricas entre sí para ayudar a los humanos a
    procesar la información. De manera similar, una red neuronal artificial está formada
    por neuronas artificiales que trabajan juntas para resolver un problema. Las neuronas
    artificiales son módulos de software, llamados nodos, y las redes neuronales
    artificiales son programas de software o algoritmos que, en esencia, utilizan sistemas
    informáticos para resolver cálculos matemáticos.
    ¿Cuáles son los tipos de redes neuronales?
    Las redes neuronales artificiales pueden clasificarse en función de cómo fluyen los
    datos desde el nodo de entrada hasta el nodo de salida. A continuación, se indican
    varios ejemplos:
    Redes neuronales prealimentadas
    Las redes neuronales prealimentadas procesan los datos en una dirección, desde el
    nodo de entrada hasta el nodo de salida. Todos los nodos de una capa están
    conectados a todos los nodos de la capa siguiente. Una red prealimentada utiliza un
    proceso de retroalimentación para mejorar las predicciones a lo largo del tiempo.
    Algoritmo de retropropagación
    Las redes neuronales artificiales aprenden de forma continua mediante el uso de
    bucles de retroalimentación correctivos para mejorar su análisis predictivo. En pocas
    palabras, puede pensar en los datos que fluyen desde el nodo de entrada hasta el
    nodo de salida a través de muchos caminos diferentes en la red neuronal. Solo un
    camino es el correcto: el que asigna el nodo de entrada al nodo de salida correcto.
    Para encontrar este camino, la red neuronal utiliza un bucle de retroalimentación que
    funciona de la siguiente manera:
  • Cada nodo intenta adivinar el siguiente nodo de la ruta.
  • Se comprueba si la suposición es correcta. Los nodos asignan valores de peso
    más altos a las rutas que conducen a más suposiciones correctas y valores de
    peso más bajos a las rutas de los nodos que conducen a suposiciones
    incorrectas.
  • Para el siguiente punto de datos, los nodos realizan una predicción nueva con
    las trayectorias de mayor peso y luego repiten el paso 1.
    ¿Qué es el prompting en español?
  • 9 En términos simples, el prompting es una técnica que utiliza preguntas u otro tipo de
    estímulos para motivar a las personas a realizar una determinada acción o para que
    recuerden algo en particular. En otras palabras, el prompting es una forma de llamar la
    atención de las personas y hacer que actúen de cierta manera.
    ¿Qué son los prompts en IA?
    Un prompt en el contexto de la inteligencia artificial es una instrucción o texto inicial
    proporcionado a una herramienta generativa de IA para dirigir la generación de
    respuestas o resultados específicos.
    La inteligencia artificial y los modelos de lenguaje grande (LLM) están cambiando la
    forma en que interactuamos con la tecnología.
    En 2024, los modelos más destacados son ChatGPT de OpenAI, Microsoft Copilot,
    Claude de Anthropic y Google Gemini.
    Comparativa Final: Modelos LLM según parámetros técnicos y de uso
  • Mejor para procesamiento multimodal: GPT-4 (ChatGPT).
  • Mejor relación costo-rendimiento: GPT-4o mini.
  • Mejor integración con herramientas de productividad: Microsoft Copilot.
  • Mejor para análisis de textos largos: Claude de Anthropic.
  • Mejor para generación de imágenes y conexión a internet: Gemini de Google.
    Estructura de la IA
    ¿Cuáles son los componentes clave de la arquitectura de aplicaciones de IA?
    La arquitectura de inteligencia artificial consta de cuatro capas fundamentales. Cada
    una de estas capas utiliza tecnologías distintas para desempeñar una función
    determinada. Lo siguiente es una explicación de lo que ocurre en cada capa.
    Capa 1: capa de datos
    La IA se basa en varias tecnologías, como machine learning, procesamiento del
    lenguaje natural y reconocimiento de imágenes. Los datos son fundamentales para
    estas tecnologías, que forman la capa fundamental de la IA. Esta capa se centra
    principalmente en preparar los datos para las aplicaciones de IA. Los algoritmos
    modernos, especialmente los de aprendizaje profundo, exigen enormes recursos
    computacionales. Por lo tanto, esta capa incluye un hardware que actúa como una
    subcapa, que proporciona una infraestructura esencial para el entrenamiento de los
    modelos de IA. Puede acceder a esta capa como un servicio completamente
    gestionado proporcionado por un proveedor de nube externo.
    Capa 2: capa de esquemas de ML y algoritmos
  • 10 Los ingenieros crean esquemas de ML en colaboración con expertos en datos para
    satisfacer los requisitos de casos de uso empresariales específicos. Luego, los
    desarrolladores pueden usar funciones y clases prediseñadas para construir y entrenar
    modelos fácilmente. Algunos ejemplos de estos esquemas son TensorFlow, PyTorch y
    scikit-learn. Estos esquemas son componentes vitales de la arquitectura de la
    aplicación y ofrecen funcionalidades esenciales para crear y entrenar modelos de IA
    con facilidad.
    Capa 3: capa de modelos
    En la capa de modelos, el desarrollador de la aplicación implementa el modelo de IA y
    lo entrena utilizando los datos y algoritmos de la capa anterior. Esta capa es
    fundamental para las capacidades de toma de decisiones del sistema de IA.
    Estos son algunos de los componentes clave de esta capa.
    Estructura de modelos
    Esta estructura determina la capacidad de un modelo, que comprende capas,
    neuronas y funciones de activación. Según el problema y los recursos, se puede elegir
    entre redes neuronales de retroalimentación, redes neuronales convolucionales (CNN)
    u otras.
    Parámetros y funciones de modelos
    Los valores aprendidos durante el entrenamiento, como los pesos y los sesgos de las
    redes neuronales, son cruciales para las predicciones. Una función de pérdida evalúa el
    rendimiento del modelo y tiene como objetivo minimizar la discrepancia entre los
    resultados pronosticados y los reales.
    Optimizador
    Este componente ajusta los parámetros del modelo para reducir la función de pérdida.
    Varios optimizadores, como el descenso de gradiente y el algoritmo de gradiente
    adaptativo (AdaGrad), tienen diferentes propósitos.
    Capa 4: capa de aplicación
    La cuarta capa es la capa de aplicación, que es la parte de la arquitectura de IA
    orientada al cliente. Puede solicitar a los sistemas de IA que completen determinadas
    tareas, generen información, proporcionen información o tomen decisiones basadas
    en datos. La capa de aplicación permite a los usuarios finales interactuar con los
    sistemas de IA.
    ¿Qué es el machine learning?
    Los algoritmos de machine learning son algoritmos matemáticos que permiten a las
    máquinas aprender imitando la forma en la que aprendemos los humanos, aunque el
    machine learning no son solo algoritmos es también el enfoque desde el que se aborda
  • 11 el problema. El machine learning es básicamente una forma de conseguir inteligencia
    artificial.
    ¿Qué es el deep learning?
    El deep learning (DL) forma parte del aprendizaje automático. De hecho, se puede
    describir como la nueva evolución del machine learning. Se trata de un algoritmo
    automático que imita la percepción humana inspirada en nuestro cerebro y la
    conexión entre neuronas. El DL es la técnica que más se acerca a la forma en la que
    aprendemos los humanos.
    La mayoría de los métodos de deep learning usan arquitectura de redes neuronales. Es
    por eso por lo que a menudo se conoce al deep learning como “redes neuronales
    profundas” o “deep neural networks”. Se le conoce como “deep” en referencia a las
    capas que tienen estas redes neuronales.
    ¿Cuál es la diferencia entre ambos?
    Explicado de forma simple, tanto el machine learning como el deep learning imitan la
    forma de aprender del cerebro humano. Su principal diferencia es, pues, el tipo de
    algoritmos que se usan en cada caso, aunque el deep learning se parece más al
    aprendizaje humano por su funcionamiento como neuronas. El machine learning
    acostumbra a usar árboles de decisión y el deep learning redes neuronales, que están
    más evolucionadas. Además, ambos pueden aprender de forma supervisada o no
    supervisada

Audiolibro del Documento Completo

PDF del Documento Completo

hola

Please follow and like us:
0
fb-share-icon20
Tweet 20
Pin Share20
Argentina en Red

Dejá un comentario

Desarrollo Web Efemosse