The Power of Small
En los últimos dos años, los grandes modelos de lenguaje (LLMs, por sus siglas en inglés) han ganado popularidad, impulsados por la fascinación generalizada con ChatGPT y otras aplicaciones de inteligencia artificial generativa.
La impresionante capacidad de estos modelos para generar contenido único y extraer ideas a partir de enormes conjuntos de datos ha captado la atención del mundo, dando lugar a nuevas herramientas y aplicaciones que consolidan aún más su impacto cultural.
Barreras para la adopción de la IA generativa
Sin embargo, en el ámbito empresarial, «más grande» no siempre significa «mejor». Existen dos problemas principales con los LLM que dificultan que las organizaciones aprovechen el potencial de la IA generativa:
- Modelos generales de propósito amplio: Muchos LLM están diseñados como soluciones de «talla única», con el objetivo de abarcar una amplia gama de tareas. Para las empresas, esto tiene un valor limitado. Un modelo pensado para «la empresa promedio» no funciona porque, en realidad, no existe tal cosa como una empresa promedio.
- Falta de transparencia y personalización: Muchos LLM propietarios son una «caja negra» que no permite entender los datos con los que fueron entrenados. Además, a menudo no ofrecen la posibilidad de ajustarlos con datos específicos de la empresa, lo que limita el verdadero valor de la inteligencia artificial. Esto hace que las organizaciones sean las responsables del rendimiento del modelo, pero sin control ni visibilidad sobre su funcionamiento.
Estos problemas impiden que las empresas sepan qué modelos son seguros y fiables. Cuando las compañías no pueden elegir con eficacia qué soluciones de IA generativa son las más adecuadas para sus sectores o, lo que es más importante, cuáles pueden operar dentro de sus requisitos legales, normativos y de procedencia, no pueden aprovechar plenamente el poder de la IA generativa.
El camino a seguir
Para adoptar con éxito la IA generativa las empresas necesitan modelos que cumplan tres requisitos fundamentales:
- Eficiencia en rendimiento y costes: Los modelos no solo deben funcionar, sino hacerlo de manera rentable para escalar su uso. Los modelos más grandes, con más parámetros y tokens, son demasiado costosos para muchos casos prácticos. Los modelos eficientes son la inversión más lógica.
- Transparencia de los datos: Sin visibilidad, no hay control. Las empresas necesitan modelos transparentes que permitan obtener resultados precisos y confiables.
- Flexibilidad y opciones: Nunca existirá un modelo único que resuelva todas las necesidades. Las organizaciones necesitan soluciones que puedan adaptarse a casos de uso específicos y únicos de cada empresa.
#ThePowerofSmall
Para satisfacer estas necesidades, las empresas están buscando alternativas a los LLM genéricos y descubriendo el potencial de los modelos de lenguaje pequeños (SLM).
Aunque han recibido menos atención, los SLM ofrecen ventajas notables: eficiencia energética, transparencia en los datos y un rendimiento que puede igualar o superar al de los modelos más grandes, siendo la clave para la adopción responsable de la IA sin obstaculizar la innovación.
Aunque no existe un límite oficial, todo lo que esté por debajo de 30.000 millones de parámetros suele considerarse un SLM, y ofrecen varias ventajas clave.
Además de requerir un menor coste y energía para su funcionamiento, los modelos pequeños también pueden ofrecer una mayor transparencia e integridad de los datos. Mientras que muchos LLM se construyen a partir de datos públicos de Internet, incluyendo sesgos e información irrelevante, está surgiendo una nueva generación de modelos más pequeños que se construyen a partir de conjuntos de datos depurados y filtrados para tareas específicas. Así se reducen riesgos como los resultados sesgados e inapropiados, al tiempo que se permite a las organizaciones saber qué datos contienen sus modelos.
Con este modelo de base fiable, las empresas pueden añadir sus propios datos con confianza, que es donde se puede desbloquear el verdadero valor de la IA.
Código abierto
En IBM, creemos que cuando los modelos básicos son de código abierto, las organizaciones tienen la mejor oportunidad de crear modelos especializados y perfeccionados con sus propios datos. Para atender al creciente número de empresas que se embarcan en este camino, IBM ha puesto en código abierto muchos de sus modelos fundacionales de la familia Granite, que incluyen SLM personalizables entrenados con conjuntos de datos transparentes y filtrados.
Combinando un pequeño modelo Granite con datos empresariales, creemos que las empresas pueden conseguir un rendimiento específico para cada tarea capaz de rivalizar a modelos más grandes por una fracción del coste. Los últimos modelos Granite de IBM tienen un coste entre 3 y 23 veces inferior al de los grandes modelos de última generación en varias de las primeras pruebas de concepto. Pero, menor coste no significa menor rendimiento. Al contrario, se ha demostrado que los modelos de lenguaje de Granite superan o igualan a modelos de tamaño similar de los principales proveedores en muchas pruebas comparativas académicas y del sector.
Además, nuevas técnicas como InstructLab -presentada por IBM y RedHat en mayo- están facilitando la incorporación de datos empresariales en un LLM. InstructLab permite el desarrollo continuo de modelos fundacionales a través de una serie de contribuciones incrementales, de forma muy similar al desarrollo normal de software de código abierto.
Reflexiones finales
Hemos llegado a un momento emocionante en el ciclo de adopción de la inteligencia artificial, donde las especulaciones sobre lo que la IA generativa puede ofrecer se están materializando en realidades empresariales. Muchas organizaciones están descubriendo que el inmenso poder de los grandes modelos de lenguaje no es la única forma de aprovechar los beneficios de la IA generativa. Modelos más pequeños y especializados pueden proporcionar la eficiencia, confianza, flexibilidad y rendimiento que necesitan, a un coste más bajo tanto para su negocio como para el medio ambiente.
Descubre más sobre los modelos Granite de IBM en https://www.ibm.com/granite