Apple ha lanzado un modelo de inteligencia artificial (IA) llamado OpenELM (Open Efficient Language Model), junto con su código, pesos, conjuntos de datos y procesos de entrenamiento.
Al igual que Google, Samsung y Microsoft, que se centran en el desarrollo de modelos de IA generativos tanto en ordenadores como en dispositivos móviles, Apple también se ha unido a esta tendencia. Esto marca el nacimiento de una nueva familia de modelos de lenguaje abiertos (LLMs) capaces de funcionar en dispositivo sin necesidad de servidores en la nube.
OpenELM se lanzó recientemente en Hugging Face, y consiste en varios modelos pequeños diseñados para realizar tareas de generación de texto de manera eficiente.
La familia de modelos OpenELM consta de ocho miembros, con cuatro modelos pre-entrenados y cuatro modelos ajustados, con tamaños de parámetros que van desde 270 millones hasta 3 mil millones (3B). El modelo Phi-3 de Microsoft tiene 3.8 mil millones de parámetros (3.8B).
La pre-entrenación es un método importante para que los modelos grandes generen texto continuo y utilizable, mientras que la ajustada permite a los modelos responder a solicitudes específicas del usuario con mayor relevancia. Específicamente, los modelos pre-entrenados suelen completar solicitudes agregando nuevo texto a las palabras de inicio. Por ejemplo, cuando se enfrentan a la solicitud “enseñame cómo hacer pan”, el modelo puede no proporcionar instrucciones paso a paso sino responder
con “usa un horno doméstico para hornear”. Este problema se puede solventar mediante el finetunning.
OpenELM mejora la efectividad de los modelos de lenguaje “Transformer” al adoptar una estrategia de escalado jerárquico y ajustada después de pre-entrenarse en conjuntos de datos públicos. Por lo tanto, las capas Transformer de OpenELM no tienen el mismo conjunto de parámetros sino que tienen configuraciones y parámetros diferentes. Esta estrategia mejora significativamente la precisión del modelo. Por ejemplo, con un capacidad de aproximadamente mil millones de parámetros (1B), la precisión de
OpenELM es un 2,36% más alta que la de OLMo, y el número de tokens requeridos para pre-entrenamiento se reduce a la mitad.
Apple ha lanzado los pesos del modelo OpenELM bajo su licencia “Sample Code License”, así como varios puntos de control, estadísticas de rendimiento del modelo e instrucciones para pre-entrenamiento, evaluación, ajustada y optimización de eficiencia de parámetros durante el entrenamiento. Los internautas comentaron: “Se puede decir que es muy amigable con los desarrolladores, después de todo, una gran parte de la dificultad de las redes profundas reside en el ajuste de parámetros”.
La licencia “Sample Code License” de Apple en principio no prohíbe el uso comercial o modificación; solo requiere que “si se redistribuye software de Apple en su totalidad y sin modificar, debe retener este aviso y el siguiente texto y disclaimer en todas las redistribuciones”.
Esta licencia no es una licencia de código abierto reconocida, y aunque Apple no ha impuesto restricciones excesivas, explícitamente establece que si se encuentra cualquier obra derivada basada en OpenELM que infrinja sus derechos, Apple se reserva el derecho de hacer valer reclamaciones de patentes.
Apple destaca además que estos modelos “no proporcionan ninguna garantía de seguridad. Por lo tanto, los modelos pueden generar salida inexacta, perjudicial, sesgada u ofensiva según las palabras de inicio“.
OpenELM es solo la última entrega de modelos de IA abiertos lanzados por Apple. El pasado octubre, Apple lanzó discretamente Ferret, un modelo de lenguaje abierto con capacidades multimodales, que rápidamente ganó atención.
En un paper del modelo publicado publicado en arXiv.org, Apple declaró que el desarrollo de OpenELM fue “liderado por Sachin Mehta, con contribuciones adicionales de Mohammad Rastegrai y Peter Zatloukal“, y que la familia de modelos tiene como objetivo “mejorar y empoderar a la comunidad de investigación abierta, fomentando esfuerzos de investigación futuros“.
Los modelos OpenELM de Apple vienen en cuatro tamaños, con parámetros que van desde 270 millones hasta 3.000 millones y dos versiones: pre-entrenado y afinado instruccionalmente.
Estos modelos se entrenaron previamente con un conjunto de datos públicos que consiste en un total de 1,8 billones de tokens de sitios web como Reddit, Wikipedia y arXiv.org. Los modelos OpenELM son adecuados para ejecutarse en portátiles comerciales e incluso algunos smartphones. Apple destacó en el artículo que realizaron pruebas de benchmarking en ambos “una estación de trabajo equipada con un CPU Intel i9-13900KF, 64 GB DDR5-4000 DRAM y 24 GB VRAM Nvidia RTX 4090 GPU ejecutando Ubuntu 22.04” y “un Apple MacBook Pro equipado con un chip de sistema M2 Max, 64 GiB RAM y ejecutando macOS 14.4.1“. Resulta interesante que todos los modelos en la nueva familia utilizan una estrategia de escalado por capas para asignar parámetros dentro de cada capa del modelo Transformer.
Según Apple, este enfoque proporciona resultados más precisos mientras mejora la eficiencia computacional.
Leave a Reply