Hace un tiempo, si querias por ejemplo, utilizar algo de inteligencia para realizar búsquedas en tus datos o documentos, debias sacar el dato fuera de la base de datos a un entorno Python, alli, los datos se procesaban con librerías como LangChan y de ser necesario, se enviaban a una API en la nube para que un modelo LLM nos devolviera la respuesta.
Todo ese camino es el mayor riesgo de seguridad y el principal cuello de botella que impedía la innovación en ese campo.
Con el lanzamiento de la Oracle Database 23ai y su actualización la 26ai, este paradigma cambió, ya no es necesario llevar el dato a la IA, Oracle ha traído la IA al dato.
Lo primero es la capacidad del "Chunking" nativo, el primer muro por asi decirlo.
Uno de los pasos más tediosos si queremos implementar RAG (Generación Aumentada por Recuperación) es el chunking o fragmentación de documentos.
Si tenemos documentos un primer paso es extraer de esos documentos el texto para luego, si este texto es extenso, dividirlo en trozos mas pequeños, eso es el chunking. Para hacerlo, anteriormente se creaban scripts programados en Python que sacaban el texto de la base de datos para trocearlo. Hoy, eso ya es historia.Gracias a la funcion VECTOR_CHUNKS y al paquete DBMS_VECTOR_CHAIN, la base de datos procesa el texto de forma nativa. ¿Y.. que ganamos con eso?
Pues fijate nada mas:
- Seguridad: ahora el texto sensible no reside en la memoria de un servidor de aplicaciones externo
- Simplicidad: todo se maneja con SQL, si sabes hacer SELECT, sabes hacer chunking para preparar los datos para la IA
- Soberania de datos: ¿donde vive la inteligencia...?
La duda que siempre ronda es la misma: ¿Como puedo aprovechar esto sin que mis secretos comerciales terminen entrenando el modelo de otra empresa competidora?
Y... la respuesta depende de la arquitectura que desees utilizar cuando la soberanía es innegociable:
Por un lado tenemos el On-Premise puro (todo local): Aqui estamos cuando la política es de aislamiento total. En ese caso puedes cargar modelos de embedding en formato ONNX directamente en la base de datos y conectar con un LLM local como Llama 3 mediante Ollama. Resultado: CERO bytes salen de tu instalación.Ahora..todo bien, ya elegimos una arquitectura.. todo para que...? pues para que podamos consultar directamente la base de datos con lenguaje natural y que la base de datos traduzca esto a una consulta compleja, la ejecute y nos devuelva una respuesta razonada... es el sueño de cualquier tomador de decisiones...
Y alli esta lo que realmente cambia el juego, el SELECT AI.
Pero no nos engañemos, lograr esto sin comprometer la privacidad es lo que separa un experimento de una solución empresarial real.
Mi visión al respecto es clara: La IA no debe, no puede ser un parche externo sino algo intrínseco, algo que forme parte de nuestra infraestructura de datos. En un mundo donde la información es el activo mas valioso, la soberanía no es un lujo, es una obligación.






Comentarios
Publicar un comentario