Descubriendo Microsoft Fabric
Bienvenidos/as a un nuevo artículo en el mejor blog de Cloud and Data. En el post de hoy hablamos de uno de los temas más sonados en estas últimas semanas: Microsoft Fabric.
Y ¿Qué es Microsoft Fabric?
Microsoft lanzó hace unas semanas una nueva suite de productos bajo el paraguas de Microsoft Fabric. Fabric es un conjunto completo de herramientas que permite a los clientes almacenar, gestionar y analizar los datos que manejan sus aplicaciones más importantes.
También integra productos que satisfacen las necesidades de todos los usuarios de datos de una empresa, desde ingenieros que se ocupan de los aspectos técnicos del procesamiento de datos hasta analistas que desean obtener información y tomar decisiones a partir de los datos. Con Fabric, Microsoft ha llevado su oferta a un nuevo nivel de integración y facilidad de uso.
¿Por qué se diferencia Microsoft Fabric?
Es la forma en que Microsoft ha simplificado y unificado su arquitectura de datos con un único lago de datos (Data Lake), llamado OneLake, que puede almacenar y permitir el acceso a todo tipo de datos de diferentes fuentes y aplicaciones.
Este enfoque ofrece importantes ventajas a los clientes en términos de ahorro de costes, transparencia, flexibilidad, gobernanza y calidad de los datos.
OneLake se ha diseñado para ser el repositorio central no sólo de los datos generados por los propios servicios de software de Microsoft, sino también de los datos procedentes de fuentes externas, como aplicaciones de terceros. También, proporciona una experiencia y una interfaz coherentes para los usuarios, independientemente del tipo o formato de los datos.
A lo largo de los años, las empresas tecnológicas han adquirido o desarrollado decenas de herramientas de software para diversas tareas relacionadas con los datos y el análisis, como la inteligencia empresarial, la ciencia de datos, el aprendizaje automático y la transmisión en tiempo real. Pero en gran medida han unido estas herramientas de forma fragmentaria, sin crear una plataforma coherente y sin fisuras.
Como resultado, los clientes tienen que lidiar con un panorama complejo y fragmentado de herramientas y bases de datos, cada una con su propio aprovisionamiento, tarificación y agrupación de datos. Esto genera ineficacia para los clientes, que tienen que dedicar más tiempo y dinero a gestionar su infraestructura de datos.
También supone un impuesto de integración a los clientes, a los que se cobra por separado por los recursos de computación y almacenamiento de cada servicio.
Microsoft Fabric promete eliminar esta complejidad ofreciendo una sola copia de los datos, una sola experiencia y una sola interfaz.
¿Cómo consigue Microsoft esta simplicidad y unificación con OneLake?
La clave está en que OneLake almacena una única copia de todos los datos de los distintos servicios de Microsoft en un formato común, denominado (Apache) Parquet. Se trata de un formato de archivo de código abierto muy utilizado en el sector y que organiza los datos por columnas.
Esto facilita y agiliza la consulta y el análisis de los datos. Cada vez que los clientes añaden o actualizan datos en sus sistemas, Fabric los guarda automáticamente en OneLake en formato Parquet, independientemente de su formato original. Esto significa que se puede acceder y consultar los datos desde OneLake directamente, sin tener que pasar por múltiples fuentes o servicios.
Por ejemplo, si un cliente desea utilizar la herramienta de inteligencia empresarial de Microsoft Power BI, para analizar datos del almacén de datos de Microsoft Synapse, no tiene que enviar una consulta a Synapse.
Power BI simplemente recupera los datos de OneLake. Esto reduce el número de consultas a través de los servicios y disminuye el coste para los clientes, a los que se cobra por un único almacenamiento y cubo de datos, en lugar de por varios.
Simplifica los Orígenes de Datos
La simplicidad y unificación de OneLake también se extiende a los datos procedentes de fuera del ecosistema de Microsoft. OneLake almacena sus tablas de datos en un formato de código abierto denominado Delta Lake, que crea una única capa de metadatos que convierte los datos brutos de diversas fuentes en un formato común que puede ser analizado por cualquier motor de cálculo del sector.
Microsoft facilita a los clientes la transformación de datos procedentes de servicios de terceros con Data Factory, que ofrece más de 150 conectores preconstruidos.
Microsoft también está trabajando en formas de automatizar el proceso de transformación, en lugar de depender del método tradicional y lento de extracción, transformación y carga (ETL).
Microsoft Fabric puede soportar escenarios multi-nube. Con una función llamada Shortcuts o Atajos, OneLake puede virtualizar el almacenamiento de datos en S3 de Amazon y el almacenamiento de Google (próximamente).
En 2019, Microsoft lanzó Synapse, que combinaba varios servicios, como Data Lake y Data Warehouse, en un único Hub. Pero Fabric es la integración definitiva, ya que reúne Synapse, Power BI y otros servicios de datos como una única oferta de software como servicio (SaaS).
Esto significa que los ingenieros de datos no tienen que ocuparse de aprovisionar unidades de computación, lo que simplifica su trabajo. Al conectar las fuentes de datos, Fabric mejora la coherencia y fiabilidad de los datos. Al proporcionar un único lugar al que acudir, es como ofrecer una ventana única para mirar a través de la gestión de datos para la seguridad, la gobernanza, la integración y el descubrimiento.
Si los clientes desean aplicar reglas de seguridad a sus datos, pueden hacerlo en gran medida a nivel de OneLake. Y todas las aplicaciones Fabric que accedan a los datos tendrán que seguir esas reglas. Los archivos llevarán las mismas reglas, incluso llevarán el mismo cifrado si se envían fuera de Fabric de Microsoft.
¿Que pasa con Lakehouse?
Una de las áreas en las que Microsoft se ha quedado rezagada con respecto a algunos de sus competidores es la denominada Lakehouse, que combina dos tecnologías: un lago de datos (Data Lake) para almacenar los datos de una empresa y un almacén de datos (Data Mart) para analizarlos.
Esta tecnología se ha popularizado debido al auge de aplicaciones como la inteligencia artificial, que requieren grandes cantidades de datos y análisis. Databricks ha sido pionera en este espacio.
Microsoft tiene su propia oferta en este ámbito, pero también mantiene una estrecha colaboración con Databricks, ofreciendo su soporte en Azure. Fabric acorta distancias con Databricks y pretende superarla. Fabric extiende el formato abierto iniciado por Databricks al resto de la pila de datos de Microsoft, que es más completa.
La experiencia unificada de Microsoft y su paso a la oferta SaaS podrían ayudar a Synapse de Fabric a dar el salto definitivo. Databricks sigue siendo una oferta PaaS, lo que significa que los ingenieros de datos todavía tienen que hacer más trabajo y especificar cosas como el número de nodos que desean para ejecutar los trabajos de procesamiento.
Microsoft Fabric combina su fortaleza en inteligencia empresarial (Power BI) con la ciencia de datos, y añade otras capacidades, como la detección de patrones y los flujos de trabajo. Tambien está intentando tender un puente entre el BI y la IA.
Y hasta aquí el post de hoy. Si te ha gustado, puede que te interesen nuestros últimos artículos:
4 Ajustes de seguridad imprescindibles en Azure AD para evitar un ciberataque
Incremental Refresh & Real Time con Direct Query en Power BI
Cómo configurar pgbackrest en PostgreSQL para realizar backups a Azure
Si estas trabajando en un proyecto de Analítica de Datos, en Aleson ITC podemos ayudarte.
Marketing and Communications Specialist. International Trade, Business Management, SEO, PPC.