¿Cómo es un almacén de datos en la nube?

Cuando un almacén de datos puede trabajar con datos no estructurados y un lago de datos puede ejecutar análisis, ¿cómo decide cuál usar? Depende de la frecuencia con la que necesite responder nuevas preguntas con datos.

Cada vez más, las empresas hacen eso en la nube para obtener mayor velocidad y menor costo. Más y más de esos datos ya pueden estar en la nube, así como los servicios con los que desea usar esos datos, señala la vicepresidenta corporativa de Azure, Julia White. «Cada vez más, a medida que los datos permanecen en la nube y se mueven a la nube, ya sea que se trate de aplicaciones SaaS o de aplicaciones que simplemente se están moviendo a la nube; los datos operativos están ahí y los clientes preguntan ‘¿por qué debería tomar mis datos operativos y descargarlos de la nube? -¿Las premisas solo por hacer mi analítica? Simplemente no tiene sentido «. (Aún hay mucha información local y habrá más a medida que crezca la tecnología de punta, pero muchos clientes mueven parte o todos los datos a la nube de todos modos, dice White, dependiendo de los problemas de cumplimiento).

Todas las empresas están investigando la IA «, y se dan cuenta rápidamente de que la analítica es la base de eso», señala White. «Comienzan a preguntar ‘¿cuál es el estado de mi analítica y mi almacén de datos?’, Y a menudo no es lo suficientemente bueno».

La popularidad de Power BI también está empujando a más clientes de Microsoft a la nube de análisis. «Cuando tienen estas poderosas visualizaciones de datos, comienzan a cuestionar sus capacidades analíticas:» Quiero saber qué sucede detrás de mi visualización de datos: me encanta Power BI y desearía que mis analíticas fueran más interesantes «, dice White. 19659014] Los clientes más sofisticados buscan analizar sus propios datos de Office Graph (que puede copiar a Azure Data Lake usando Azure Data Factory) o aprovechar la Open Data Initiative (ODI) entre Microsoft, Adobe y SAP (que se basa en Azure Data Lake y eventualmente integrará datos de muchos más proveedores de software). «Azure Data Lake está muy unido a Azure Data Warehouse y los clientes están utilizando Azure Data Warehouse para obtener más información y construir el moderno almacén de datos», dice White.

¿Qué servicio de datos?

Microsoft tiene una gama de servicios en la nube que todos se parecen un poco a un almacén de datos, el más obvio es el Almacén de datos de Azure SQL o ‘DW’ (como lo llama a menudo Microsoft), pero también está la Fábrica de datos de Azure, el Lago de datos de Azure, Databricks de Azure, Power BI y Azure Machine Learning, además de más servicios empaquetados como las herramientas de ventas de inteligencia artificial en Dynamics 365.

La ​​forma de darles un sentido es mirar no solo las herramientas que ofrecen, sino también a qué usuarios están sirviendo y cómo trabajan juntos. Esto se debe a que, con frecuencia, los datos que tiene una empresa están fragmentados en múltiples almacenes de datos y el primer paso para crear un almacén de datos moderno es integrar todos esos silos. Cuantos más almacenes de datos diferentes estén en Azure, más fáciles serán las conexiones, lo cual es una de las razones por las que Microsoft ofrece tantos servicios de datos diferentes. El otro, dice White, es que los clientes no están buscando una única herramienta que pueda hacer todo: «Hay un conjunto de opciones matizadas y realmente va a elegir, y optimizar lo que usa para sus propios escenarios. »

Azure DW es para ingenieros de datos que trabajan con datos curados. Pueden ser datos de una base de datos de SQL Server, pero también pueden ser datos que provienen de una tubería creada por los ingenieros de datos que usan Databricks o Spark y .NET para preparar datos de una fuente como Azure HDInsight.

Azure Data Factory es Otro servicio para ingenieros de datos que realizan la ingesta, transformación y orquestación de datos. Piense en ello como una herramienta ETL a escala de la nube que puede usar a través de una interfaz de arrastrar y soltar (debajo de las cubiertas, que en realidad es Logic Apps) o con el SDK de Python, Java o .NET si prefiere escribir código para hacerlo la transformación de datos y administrar los diferentes pasos de la tubería de datos a través de Databricks o HDInsight, en Azure Data Lake o en Power BI.

Power BI también puede realizar la transformación de datos utilizando Dataflows (también código libre), pero está previsto que sea Una característica de autoservicio para analistas de negocios. Los ingenieros de datos o los analistas de BI de tiempo completo podrían hacer los modelos semánticos con los que trabajan los usuarios de negocios, y Microsoft está agregando más integración con Azure DW a Power BI.

Los usuarios de Power BI pueden agregar AI a sus visualizaciones e informes. Algo de eso podría estar usando los Servicios Cognitivos precreados de Microsoft para cosas como el reconocimiento de imágenes y el análisis de sentimientos. Pero también podrían estar usando modelos de inteligencia artificial personalizados que los ingenieros de datos han creado para ellos en el servicio de Aprendizaje automático de Azure, utilizando toda esa información empresarial.

Un almacén cerca del lago

La complejidad de estos escenarios es la razón por la cual la línea entre los almacenes de datos y los lagos de datos es Empezando a verse un poco embarrado en la nube. Un almacén de datos tradicional le permite tomar datos de múltiples fuentes y usar la transformación ETL para colocar esos datos en un solo esquema y en un único modelo de datos en un software que está diseñado para responder preguntas que planea hacer una y otra vez.

Esas fuentes no No tiene que ser información relacional estructurada: la compatibilidad con PolyBase y JSON en SQL Server y Azure DW significa que puede conectar datos de tiendas no relacionales como HDFS, Cosmos DB, MySQL y MongoDB, así como Oracle, Teradata y PostgreSQL. Eso significa que un almacén de datos (o incluso un servidor SQL) puede parecerse más a un lago de datos.

Los lagos de datos le permiten tomar múltiples almacenes de datos, tanto estructurados como no estructurados, ingerirlos y almacenarlos en su formato nativo o algo parecido a ese formato, por lo que tiene múltiples modelos de datos y múltiples esquemas de datos y la flexibilidad para hacer nuevas preguntas con los mismos datos. (La variante de SQL utilizada para las consultas de Azure Data Lake se llama U-SQL, no solo porque es la próxima versión después de T-SQL, sino porque es posible que necesite un U-boat para ir a su lago de datos y descubrir qué hay escondido en las oscuras profundidades.)

Cuando tiene una pregunta que va a hacer repetidamente (como el análisis de ventas o el monitoreo de los tiempos de entrega para un panel) , puede crear un almacén de datos a partir de las partes relevantes de los datos. Pero si la pregunta cambia con el tiempo, o si necesita hacer nuevas preguntas, puede volver al lago de datos donde guarda los datos originales y crear otro almacén de datos para responder a esas preguntas.

La ​​combinación de ambos es lo que Microsoft significa por una moderna infraestructura de almacenamiento de datos. Puede tomar todo tipo de datos de diferentes lugares, trabajar con ellos en el lago de datos para cosas como analíticas en tiempo real, o usar el aprendizaje automático para descubrir patrones que le indiquen qué información puede obtener de los datos y combinarlos con lo familiar. herramientas de almacenamiento de datos para responder a esas preguntas de manera eficiente.

Microsoft no tiene un solo servicio para todo eso. Puede hacer diferentes partes de él con los diversos servicios de Azure, lo que significa que puede seleccionar y elegir las partes que necesita. Pero también significa que necesitará tener la experiencia en datos para construir su propio sistema específico.

Sé el primero en comentar

Dejar una contestacion

Tu dirección de correo electrónico no será publicada.


*