Google Next 2019 – Dag 2 Fokus: Data & Analys

11 april 2019

Då har jag precis tagit mig igenom dag 2 på Google Next. Vilken dag det varit! En rad spännande releaser för mig som gillar data och analys!
Fokus från Google just nu är på temat ”Radical simplicity” där man vill förenkla processen att komma åt och använda data. Dagens favorit på det temat var Fusion, ett nytt verktyg för flytt av data, som det kommer mer om nedan. Men det var även intressant att se Google snegla på trotjänaren Excel och nu möjliggör att koppla upp Google Sheets mot Big Query a’la OLAP, kallat Connected Sheets. En annan spännande spaning var att Google vill förenkla användandet av AI/ML i form av Auto ML tables som såg riktigt lovande ut.
Nedan kommer en del av de saker jag plockade upp under dagen.

 

Cloud Data Fusion

Fusion är en ny tjänst för att bygga dataflöden grafiskt. Den är en så kallad SaaS-tjänst, dvs Google löser allt vad maskiner och installation heter. Fusion har stora likheter med gamla goda ETL-flöden vad det gäller utseende för utvecklaren, fast laddad med en massa ny teknik under skalet.
Den stödjer att man bygger flöden som både kan hantera batch samt streaming-scenarion.
Fusion fortsätter också på temat från dag 1 där Google vill förenkla övergången till molnet. För Fusions del kommer det som en massa uppkopplingsmöjligheter mot lokala datakällor med allt från Oracle till IBM och med möjlighet att exekvera flödena on prem men styrda från Google molnet.
Själva flödena kan kompileras och köras på olika exekverings motorer där det från start är Spark eller Map Reduce och inom kort dataflow.

 

Big Query BI engine

Detta är en ny tjänst som fungerar som ett nytt cache-lager ovanpå Big Query för att på ett bättre sätt stödja adhoc frågor och mer interaktiva databasfrågor så som t.ex. dashboards, väldigt likt så kallade extrakt i Tableau.
Det är under skalet en column store minnesdatabas och just nu är detta bara i beta och med en limit på max 10GB i storlek. Tyvärr är det dessutom bara Data studio som kan nyttja detta, men flera leverantörer så som t.ex. Tableau ska vara på gång att implementera stöd.

 

Big Query

Inom Big Query var det en rad mindre uppdateringar. Tex ett API för att hantera förköp av compute, så kallade slots, som gör att inte kostnaden i Big Query kan skena. Det lanserades också att det går att köpa dessa så kallade slots från 500 istället för tidigare 2000. Tillsammans med detta går det nu också att tilldela resurser inom Big Query till olika användargrupper och delning mellan dessa grupper.
En integrationstjänst inom Big Query kallad Data Transfer har också lagts till vilket är en tjänst för att få in din egen data som färdiga dataset från tredjepartsleverantörer, tex Facebook, Apple Store eller Salesforce, med bara några klick.

 

Big Query ML

Även inom BigQuery ML, vilket är tjänsten för att köra AI/ML direkt i BigQuery, händer det saker. Här i form av att nya modeller lanseras i form av k-means clustering (i beta) samt matrix factorization (i alfa). Det blir också möjligt att bygga och importera
TensorFlow Neurala Nätverk (i alfa).

 

Data Catalog

En helt ny tjänst för att hantera metadata om ditt data, söka i det och integrera med säkerhet och IAM för att tex jobba med klassning och tagning av data och med hjälp av det bestämma vilka som får se vilken data med hjälp av dessa.

 

Connected Sheets

På samma sätt som man med OLAP kuber kan jobba med pivot tabeller i Excel nu kan ha pivot tabeller mot Big Query i Sheets.

 

Auto ML Tables

En riktigt spännande nyhet är Googles produkt för att hjälpa till att ge slutanvändare access till enklare maskininlärning med bara några klick.
Detta var bara ett axblock av det som diskuterats idag men helt klart spännande saker på gång och verkligen tydligt att molnleverantörerna satsar allt mer på verktyg för analys och hantering av data. Kul att följa och se vem som vinner.