Esercitazione: Configurare database con mirroring di Microsoft Fabric da Azure Databricks

Il mirroring del database in Microsoft Fabric è una tecnologia SaaS aziendale basata sul cloud, senza necessità di ETL. Questa guida aiuta a creare un database speculare da Azure Databricks, il quale genera una copia di sola lettura, sincronizzata in modo continuo, dei dati di Azure Databricks in OneLake.

Prerequisiti

  • Un’area di lavoro Fabric.
  • Abilitare l'accesso ai dati esterni nel metastore. Per altre informazioni, vedere Abilitare l'accesso ai dati esterni nel metastore.
  • Creare o usare un'area di lavoro di Azure Databricks esistente con Unity Catalog abilitato.
  • Disporre del privilegio EXTERNAL USE SCHEMA sullo schema in Unity Catalog contenente le tabelle a cui Fabric accede.
  • Usare il modello di autorizzazioni di Fabric per impostare i controlli di accesso per cataloghi, schemi e tabelle in Fabric.

Creare un database rispecchiato su Azure Databricks

Segui questa procedura per creare un nuovo database con mirroring dal catalogo Unity di Azure Databricks.

  1. Vai al tuo spazio di lavoro in Fabric.

  2. Selezionare Nuovo elemento>Mirrored Azure Databricks catalog.

    Screenshot del portale Fabric di un nuovo elemento specchiato di Azure Databricks.

  3. Selezionare una connessione esistente se ne è stata configurata una o creare una nuova connessione.

    Per creare una connessione, è necessario essere un utente o un amministratore dell'area di lavoro di Azure Databricks. È possibile eseguire l'autenticazione nell'area di lavoro Azure Databricks usando Arganizational account o Service principal authentication.

    Note

    La scelta di autenticazione effettuata qui si applica all'autenticazione di Databricks e all'autorizzazione del catalogo Unity. Se è necessario accedere agli account di Azure Data Lake Storage (ADLS) Gen2 dietro un firewall, seguire la procedura per Abilitare l'accesso alla sicurezza di rete per l'account Azure Data Lake Storage Gen2 più avanti in questo articolo. Quando ADLS Gen2 è protetto da un firewall, l'identità dell'area di lavoro di Fabric è richiesta per accedere al firewall dello spazio di archiviazione, indipendentemente dal metodo di autenticazione scelto per la connessione Databricks.

  4. Dopo la connessione a un'area di lavoro Azure Databricks, nella pagina Scegliere le tabelle da un catalogo di Databricks selezionare il catalogo, gli schemi e le tabelle a cui si vuole aggiungere e accedere da Fabric usando l'elenco di inclusione o esclusione. Selezionare il catalogo e i relativi schemi e tabelle da aggiungere all'area di lavoro Fabric.

    È possibile visualizzare solo i cataloghi, gli schemi e le tabelle a cui si ha accesso. Per altre informazioni, vedere i privilegi del Catalogo Unity e gli oggetti proteggibili.

    Per impostazione predefinita, l'opzione Sincronizza automaticamente le modifiche future del catalogo per lo schema selezionato è abilitata. Per altre informazioni, vedere Mirroring Azure Databricks > Sincronizzazione metadati.

  5. Seleziona Avanti per continuare.

  6. Nella pagina Rivedi e crea, verificare i dettagli e, facoltativamente, modificare il nome dell'elemento del database replicato, che deve essere univoco nell'area di lavoro. Per impostazione predefinita, il nome dell'elemento speculare è il nome del catalogo.

  7. Selezionare Crea per continuare.

  8. Viene creato un elemento del catalogo di Databricks e per ogni tabella viene creato anche un collegamento di tipo Databricks corrispondente.

    Gli schemi che non dispongono di tabelle non vengono visualizzati.

  9. È anche possibile visualizzare un'anteprima dei dati quando si accede a un collegamento selezionando l'endpoint di analisi SQL. Apri l'elemento dell'endpoint di analisi SQL per avviare la pagina dell'Esploratore e dell'Editor di Query. È possibile eseguire query sulle tabelle Azure Databricks replicate tramite T-SQL in SQL Editor.

Creare scorciatoie Lakehouse per l'elemento del catalogo Databricks

È anche possibile creare scorciatoie da Lakehouse all'elemento del catalogo di Databricks per utilizzare i dati di Lakehouse e impiegare i notebook Spark.

  1. Prima di tutto, creare una lakehouse. Se si dispone già di una lakehouse in questa area di lavoro, è possibile usare una lakehouse esistente.
    1. Selezionare l'area di lavoro nel menu di navigazione.
    2. Selezionare + Nuovo>lakehouse.
    3. Specificare un nome per il lakehouse nel campo Nome e selezionare Crea.
  2. Nella visualizzazione Explorer del tuo lakehouse, nel menu Carica dati nel tuo lakehouse , in Carica dati nel tuo lakehouse, selezionare il pulsante Nuovo collegamento.
  3. Selezionare Microsoft OneLake. Selezionare un catalogo. Si tratta dell'elemento di dati creato nei passaggi precedenti. Quindi seleziona Avanti.
  4. Selezionare le tabelle all'interno dello schema e selezionare Avanti.
  5. Fare clic su Crea.
  6. Le scorciatoie sono ora disponibili nel Lakehouse da usare con gli altri dati Lakehouse. È anche possibile usare Notebook e Spark per eseguire l'elaborazione dei dati sui dati per queste tabelle del catalogo aggiunte dall'area di lavoro di Azure Databricks.

Creazione di un modello semantico

È possibile creare un modello semantico di Power BI basato sull'elemento sottoposto a mirroring e aggiungere o rimuovere manualmente le tabelle. Per altre informazioni sulla creazione e la gestione di modelli semantici, vedere Creare un modello semantico di Power BI.

Per un'esperienza ottimale, usare il browser Microsoft Edge per le attività di modellazione semantica.

Gestire le relazioni tra modelli semantici

Dopo aver creato un nuovo modello semantico basato sul database con mirroring, configura le relazioni tra le tabelle.

  1. Seleziona Modello di Layout da Esplora risorse nell'area di lavoro.
  2. Dopo aver selezionato Layout di modello, viene visualizzato un elemento grafico delle tabelle incluse come parte del modello semantico.
  3. Per creare relazioni tra tabelle, trascinare un nome di colonna da una tabella a un altro nome di colonna di un'altra tabella. Viene visualizzata una finestra popup per identificare la relazione e la cardinalità delle tabelle.

Abilitare l'accesso alla sicurezza di rete per l'account Azure Data Lake Storage Gen2

Configurare la sicurezza di rete per l'account di Azure Data Lake Storage (ADLS) Gen2 quando è configurato un firewall Archiviazione di Azure. Questa sezione si applica agli account di archiviazione di ADLS Gen2 dietro un firewall Archiviazione di Azure. L'archiviazione dell'area di lavoro di Azure Databricks protetta da un firewall di Archiviazione di Azure non è supportata.

Prerequisiti

  • Quando un firewall Archiviazione di Azure protegge ADLS Gen2, Fabric usa l'identità dell'area di lavoro per accedere al firewall. Anche se si seleziona Entità servizio per l'autenticazione ADLS nella scheda Network Security, è necessario consentire l'identità dell'area di lavoro nel firewall dell'account Archiviazione di Azure.

    • L'identità dell'area di lavoro viene usata per l'accesso al firewall di archiviazione. Un'entità servizio o OAuth viene usata per l'autenticazione di Databricks e l'autorizzazione del catalogo Unity.

    • Per abilitare il tipo di autenticazione dell'identità dell'area di lavoro (opzione consigliata), associare l'area di lavoro di Fabric a una capacità F. Per creare un'identità dell'area di lavoro, vedere Eseguire l'autenticazione con l'identità dell'area di lavoro.

  • È possibile associare un catalogo solo a un singolo account di archiviazione.

Abilitare l'accesso alla sicurezza di rete

  1. Quando si crea un nuovo catalogo con mirroring di Azure Databricks, nel passaggio Scegli dati selezionare la scheda Sicurezza di rete.

    Screenshot della scheda Sicurezza di rete in Databricks.

  2. Selezionare una connessione esistente all'account di archiviazione se ne è stata configurata una. 

    • Se non si dispone di una connessione ADLS esistente, creare una nuova connessione.  
    • L'URL dell'endpoint di archiviazione è il punto in cui vengono archiviati i dati del catalogo selezionato. L'endpoint deve essere la cartella specifica in cui sono archiviati i dati, anziché specificare l'endpoint a livello di account di archiviazione. Ad esempio, specificare https://<storage account>.dfs.core.windows.net/container1/folder1 anziché https://<storage account>.dfs.core.windows.net/.
    • Specificare le credenziali di connessione. I tipi di autenticazione supportati sono account aziendale, principale del servizio e identità dell'area di lavoro (scelta consigliata).

    Note

    Quando ADLS Gen2 è protetto da un firewall Archiviazione di Azure, Fabric usa l'identità dell'area di lavoro per attraversare il firewall indipendentemente dal tipo di autenticazione selezionato qui. Il tipo di autenticazione (entità servizio o account aziendale) controlla l'autenticazione di Databricks e l'autorizzazione del catalogo Unity, mentre l'identità dell'area di lavoro controlla l'accesso attendibile tramite il firewall di archiviazione. L'identità dell'area di lavoro deve essere consentita nel firewall dell'account Archiviazione di Azure anche se si seleziona un tipo di autenticazione diverso per la connessione ADLS.

  3. Nel portale di Azure fornire i diritti di accesso all'account di archiviazione in base al tipo di autenticazione selezionato nel passaggio precedente. Vai all'account di archiviazione nel portale di Azure. Selezionare Controllo di accesso (IAM). Selezionare +Aggiungi e Aggiungi assegnazione di ruolo. Per altre informazioni, vedere Assegnare ruoli di Azure tramite il portale di Azure.

    Assegnare un ruolo in base all'ambito della connessione:

    • Account di archiviazione: l'identità di autenticazione scelta richiede il ruolo Lettore dati BLOB di archiviazione nell'account di archiviazione.
    • Contenitore: l'identità di autenticazione selezionata deve disporre del ruolo Lettore dati BLOB di archiviazione sul contenitore.
    • Cartella all'interno di un contenitore (scelta consigliata): l'identità di autenticazione scelta richiede le autorizzazioni Lettura (R) ed Esegui (E) a livello di cartella. Se si usa Service Principal o Identità dell'area di lavoro come tipo di autenticazione, concedere a tale identità anche le autorizzazioni Execute sulla cartella radice del contenitore e su ogni cartella nella gerarchia che conduce alla cartella specificata.

    Per altre informazioni e procedure per concedere l'accesso ADLS, vedere Controllo di accesso ADLS.

  4. Abilita Accesso all'area di lavoro attendibile configurando una regola per l'istanza della risorsa per l'area di lavoro Fabric nell'account di archiviazione. Per istruzioni dettagliate, vedi Accesso all'area di lavoro attendibile e Database con mirroring in Secure Fabric da Azure Databricks.

Dopo aver stabilito la connessione, viene creato un collegamento alle tabelle del catalogo Unity per le tabelle il cui nome dell'account di archiviazione corrisponde all'account di archiviazione specificato nella connessione ADLS. I collegamenti non vengono creati per le tabelle il cui nome dell’account di archiviazione non corrisponde.

Importante

Se si prevede di utilizzare la connessione ADLS al di fuori degli scenari relativi agli elementi del catalogo Mirrored Azure Databricks, è necessario assegnare anche il ruolo Delegatore BLOB di archiviazione sull'account di archiviazione.

Tip

Se viene visualizzato un errore di autorizzazione 403 quando si usa un'entità servizio per l'autenticazione di Databricks con un account ADLS Gen2 protetto dal firewall, verificare che l'identità dell'area di lavoro sia consentita nel firewall dell'account Archiviazione di Azure. Anche quando un'entità servizio è selezionata per l'autenticazione, Fabric usa l'identità dell'area di lavoro per attraversare il firewall di archiviazione.

Abilitare la sicurezza di OneLake nell'elemento Databricks con mirroring

Eseguire il mapping dei criteri di Unity Catalog (UC) alla sicurezza di Microsoft OneLake seguendo questa procedura:

  1. Sincronizzare il gruppo Entra e applicare le autorizzazioni in Unity Catalog. In Azure Databricks usare Automatic Identity Management per sincronizzare un gruppo di Microsoft Entra ID e concedergli i privilegi necessari per il catalogo Unity (USE, BROWSE e SELECT) nel catalogo e nelle tabelle pertinenti.
  2. Assegnare un ruolo di accesso ai dati OneLake. Nell'area di lavoro Fabric, creare un ruolo di accesso ai dati per i dati appena specchiati. Aggiungere lo stesso gruppo Entra a questo ruolo e concedere i diritti di lettura ai collegamenti OneLake corrispondenti alle tabelle di Azure Databricks. Per iniziare a usare la sicurezza a livello di tabella, selezionare il pulsante Gestisci sicurezza OneLake sulla barra multifunzione. Assicurarsi di mantenere sincronizzate le configurazioni di accesso man mano che le strutture e le autorizzazioni del catalogo si evolvono. Per altre informazioni, vedere il modello di controllo di accesso ai dati OneLake (anteprima).