Microsoft Office 365: in che modo questi servizi di apprendimento automatico di Azure ti renderanno più produttivo ed efficiente

Office ora può suggerire frasi migliori in Word o intere risposte in Outlook, progettare le diapositive di PowerPoint e istruirti sulla presentazione. Microsoft ha creato queste funzionalità con Azure Machine Learning e modelli di grandi dimensioni, mantenendo privati ​​i dati di Office 365.

I client di Microsoft Office sono diventati più intelligenti da diversi anni: la prima versione di Editor è arrivata in Word nel 2016, basata sull’apprendimento automatico di Bing, ed è ora stata estesa per includere la funzionalità Idee promessa con funzionalità extra. Sempre più nuove funzionalità di Office nei vari abbonamenti Microsoft 365 sono sostenute dall’apprendimento automatico.

Ottieni il controllo ortografico e grammaticale di base in qualsiasi versione di Word. Ma se hai un abbonamento, Word, Outlook e una nuova estensione per browser Microsoft Editor saranno in grado di avvisarti se stai esprimendo qualcosa di male, usando idiomi di genere così comuni che potresti non notare chi escludono, osservando così da vicino il il modo in cui le tue fonti di ricerca hanno espresso qualcosa di cui hai bisogno per scriverlo con parole tue o inserire una citazione, o semplicemente non attenersi alle regole di punteggiatura scelte.

VEDERE: Scelta della strategia di uscita di Windows 7: quattro opzioni (TechRepublic Premium)

Word può usare i confronti dei numeri del mondo reale che Bing ha avuto per un po ‘di tempo per rendere più comprensibili grandi numeri. Può anche tradurre gli acronimi che usi all’interno della tua organizzazione e distinguerli da ciò che qualcuno in un altro settore significherebbe per loro. Può anche riconoscere che quelle poche parole in grassetto sono un’intestazione e chiedono se si desidera passare a uno stile di intestazione in modo che vengano visualizzate nel sommario.

Outlook su iOS utilizza l’apprendimento automatico per trasformare il timestamp in un’e-mail a una “mezz’ora fa” più amichevole quando hai letto i tuoi messaggi. Outlook mobile e Web utilizza l’apprendimento automatico e l’elaborazione in linguaggio naturale per suggerire tre risposte rapide per alcuni messaggi, che potrebbero includere la pianificazione di una riunione.

Excel ha le stesse query in linguaggio naturale per fogli di calcolo di Power BI, che consente di porre domande sui dati. PowerPoint Designer può ritagliare automaticamente le immagini, inserirle nel posto giusto sulla diapositiva e suggerire un layout e un design; utilizza l’apprendimento automatico per l’analisi della struttura del testo e delle diapositive, la categorizzazione delle immagini, la raccomandazione del contenuto per includere e classificare i suggerimenti di layout forniti. Il Presenter Coach ti dice se ti stai accovacciando, parlando in monotono o fissando lo schermo tutto il tempo mentre parli, usando l’apprendimento automatico per analizzare la tua voce e la postura dalla tua webcam.

powerpoint-designer-aml.jpg

Come PowerPoint Designer usa AML (Azure Machine Learning).

Immagine: Microsoft

L’apprendimento automatico che chiunque può usare

Molte di queste funzionalità sono state create usando il servizio Azure Machine Learning, ha dichiarato a TechRepublic Erez Barak, responsabile del programma del gruppo di partner per la gestione della piattaforma AI. All’altro estremo, alcuni chiamano le API predefinite di Servizi cognitivi di Azure per cose come il riconoscimento vocale nel coach di presentazione, così come la didascalia delle presentazioni di PowerPoint in tempo reale e la traduzione dal vivo in oltre 60 lingue (e quelle API sono esse stesse costruite usando AML).

Altre funzionalità si basano sulla personalizzazione di modelli pre-addestrati come Turing Neural Language Generation, un modello linguistico di apprendimento approfondito di diciassette miliardi di parametri in grado di rispondere a domande, frasi complete e riepilogare il testo, utile per suggerire frasi alternative nell’editor o risposte e-mail in Outlook . “Utilizziamo questi modelli in Office dopo aver applicato alcuni apprendimenti sui trasferimenti per personalizzarli”, ha spiegato Barak. “Sfruttiamo molti dati, non direttamente ma mediante l’apprendimento del trasferimento che facciamo; che si basa sui big data per darci una solida base di comprensione del linguaggio naturale. Per tutto ciò che facciamo in Office richiede quel contesto; proviamo a sfruttare i dati abbiamo da grandi modelli – dal modello di Turing soprattutto date le sue dimensioni e la sua posizione di leadership nel mercato – al fine di risolvere problemi specifici di Office “.

AML è una piattaforma di apprendimento automatico sia per i team di prodotti Microsoft che per i clienti per creare funzionalità intelligenti che possono essere inserite nei processi aziendali. Fornisce pipeline automatizzate che raccolgono grandi quantità di dati archiviati in Azure Data Lake, uniscono e pre-elaborano i dati non elaborati e li inseriscono nella formazione distribuita in esecuzione in parallelo su più macchine virtuali e GPU. La versione di apprendimento automatico della distribuzione automatica comune in DevOps è nota come MLOps. I modelli di machine learning di Office sono spesso realizzati utilizzando framework come PyTorch o TensorFlow; il team di PowerPoint utilizza molti notebook Python e Jupiter.

I data scientist di Office sperimentano diversi modelli e varianti; il modello migliore viene quindi archiviato in Azure Data Lake e scaricato in AML usando il runtime ONNX (di provenienza aperta da Microsoft e Facebook) per essere eseguito in produzione senza dover essere ricostruito. “Il confezionamento dei modelli nel runtime ONNX, in particolare per PowerPoint Designer, ci aiuta a normalizzare i modelli, il che è ottimo per gli MLOps; quando li si collega a pipeline, più risorse normalizzate si hanno, più facile, più semplice e più produttivo quel processo diventa “, ha detto Barak.

ONNX aiuta anche con le prestazioni quando si tratta di eseguire i modelli in Office, in particolare per Designer. “Se pensi al numero di chiamate di inferenza o al punteggio delle chiamate in corso, le prestazioni sono fondamentali: ogni piccola percentuale e sotto-percentuale conta,” ha sottolineato Barak.

Uno strumento come Designer che suggerisce immagini di sfondo e video da utilizzare come contenuto richiede molta elaborazione e GPU per essere abbastanza veloce. Alcuni modelli di Turing sono così grandi che girano sull’hardware Brainwave basato su FPGA all’interno di Azure perché altrimenti sarebbero troppo lenti per carichi di lavoro come rispondere alle domande nelle ricerche Bing. Office utilizza lo strato di calcolo AML per la formazione e la produzione che, secondo Barak, “fornisce un accesso normalizzato a diversi tipi di calcolo, diversi tipi di macchine e fornisce anche una visione normalizzata delle prestazioni di tali macchine”.

“Le esigenze di formazione di Office sono praticamente all’avanguardia: pensa a lavori di formazione di lunga durata, basati su GPU e ad alta larghezza di banda che potrebbero essere eseguiti per giorni, a volte per settimane, su più core e richiedono un alto livello di visibilità nel processo finale come nonché un alto livello di affidabilità “, ha spiegato Barak. “Sfruttiamo molte GPU ad alte prestazioni sia per l’addestramento dei modelli di base sia per il trasferimento dell’apprendimento”. Sebbene la dimensione dei dati di allenamento varia a seconda degli scenari, Barak stima che la messa a punto del modello di base di Turing con sei mesi di dati utilizzerebbe 30-50 TB di dati (oltre ai dati utilizzati per addestrare il modello originale).

Accesso ai dati ripetibile e conforme

acronimi-ml.jpg

Gli acronimi accedono ai dati di Office 365 perché devono sapere quali acronimi vengono utilizzati dall’organizzazione.

Immagine: Mary Branscombe / TechRepublic

I dati utilizzati per addestrare i suggerimenti di riscrittura dell’Editor includono documenti scritti da persone con dislessia e molte delle funzionalità AI di Office utilizzano dati di utilizzo anonimi dall’utilizzo di Office 365. Gli acronimi è una delle poche funzionalità che utilizza in modo specifico i dati di Office 365, poiché deve scoprire quali acronimi vengono utilizzati dall’organizzazione, ma non condivisi con altri utenti di Office. Microsoft utilizza inoltre i dati pubblici per molte funzionalità anziché cercare di estrarli da documenti di Office privati. Il correttore di somiglianza utilizza i dati di Bing e la riscrittura delle frasi dell’editor utilizza dati pubblici come Wikipedia e dati di notizie pubbliche su cui allenarsi.

Come sede di così tanti documenti, Office 365 ha una grande quantità di dati, ma ha anche forti politiche e processi di conformità che i data scientist di Microsoft devono seguire. Tali politiche cambiano nel tempo man mano che le leggi cambiano o Office viene accreditato a nuovi standard: “pensalo come un obiettivo mobile di politiche e impegni che Office ha preso in passato e continuerà a fare”, ha suggerito Barak. “Per consentirci di sfruttare un sottoinsieme dei dati di Office nell’apprendimento automatico, naturalmente, aderiamo a tutte queste promesse di conformità.”

PER SAPERNE DI PIÙ: Prezzi e caratteristiche per i consumatori di Office 365

Ma modelli come quelli utilizzati in Presentation Designer richiedono una riqualificazione frequente (almeno ogni mese) per gestire nuovi dati, come ad esempio quale dei milioni di progetti di diapositive suggerisce venga accettato e conservato nelle presentazioni. Tali dati vengono resi anonimi prima di essere utilizzati per la formazione e la formazione viene automatizzata con pipeline AML. Ma è importante assegnare un punteggio ai modelli riqualificati in modo coerente con i modelli esistenti in modo da poter sapere quando c’è un miglioramento o se un esperimento non è andato in pan, quindi i data scientist hanno bisogno di un accesso ripetuto ai dati.

“Le persone lo usano continuamente, quindi abbiamo continuamente nuovi dati sulle preferenze e le scelte delle persone e vogliamo riqualificarci continuamente. Non possiamo avere un sistema che deve essere adattato più e più volte, specialmente nel mondo della conformità. bisogno di avere un sistema che sia automatizzabile. Riproducibile e, francamente, abbastanza facile da usare per quegli utenti “, ha detto Barak.

“Stanno utilizzando i set di dati AML, che consentono loro di accedere a questi dati mentre utilizzano le giuste politiche e guard rail, quindi non stanno creando copie dei dati – che è un elemento chiave per mantenere la conformità e la fiducia che promettiamo per i clienti. Considerali come puntatori e viste in sottoinsiemi di dati che gli scienziati dei dati desiderano utilizzare per l’apprendimento automatico.

“Non si tratta solo di accesso, ma di accesso ripetibile, quando i data scientist dicono” introduciamo quel modello più grande, facciamo un po ‘di apprendimento dei trasferimenti usando i dati “. È molto dinamico: ci sono nuovi dati perché c’è più attività o più persone [using it]. Quindi i modelli più grandi vengono aggiornati regolarmente. Non abbiamo solo una versione del modello di Turing e poi abbiamo finito; abbiamo versioni continue di quel modello che vogliamo mettere nelle mani di data scientist con un ciclo di vita end-to-end “.

Tali set di dati possono essere condivisi senza il rischio di perdere traccia dei dati, il che significa che altri data scientist possono eseguire esperimenti sugli stessi set di dati. Ciò rende più semplice per loro iniziare a sviluppare un nuovo modello di apprendimento automatico.

Ottenere AML nel modo giusto per i team di prodotti Microsoft aiuta anche le aziende che desiderano utilizzare AML per i propri sistemi. “Se inchiodiamo le simpatie e le complessità di Office, consentiamo loro di utilizzare l’apprendimento automatico in più processi aziendali”, ha affermato Barak. “E allo stesso tempo impariamo molto sull’automazione e sui requisiti di conformità che si applicano anche a molti dei nostri clienti di terze parti.”

Vedi anche

Source link

Leave a Reply

Your email address will not be published. Required fields are marked *