Nu știu dacă vă veți da seama, dar AzureML este de departe printre serviciile mele preferate de știința datelor și inteligență artificială/ML. Și se întâmplă să fie un serviciu Cloud…
În prima experiență cu setul de date Iris.csv v-ați inițiat în explorarea datelor cu Excel. Și-apoi, ați avut parte de o introducere în grupările K-Means folosind ELKI. Vom ajunge în curând și la un prim exemplu de K-Means cu AzureML. Dar înainte de asta, vă invit să zăboviți un pic la câteva funcționalități de bază, deosebit de atractive despre explorarea datelor.
Prima experiență cu AzureML – primul experiment
Presupunând că aveți deja cont pe AzureML, creați un nou experiment:
Ceea ce va deschide spațiul de lucru pentru experiment. Sper că reiese din imaginea de mai jos, că am numit experimentul „Primul experiment cu AzureML și Iris”.
Acum că experimentul este deschis, primul lucru pe care trebuie să-l facem este să importăm setul de date Iris. Există mai multe moduri de a face asta, iar poate că cel mai simplu este să-l refolosim din seturile de date predefinite în AzureML. De dragul exemplului, am preferat să import acest fișier de unde l-am folosit și eu prima dată, fiind un scenariu mult mai apropiat de realitatea unui caz real. Deci, ca să importăm un fișier, trebuie să folosim modulul „Import Data” pe care-l puteți găsi folosind căsuța de căutare „Search experiment items” din stânga-sus.
După ce ați găsit modulul și l-ați amplasat în experiment, mergeți în fereastra de proprietăți unde veți configura importul astfel:
- În câmpul Data Source, selectați Web URL via HTTP
- În câmpul Data source URL, introduceți https://raw.githubusercontent.com/uiuc-cse/data-fa14/gh-pages/data/iris.csv
- În câmpul Data format, lăsați CSV
- Bifați căsuța CSV or TSV has header row
Rulați experimentul selectând Run->Run selected
Când importul a fost efectuat cu succes ar trebui să vedeți bifa verde din dreptul textului „Import Data”:
Observați cerculețul 1? Click dreapta pe el și apăsați „Visualize”
pentru ca unul dintre cele mai inspirate instrumente de explorarea datelor să se deschidă:
Acum puteți naviga liber printre coloane și să cercetați vizual valorile și diverse statistici despre informațiile fiecărei coloane:
- media – Mean,
- mediana – Median,
- minimul – Min,
- maximul – Max,
- câte valori unice sunt în acea coloană – Unique Values,
- abaterea standard – Standard Deviation,
- câte valori lipsesc din coloană – Missing Values și
- ce fel de coloană este – numerică, logică etc + trăsătură (feature) sau semn distinctiv(label).
Dar AzureML are și alte capabilități. Căutați blocul „Summarize Data” și conectați-l la „Import Data” ca în exemplul de mai jos:
Executați experimentul din nou și vizualizați setul de date rezultat
Ceea ce-ar trebui să deschidă următoarea fereastră, cuprinzând mult mai multe informații calculate automat față de orice instrument pe care l-am folosit până acum:
- coloanele setului de date – Feature
- numărul de înregistrări din setul de date – Count
- numărul de valori unice pentru fiecare coloană – Unique Value Count
- numărul de valori lipsă pentru fiecare coloană – Missing Value Count
- Min, Max, Mean, Mean Deviation, nu le mai reiau, fiind explicate mai sus
- Prima quartilă, mediana și a treia quartilă (află mai multe aici)
- Valoarea care apare cel mai des – Mode
- Spectrul (diferența dintre Maximul valorilor și Minimul valorilor) – Range
- Variația (VAR.S în Excel, află mai multe aici)
- Abaterea standard (STD.S în Excel)
- Indice de asimetrie (Skewness – în Excel Skew) – Sample Skewness
- Indice de aplatizare (Kurtosis – în Excel Kurt) – Sample Kurtosis
- Percentilele 0.5, 1,5,95 și 99.5 (în Excel PERCENTILE.INC) – P0.5, P1, P5, P9, P95, P99.5
Interesant și simplu, nu-i așa?
Selectarea trăsăturilor cu potențial mai mare de a prezice specia
Și-asta este departe de ceea ce poate face AzureML. Voi încerca să închei cu una dintre funcțiile mele preferate: „Filter Based Feature Selection”, modul care poate determina care coloană este mai bună în a distinge între valorile din setul de date.
Din lista de proprietăți, selectați Spearman Correlation în lista Feature scoring method și-apoi apăsați pe „Launch column selector”.
Selectați coloana specii („species”) față de care încercăm să găsim coloana care prezice cel mai bine specia din cele patru (lungimea petalei, lățimea petalei, lungimea sepală, lățimea sepală).
Executați experimentul și vizualizați setul de date din primul nod:
Rezultat?! Lățimea petalei este coloană care corelează cel mai bine despre ce specie este vorba, așa cum aflasem deja și aici.
Sper că v-am făcut curioși cu acest prim articol despre AzureML, serviciu pe care-l recomand cu mare căldură nu doar începătorilor în știința datelor.
Încheiere
Ați explorat setul de date Iris din cel puțin trei perspective, cu trei instrumente diferite (Excel, ELKI, AzureML). Pentru moment, fără să scrieți vreun pic de cod. Bineînțeles că lista de instrumente este cu mult mai mare și voi mai adăuga pe parcurs. Deja am dat suficiente informații astfel încât să putem implementa propriul K-Means, de la zero cu c# sau cu AzureML, Amazon SageMaker sau Tensorflow.
Va urma…
Acest articol a fost citit de 988 ori