Nu știu dacă vă veți da seama, dar AzureML este de departe printre serviciile mele preferate de știința datelor și inteligență artificială/ML. Și se întâmplă să fie un serviciu Cloud…

În prima experiență cu setul de date Iris.csv v-ați inițiat în explorarea datelor cu Excel. Și-apoi, ați avut parte de o introducere în grupările K-Means folosind ELKI. Vom ajunge în curând și la un prim exemplu de K-Means cu AzureML. Dar înainte de asta, vă invit să zăboviți un pic la câteva funcționalități de bază, deosebit de atractive despre explorarea datelor.

Prima experiență cu AzureML – primul experiment

Presupunând că aveți deja cont pe AzureML, creați un nou experiment:

Ceea ce va deschide spațiul de lucru pentru experiment. Sper că reiese din imaginea de mai jos, că am numit experimentul „Primul experiment cu AzureML și Iris”.

Acum că experimentul este deschis, primul lucru pe care trebuie să-l facem este să importăm setul de date Iris. Există mai multe moduri de a face asta, iar poate că cel mai simplu este să-l refolosim din seturile de date predefinite în AzureML. De dragul exemplului, am preferat să import acest fișier de unde l-am folosit și eu prima dată, fiind un scenariu mult mai apropiat de realitatea unui caz real. Deci, ca să importăm un fișier, trebuie să folosim modulul „Import Data” pe care-l puteți găsi folosind căsuța de căutare „Search experiment items” din stânga-sus.

După ce ați găsit modulul și l-ați amplasat în experiment, mergeți în fereastra de proprietăți unde veți configura importul astfel:

În câmpul Data Source, selectați Web URL via HTTP
În câmpul Data source URL, introduceți https://raw.githubusercontent.com/uiuc-cse/data-fa14/gh-pages/data/iris.csv
În câmpul Data format, lăsați CSV
Bifați căsuța CSV or TSV has header row

Rulați experimentul selectând Run->Run selected

Când importul a fost efectuat cu succes ar trebui să vedeți bifa verde din dreptul textului „Import Data”:

Observați cerculețul 1? Click dreapta pe el și apăsați „Visualize”

pentru ca unul dintre cele mai inspirate instrumente de explorarea datelor să se deschidă:

Acum puteți naviga liber printre coloane și să cercetați vizual valorile și diverse statistici despre informațiile fiecărei coloane:

media – Mean,
mediana – Median,
minimul – Min,
maximul – Max,
câte valori unice sunt în acea coloană – Unique Values,
abaterea standard – Standard Deviation,
câte valori lipsesc din coloană – Missing Values și
ce fel de coloană este – numerică, logică etc + trăsătură (feature) sau semn distinctiv(label).

Dar AzureML are și alte capabilități. Căutați blocul „Summarize Data” și conectați-l la „Import Data” ca în exemplul de mai jos:

Executați experimentul din nou și vizualizați setul de date rezultat

Ceea ce-ar trebui să deschidă următoarea fereastră, cuprinzând mult mai multe informații calculate automat față de orice instrument pe care l-am folosit până acum:

coloanele setului de date – Feature
numărul de înregistrări din setul de date – Count
numărul de valori unice pentru fiecare coloană – Unique Value Count
numărul de valori lipsă pentru fiecare coloană – Missing Value Count
Min, Max, Mean, Mean Deviation, nu le mai reiau, fiind explicate mai sus
Prima quartilă, mediana și a treia quartilă (află mai multe aici)
Valoarea care apare cel mai des – Mode
Spectrul (diferența dintre Maximul valorilor și Minimul valorilor) – Range
Variația (VAR.S în Excel, află mai multe aici)
Abaterea standard (STD.S în Excel)
Indice de asimetrie (Skewness – în Excel Skew) – Sample Skewness
Indice de aplatizare (Kurtosis – în Excel Kurt) – Sample Kurtosis
Percentilele 0.5, 1,5,95 și 99.5 (în Excel PERCENTILE.INC) – P0.5, P1, P5, P9, P95, P99.5

Interesant și simplu, nu-i așa?

Selectarea trăsăturilor cu potențial mai mare de a prezice specia

Și-asta este departe de ceea ce poate face AzureML. Voi încerca să închei cu una dintre funcțiile mele preferate: „Filter Based Feature Selection”, modul care poate determina care coloană este mai bună în a distinge între valorile din setul de date.

Din lista de proprietăți, selectați Spearman Correlation în lista Feature scoring method și-apoi apăsați pe „Launch column selector”.

Selectați coloana specii („species”) față de care încercăm să găsim coloana care prezice cel mai bine specia din cele patru (lungimea petalei, lățimea petalei, lungimea sepală, lățimea sepală).

Executați experimentul și vizualizați setul de date din primul nod:

Rezultat?! Lățimea petalei este coloană care corelează cel mai bine despre ce specie este vorba, așa cum aflasem deja și aici.

Sper că v-am făcut curioși cu acest prim articol despre AzureML, serviciu pe care-l recomand cu mare căldură nu doar începătorilor în știința datelor.

Încheiere

Ați explorat setul de date Iris din cel puțin trei perspective, cu trei instrumente diferite (Excel, ELKI, AzureML). Pentru moment, fără să scrieți vreun pic de cod. Bineînțeles că lista de instrumente este cu mult mai mare și voi mai adăuga pe parcurs. Deja am dat suficiente informații astfel încât să putem implementa propriul K-Means, de la zero cu c# sau cu AzureML, Amazon SageMaker sau Tensorflow.
Va urma…

Dacă doriți să aflați mai multe despre mine, Cornel Fătulescu, sau proiectele în care sunt implicat, vă invit să mă descoperiți și ca Chief Platform Officer la Pentalog, să mă urmăriți pe Facebook, ca investitor la wanttolearn, să citiți unul dintre primele articole despre mine și să mă contactați urmând ghidul de pe pagina de contact.

Acest articol a fost citit de 1118 ori

Vizibilitate tuturor!

Explorarea setului de date Iris folosind AzureML. Prima experiență AzureML.

Prima experiență cu AzureML – primul experiment

Selectarea trăsăturilor cu potențial mai mare de a prezice specia

Încheiere

Vizibilitate tuturor!

Explorarea setului de date Iris folosind AzureML. Prima experiență AzureML.

Prima experiență cu AzureML – primul experiment

Selectarea trăsăturilor cu potențial mai mare de a prezice specia

Încheiere

Related posts:

Post navigation