Vizibilitate tuturor!

Sunt adeptul suprimării formelor fără fond cu precădere prin educație, viziune comună, focalizarea energiilor, obiectivism și foarte multă răbdare.

Prima experiență cu setul de date Iris.csv. Explorarea datelor folosind Excel.

În multe lecții (cărți sau materiale online) este folosit setul de date Iris, pe care-l puteți descărca de aici. Acest set de date a fost creat în 1936 de Ronald Aylmer Fisher, statistician și biolog britanic.

Ce conține setul de date Iris?

Setul de date conține măsurători despre trei specii ale genului de plantă Iris:

Specia Imaginea
Iris setosa
Iris virginica  
Iris versicolor

Măsurătorile arată în felul următor:

Lungimea sepală**** Lățimea sepală Lungimea petală Lățimea petală Specia
5.1 3.5 1.4 0.2 setosa
4.9 3 1.4 0.2 setosa
4.7 3.2 1.3 0.2 setosa
4.6 3.1 1.5 0.2 setosa
5 3.6 1.4 0.2 setosa
7 3.2 4.7 1.4 versicolor
6.4 3.2 4.5 1.5 versicolor
6.9 3.1 4.9 1.5 versicolor
5.5 2.3 4 1.3 versicolor
6.5 2.8 4.6 1.5 versicolor
5.7 2.8 4.5 1.3 versicolor
6.3 3.3 6 2.5 virginica
5.8 2.7 5.1 1.9 virginica
7.1 3 5.9 2.1 virginica
6.3 2.9 5.6 1.8 virginica
6.5 3 5.8 2.2 virginica

și totalizează 150 de observații***, câte 50 pentru fiecare specie.

Cum lucrează un specialist cu un astfel de set de date?

Presupunând îți dorești crearea unul algoritm de gruparea observațiilor în specii. Bineînțeles că noi știm care observație aparține cărui grup (cărei specii) dar să vedem și dacă putem vizualiza aceste diferențe.

De exemplu, eu am importat fișierul csv în Excel****** și mi-am creat o nouă foaie (sheet) cu patru coloane:

  • Lungimea sepală setosa
  • Lungimea sepală virginica
  • Lungimea sepală versicolor
  • X (un număr aleator***** care să reprezinte axa X în graficul unde voi desena punctele)

Explorarea datelor (data mining)

Tabelul conține doar 50 de înregistrări, și arată în felul următor:

Lungimea sepală setosa Lungimea sepală virginica Lungimea sepală versicolor X
5.1 6.3 7 0.11054075677169
4.9 5.8 6.4 0.286077998423986
4.7 7.1 6.9 0.781202409269491
4.6 6.3 5.5 0.780600055491811
5 6.5 6.5 0.226575430230551

Aceste date pot fi reprezentate grafic astfel:

www.cornel.fatulescu.ro Lățimea sepală

Și-am repetat aceiași pași pentru toate măsurătorile din setul de date Iris:
www.cornel.fatulescu.ro toate măsurătorile

Din aceste imagini pot deduce deja că dimensiunea care-mi spune cel mai ușor dacă o observație aparține unei specii este „lățimea petală”. Dar explorarea nu trebuie să se oprească.

Am comparat lungimea cu lățimea petală

Lungimea și lățimea petală cornel.fatulescu.ro, lungimea cu lățimea sepală

Lungimea și lățimea sepală cornel.fatulescu.ro, lungimea sepală cu lungimea petală

lungimea sepală cu lungimea petală cornel.fatulescu.ro

, lungimea și lățimea sepală față de lungimea și lățimea petală

lungimea și lățimea sepală cu lungimea și lățimea petală cornel.fatulescu.ro, sau toate atributele adunate.suma tutor atributelor cornel.fatulescu.ro

Nicio perspectivă nu-i este interzisă celui care explorează datele.

Ochiometric, lungimea petală pare să rămână dimensiunea cea mai interesantă, însă insuficientă pentru a delimita complet versicolor de virginica. Dar cum posibilitățile de vizualizare sunt nemărginite, analiza nu trebuie să se oprească aici. De exemplu, frecvența valorilor este un alt grafic care se va dovedi adesea util când explorați datele:

Distribuția lungimii petale 3 cornel.fatulescu.ro

De aici se poate trage concluzia că ceea ce pentru Versicolor înseamnă frecvență ridicată (lungimea petală egală cu 4.5 se repetă de 7 ori) pentru Virginica are caracter excepțional (lungimea petală de 4.5 există o singură dată).

Și doar ca să trec în revistă, pentru că sunt mai puțin utile în cazul dat, abaterea standard, media, mediana, maximul și minimul sunt și ele noțiuni care vă vor inspira în explorarea datelor:

mediana, media, maximum, minimum, abaterea standard cornel.fatulescu.ro

Este incredibil câte perspective de date putem (exemplele nu epuizează toate posibilitățile) crea de la un set atât de restrâns.

De ce am ales (și eu) setul de date Iris?

  1. Atunci când vine vorba de învățare, setul de date Iris este util pentru experimente despre clasificarea* și gruparea** datelor în special datorită:
    • ușurinței cu care Iris Setosa se distinge de Iris Versicolor și Iris Virginica și
    • complexității aduse de întrepătrunderea observațiilor Iris Versicolor cu Iris Virginica.
  2. Un alt motiv pentru care am ales să scriu despre setul de date Iris constă în faptul că urmează să-l folosesc în alte articole și-aveam nevoie de-o introducere comună spre care să trimit cititorul (dacă nu știe nimic despre Iris.csv).
  3. Mi-am dorit să scot în evidență nevoia explorării datelor, o activitate cu care orice specialist în date trebuie să se obișnuiască și care-i consumă în medie 80% din timp.

Explicații adiționale

*Clasificare - Crearea unei aplicații care să primească informații despre lățimea sau/și lungimea petalelor și/sau a sepalelor și să indice probabilitatea ca datele de intrare să corespundă unei specii.
De exemplu, într-un formular s-au introdus valorile: 4,9 pentru lungimea sepalei, 3,1 pentru lățimea sepalei, 1,3 pentru lungimea petalei și 0,2 pentru lățimea petalei. Cărei specii îi corespund măsurătorile?
Grupare (clustering) - Pornind de la datele din acest set și folosind măsurătorile legate de lungimea și lățimea petalelor și a sepalelor, creează un algoritm care identifică despre câte specii este vorba, drept urmare, ce observație*** aparține cărei specii (Iris Setosa, Iris Virginica sau Iris Versicolor).
selecție cornel.fatulescu.ro Iris
***observație - numim observație fiecare înregistrare (sau rând) din setul de date. Fiecare observație corespunde unui subiect analizat și conține măsurători pe toate cele patru dimensiuni din setul de date (lungimea petalei, lățimea petalei, lungimea sepală, lățimea sepală).
****sepală - Dacă nu vă mai aduceți aminte de diferențele dintre petală și sepală, sper ca imaginea de mai jos să vă ajute:cornel.fatulescu.ro petală sepală
*****aleator = pentru a crea un număr aleator în Excel am folosit funcția rand() - am introdus în celulă formula: „=RAND()”
******Am folosit Excel pentru a scoate în evidență că un specialist în date nu trebuie să scrie cod neapărat, ci să se centreze pe explorarea datelor și rezultat. Majoritatea specialiștilor în date știu să scrie cod. Dar voi mai reveni pe blog în momentul în care încep articolele despre competențe.
Fișierul Excel poate fi descărcat de aici.
Cornel FătulescuDacă doriți să aflați mai multe despre mine, Cornel Fătulescu, sau proiectele în care sunt implicat, vă invit să mă descoperiți și ca Chief Platform Officer la Pentalog, să mă urmăriți pe Facebook, ca investitor la wanttolearn, să citiți unul dintre primele articole despre mine și să mă contactați urmând ghidul de pe pagina de contact.

Acest articol a fost citit de 1246 ori