V Spojených štátoch a v západných krajinách pozícia „Data scientist“ patrí k najžiadanejším roliam. Na Slovensku niektoré firmy tiež hľadajú túto profesiu alebo podobnú hoci názov role môže byť odlišný (v každom prípade táto práca je spojená s „dátami“).

Ak máte o túto pozíciu záujem pozrite sa či máte všetky potrebné zručnosti (alebo niektoré dôležité pre konkrétnu pozíciu), aby ste túto profesiu mohli robiť.

1. Vzdelanie

Data scientists sú obvykle vysoko vzdelaní ľudia. Podľa jedného z prieskumov 88% má aspoň magisterský titul a 46% má PhD. A aj keď existujú výnimky, zvyčajne sa vyžaduje veľmi silné vzdelanie, aby bolo na čom stavať a mohli ste ďalej vašu hĺbku znalostí rozvinúť. Dobrým štartovacím bodom je získať vysokoškolský titul v oblasti informatiky, technických vied, prírodných vied, matematiky alebo štatistiky. Najbežnejšie študijné odbory sú matematika a štatistika (32%), nasledované informatikou (19%) a inžinierstvom (16%). Stupeň v ktoromkoľvek z týchto smerov vám poskytne zručnosti, ktoré potrebujete na spracovanie a analýzu big data (veľké dáta).

Po absolvovaní štúdia ešte zďaleka nie ste 100% pripravený na túto rolu. Aj keď väčšina data scientists má Mgr. alebo PhD. titul, ešte navyše absolvujú rôzne online školenia, aby sa naučili špeciálne zručnosti, ako napríklad používanie dopytov (query) Hadoop alebo Big Data. Inými slovami povedané získaním vysokoškolského titulu vzdelanie data scientist nekončí a pokračuje v šírke a hĺbke ďalej.

2. Programovanie v R

Dôkladná znalosť najmenej jedného z analytických nástrojov. Všeobecne preferovaný je programovací jazyk R, nakoľko je špeciálne navrhnutý pre potreby data science. R patrí medzi tzv. open-source jazyky pre štatistické výpočty a zobrazovanie grafiky. Môžete použiť R na vyriešenie akéhokoľvek problému na ktorý narazíte v tejto oblasti. Dokážete s ním robiť rôzne štatistické analýzy, dolovať pomocou neho údaje (data-mining), predpovedať pomocou neurónových sietí, optimalizovať pomocou genetických algoritmov a podobne. Jazyk R je skutočne jednoduchý a aj bežný laik sa ho naučí veľmi rýchlo.

Podľa prieskumov 43% data scientists používa R na riešenie štatistických problémov. Na internete existuje veľa zdrojov pre učenie, ktoré vám umožnia začať programovať v R, napríklad Simplilearn’s Data Science Training s R Programming Language. Je to dobrý zdroj pre ľudí ašpirujúcich na data scientists.

3. Programovanie v Pythone

Python patrí medzi jeden momentálne z najpoužívanejších jazykov vôbec, ktorý častokrát môžete vidieť medzi požiadavkami v „job description“ data scientist, spolu s jazykmi Java, Perl alebo C/C ++. Python je skvelý programovací jazyk aj pre túto rolu. Aj to je dôvod, prečo 40 percent opýtaných v prieskume od O’Reilly odpovedalo, že používa Python ako svoj hlavný programovací jazyk.

Vďaka všestrannosti jazyka môžete používať Python takmer pre všetky kroky, s ktorými sa sa stretnete v data science procesoch. Môžete mať rôzne formáty dát a môžete jednoducho importovať SQL tabuľky do vášho kódu, atď.

Python je veľmi jednoduchý na pochopenie, odpustí vám mnoho chýb a naviac je na internete mnoho tutoriálov, kde sa ho môžete zadarmo naučiť.

4. Hadoop platforma

Aj keď to nemusí byť vždy požiadavka, je v mnohých prípadoch veľmi preferovaná. Skúsenosť s „Hive or Pig“ je tiež silným predajným faktorom. Znalosť cloudových nástrojov, ako napríklad Amazon S3, môže byť tiež plusom. Podľa research, ktorú urobili CrowdFlower na 3 490 LinkedIn Data Science jobs, Apache Hadoop bola 2. najdôležitejšia zručnosť pre data scientist, s 49% ratingom.

Ako data scientist sa môžete stretnúť so situáciou, keď objem dát prekročí pamäť vášho systému alebo potrebujete odoslať dáta na rôzne servery, a to je ten bod, kde prichádza Hadoop. Môžete použiť Hadoop na rýchly prenos dát do rôznych bodov systému. A to nie je všetko. Hadoop môžete použiť na preskúmane dát, filtrovanie dát, data sampling a sumarizáciu dát.

5. SQL databázy / kódovanie

Aj keď sa NoSQL a Hadoop stali silným komponentom data science, stále sa očakáva, že kandidát bude schopný písať a vykonávať komplexné dopyty (queries) v SQL. SQL (štruktúrovaný dopytovací jazyk) je programovací jazyk, ktorý vám môže pomôcť pri vykonávaní operácií, ako je pridávanie, odstraňovanie a extrakcia dát z databázy. Môže tiež pomôcť vykonať analytické funkcie a transformovať databázové štruktúry.

Ako data scientist musíte mať skúsenosti s SQL. Je to preto, že SQL je špeciálne navrhnutý tak, aby vám pomohol pristupovať, komunikovať a pracovať s dátami. Má stručné príkazy, ktoré vám môžu pomôcť šetriť čas a znížiť množstvo programovania, ktoré potrebujete na vykonávanie náročných žiadostí. Učenie SQL vám pomôže lepšie porozumieť relačným databázam a posilniť váš profil ako data scientist.

6. Apache Spark

Apache Spark sa stáva najobľúbenejšou veľkou dátovou technológiou na celom svete. Je to veľký výpočtový framework (rámec), rovnako ako Hadoop. Jediný rozdiel je, že Spark je rýchlejší ako Hadoop. Je to preto, lebo Hadoop číta a zapisuje na disk, čo ho robí pomalším, ale Spark ukladá do pamäte svoje výpočty.

Apache Spark je špeciálne navrhnutý pre data science, ktorý pomáha rýchlejšie prevádzkovať komplikovaný algoritmus. Pomáha pri rozširovaní spracovania údajov, keď máte čo do činenia s veľkým množstvom dát, čím šetríte čas. Tiež pomáha data scientist-ovi spracovávať zložité neštruktúrované súbory údajov. Môžete ho použiť na jednom stroji alebo skupine strojov.

Apache Spark umožňuje data scientist-ovi predchádzať strate údajov v oblasti data science. Sila Apache Spark spočíva vo svojej rýchlosti a platforme, ktoré uľahčujú realizáciu data science projektov. S Apache Spark môžete vykonávať datovú analýzu od inputu dát až po distribúciu výpočtu.

7. Machine learning a umelá inteligencia (AI)

Mnoho data scientists nemá skúsenosti s oblasťami a technikami machine learning (strojové učenie). To zahŕňa neurónové siete, reinforcement learning, adversarial learning, atď. Ak chcete byť lepši ako priemer, potrebujete poznať techniky machine learning, ako napríklad supervised machine learning, rozhodovacie stromy, logistická regresia, apod. Tieto zručnosti vám pomôžu riešiť rôzne data science problémy, ktoré sú založené na predikciách väčšiny výstupov organizácií.

Data science vyžaduje aplikovať zručností v rôznych oblastiach machine learning. Kaggle v jednom zo svojich prieskumov ukázal, že len malé percento data profesionálov je kompetentných v oblasti pokročilých zručností v machine learning, ako napr. Supervised machine learning, Unsupervised machine learning, Time series, Natural language processing, Outlier detection, Computer vision, Recommendation engines, Survival analysis, Reinforcement learning a Adversarial learning.

Data science zahŕňa prácu s veľkým množstvom súborov údajov. Je dobré sa oboznámiť s machine learning.

8. Vizualizácia dát

Podnikateľský svet produkuje často obrovské množstvo údajov. Tieto údaje je potrebné preložiť do formátu, ktorý bude ľahko pochopiteľný. Ľudia prirodzeným spôsobom ľahko rozumejú obrázkom vo forme grafov a diagramov, určite viac ako nespracovaným dátam.

Stará fráza hovorí: „Obraz nahradí tisíc slov“.

Pozrite sa na náš článok o vizualizácii dát.

10 vizualizácií dát, ktoré musíte vidieť

Ako data scientist musíte byť schopní vizualizovať údaje pomocou nástrojov na vizualizáciu údajov, ako sú napríklad ggplot, d3.js a Matplottlib a Tableau. Tieto nástroje vám pomôžu konvertovať zložité výsledky z vašich projektov na formát, ktorý bude ľahko pochopiteľný. Ide o to, že veľa ľudí nerozumie sériovej korelácii alebo hodnotám p. Musíte ich vizuálne zobraziť, čo tieto výrazy predstavujú vo vašich výsledkoch.

Vizualizácia dát umožňuje organizáciám pracovať priamo s dátami. Môžu rýchlo pochopiť idey, ktoré im pomôžu pri realizácií nových obchodných príležitostí a byť pred konkurenciou.

9. Neštruktúrované dáta

Je veľmi dôležité, aby data scientist bol schopný pracovať s neštruktúrovanými dátami. Neštruktúrované dáta sú nedefinovaný obsah, ktorý nesedí s databázovými tabulkami. Napríklad videá, blogové príspevky, recenzie od zákazníkov, príspevky zo sociálnych médií, video feeds, audio, atď. Sú to náročné textové spojenia. Zoradenie týchto typov údajov je zložité, pretože nie sú zefektívnené. Ako data science musíte byť schopný porozumieť a manipulovať s neštruktúrovanými dátami rôznych platforiem.

Netechnické zručnosti

10. Intelektuálna zvedavosť

 

„Nemám žiadny osobitný talent, som len vášnivo zvedavý.“

Albert Einstein

 

Tento populárny výrok asi poznáte. Týka sa aj data scientist. Frank Lo opisuje, čo to znamená, a hovorí na blogu o ďalších potrebných „mäkkých zručnostiach“ .

Zvedavosť môže byť definovaná ako túžba získať viac vedomostí. Ako data scientist je potrebné aby ste boli schopný klásť otázky o dátach, pretože data scientist strávia približne 80 percent svojho času objavovaním a prípravou dát. Je to preto, že oblasť data science je oblasť, ktorá sa veľmi rýchlo vyvíja a musíte sa učiť veľmi veľa, aby ste držali krok s témou, konkurenciou, skr. priestorom data science.

Musíte pravidelne aktualizovať svoje znalosti čítaním online obsahu a čítaním relevantných kníh o trendoch v oblasti data science. Nemáte byť zahltení všetkými informáciami, ktoré behajú po internete, ale musíte byť schopní vedieť to, čo vám dáva zmysel. A zvedavosť je jednou zo zručností, ktorú určite potrebujete, aby ste ako data scientist boli úspešný.

11. Business postreh, múdrosť (Business acumen)

Ak chcete byť dobrý data scientist, budete potrebovať rozumieť odvetviu, v ktorom pracujete, a vedieť, aké obchodné problémy sa vaša spoločnosť pokúša riešiť. Musíte pochopiť, ako problém, ktorý riešite, môže mať vplyv na business. Preto potrebujete vedieť ako funguje firma, aby ste mohli svoje úsilie nasmerovať správnym smerom.

12. Komunikačné zručnosti

Spoločnosti, ktoré vyhľadávajú silných data scientist, hľadajú niekoho, kto môže jasne a plynulo preložiť svoje technické zistenia netechnickému tímu, ako sú oddelenia marketingu alebo predaja. Data scientist musí business-u umožniť sa rozhodovať tým, že ho vyzbrojí kvantifikovanými pohľadmi.

Nielenže musíte hovoriť tým istým jazykom, ktorému spoločnosť rozumie, musíte tiež komunikovať pomocou dátových príbehov. Ako data science musíte vedieť, ako vytvoriť dej okolo dát, aby bolo pre každého ľahké to pochopiť. Napríklad prezentácia tabuľky údajov nie je taká efektívna ako zdieľanie poznatkov z týchto údajov v storytelling formáte . Použitie príbehu vám pomôže správne komunikovať vaše zistenia vašim zamestnávateľom.

Pri komunikácii dávajte pozor na výsledky a hodnoty, ktoré sú vložené do analyzovaných dát. Väčšina business-u nechce vedieť, čo ste analyzovali, zaujímajú sa v prvom rade aký to môže mať pozitívny vplyv na ich business. Naučte sa byť zameraný dodávanie hodnoty a budovanie trvalých vzťahov prostredníctvom komunikácie.

13. Tímová spolupráca, súčinnosť

Data scientist nemôže pracovať sám. Budete musieť spolupracovať s vedúcimi zamestnancami (executives, manažérmi) na vývoji stratégií, pracovať s produktovými manažérmi a dizajnérmi s cieľom vytvárať lepšie produkty, pracovať s obchodníkmi s cieľom spustiť kampane s vyššou konverziou, spolupracovať s vývojármi klientských a serverových softvérov na vytváranie dátových potrieb, atď atď. Budete musieť doslova spolupracovať so všetkými v organizácii, vrátane vašich zákazníkov.

Pri tímovej spolupráci budete potrebovať poznať správny prístup k riešeniu use case-ov, ktoré sú potrebné na vyriešenie problému a ako preložiť a prezentovať vaše výsledky, tak aby každý účastník tímu to ľahko pochopil.

Tieto zručnosti patria podľa nás k základným na kariérnej ceste stať sa data science. Samozrejme nie sú statické, rovnako ako sa vyvíja prostredie, technológie a tiež sa môžu meniť podľa potrieb konkrétnej organizácie.

Na záver pár tipov pre kariéru v tejto profesii môžete násjť tu (v angličtine).

Na internete nájdete mnoho kvalitných a užitočných zdrojov. Uvádzame len niekoľko:

  • Dobrým štartom sú online kurzy: CourseraUdacity, a codeacademy
  • LinkedIn Groups – pripojte sa do LinkedIn skupín v oblasti data science
  • Data Science Central a KDnuggets – Data Science Central a KDnuggets sú dobrými zdrojmi na to, aby ste boli v kontakte s trendami v data science.

Uvítame vaše komentáre a návrhy, ktoré by obohatili a rozvinuli tento článok.

ZANECHAŤ ODKAZ

Please enter your comment!
Please enter your name here