Okolo statistického jazyka a nástroje R se točí čím dál více lidí. Josef Šlerka v úterý 30. června zorganizoval již druhý sraz, kde byla možnost sdílet své zkušenosti i strasti s erkem. Během večera jsem si psal pár poznámek ke 3 prezentacím a říkal jsem si, že by se vám z toho mohlo něco hodit.
1) Pusťte své R do oblak – Petr Šimeček, chovatel myší
Biostatistik pracující v Jackson laboratory ve Státech. Ukazoval R
v Dockeru na Digital Ocean.
Petr Simecek je prvnim mluvcim na druhem prazskem R meetupu #rstats Rec je o Rku v cloudu. pic.twitter.com/Trz0Rd03Z5
— Josef Šlerka (@josefslerka) June 30, 2015
Co mne zaujalo:
- Docker běží i pod Windows.
- Stáhne si to virtuální mašinu z Dockerhubu, tam je 45 tisíc veřejně přístupných kódů.
- Lze si takto zafixovat stejnou verzi R i celé prostředí, stejně jako na nějakém virtuálním image. Ideální pro práci větších týmů nebo výuku, kde musí být všechna prostředí ve stejné výchozí pozici.
- Pro R už je připravený obraz Rocker, v něm varianta r-studio s RStudio Serverem.
- Balíček hadleyverse má připraveny všechny podstatné balíčky včetně ggplot2.
- Docker se dá hostovat přes Microsoft Azure Marketplace, Amazon EC2 Container Service nebo Google Cloud.
- Petr měl zkušenosti s hostováním přes službu Digital Ocean (aff odkaz Petra).
- Je jednodušší na ovládání.
- 10 dolarů by mělo stačit na 2 měsíce při paměti 1 GB; zhruba cent za hodinu na stroj.
- Je to čistě Linux, Ubuntu.
- Předinstalované aplikace – Docker
- Za ShinyApps.io už se začalo platit, je levnější jet přes Digital Ocean.
- Petr se k Dockeru přihlašuje svým SSL certifikátem přes SSH.
- Odkaz na realizaci RStudia v cloudu: http://sas-and-r.blogspot.cz/2014/12/rstudio-in-cloud-for-dummies-20142015.html
- Petrův blog: http://applyr.blogspot.cz/
2) Anastassiya Zidkova, genetička v MSD
- PhdD z oboru Molekulární a buněčné biologie, genetiky a virologie.

- Používá admixture model, sleduje historickou migraci obyvatel dle jejich stopy v DNA.

- Líbila se mi celá prezentace, ale nezapisoval jsem si. Proklikejte si https://github.com/…azie/Rmeetup
- Co mne zaujalo: když Anastázie potřebuje ukázat nějakou složitou vizualizaci, vsune před to v prezentaci přípravný slide, aby lidem představila, o co půjde.

…a po takovém slidu již následuje brutalitka.

3) Tomáš Hovorka a Martin Horáček, Median
- Provozují něco jako peoplemeter, ale pro rádia – aplikace v mobilním telefonu, pořád poslouchá zvuk, posílá data do Medianu, dělají audiomatching s tím, co se vysílalo v rádiích.
Tomas Hovorka z agentury Median o Rku jako produkcnim systemu. Druhy prazsky R meetup v plnem proudu. #rstats pic.twitter.com/skdNKCjozW
— Josef Šlerka (@josefslerka) June 30, 2015
- Denně se z telefonu přenáší jen 1 MB dat (jen hashů).
- Pokud vás ten projekt zajímá více, projděte si smlouvu s Českým rozhlasem.
- Zajímavé postřehy např. o přepínání rádia po hodinových programech.
- Kluci sdíleli své pragmatické zkušenosti s rozvojem takového systému.
- Přijímání dat přes C#, ukládá do SQL.
- R pak čistí data, dělá reporting.
- Z prototypu se stal produkt, co už pět let funguje.
- Rychlejší vzhledem k agilnímu vývoji.
- Cca 60 R souborů + 5 Sweave
šablon
- Kombinace texu a R.
- Šablony na týdenní reporty a měsíční, pak to projedou pdflatexem.
- Tehdy asi ještě nebyl R Markdown.
- Načítají data z MSSQL, zprocesují, uloží zpět do MSSQL včetně toho reportu
- Rabbit na fronty, distribuce úloh v clusteru audiomatchingu.
- Knihovna rmongodb.
- Rodbc pro MSSQL, mySQL.
- Logování přes sink.
- tryCatch kvůli odladění, proč něco spadlo.
- daří se jim udržet zarovnání kódu, protože Rstudio to dělá samo.
- Používají krásné poznámky v kódu: PRASE/TODO.
- Mají vlastní skript na hledání funkcí ve skriptech, které už se nikde nepoužívají.
- Na version control používají TortoiseSVN.
- RShiny - když jim napočítání
trvá dlouho, používají tlačítko obnovit.
- Pro ladění mají v Shiny záložku session log, kde trackují chyby.
- Statistiky dělají hodně v rámci SQL.
- Výpočty dělají v C#.
- V R kreslí grafy.
- Neumí vykreslit „č“ v pdf grafu, aby byl vidět v Acrobatu. Kdo to vyřešil, ať se jim ozve.
Ohlášky navíc
1) Děláte-li s Tableau, Petr Havlík 29. července
pořádá Tableau User Group v Praze.
2) Máte někdo zkušenost s budováním prediktivního systému? Tedy
návrh architektury takového systému, zapojení nějakého modelu do
produkčního prostředí, hlídání kvality a zlepšování predikcí?
Napište mi.