Categorie archief: analytics

sxsw15 notes – How the data era will build high performance humans

Een sterk panel met goede sprekers, o.a. Haile Owusu, de chief data scientist van Mashable en Victor Cruz, een wide receiver van de New York Giants. Dat is american football ;-). Hier is alle info over het panel.

Cruz vertelde over wat er allemaal wordt vastgelegd bij de Giants. En dat is heel veel. Voor wide receivers is snelheid het belangrijkste, dus wordt van iedere training vastgelegd wat hun maximum snelheid was. Blijft deze hoog, door de week heen? Hoeveel afstand wordt afgelegd? Ze gebruiken horloges om hun slaap vast te leggen, die data wordt ook meegenomen.

Iedere speler krijgt iedere week een boekje met z’n uitslagen. Hoeveel slaap, hoeveel mijlen gelopen, maximum snelheid. Dit is leuk en geeft onderlinge competitie. En het verandert hun gedrag: Spelers gaan eerder slapen, omdat ze zien wat het effect is op hun snelheid.

De staf rond het team gebruikt de data ook. Data is blind en doof, en kan eventuele vooroordelen weghalen; Owusu maakt de case voor machine learning. Tegelijkertijd is er altijd menselijke interpretatie nodig. Data kan een gesprek over training makkelijker maken, doordat je naar iets kan wijzen. “Kijk, hier is iets opvallends” is een goede start van een conversatie.

In de sportschool kan data ook worden ingezet. Mensen die zo efficient mogelijk willen trainen kunnen data gebruiken om hun trainings-geschiedenis meteen bij zich te hebben, en een stapje verder kunnen zetten. Sommige gym-apparaten zijn daar al op voorbereid: Je loopt er heen, het apparaat verbindt zich met je device, en stelt zich alvast goed in. Voordeel voor de apparaten-leverancier is dat ze veel data krijgen en op die manier optimale workout strategieën kunnen ontwikkelen.

Mensen die gemotiveerd worden door onderlinge competitie kunnen data ook goed gebruiken. Equinox liet een video zien van een spin-class, waarbij er twee teams waren die op een groot beeldscherm een onderlinge wedstrijd reden. Dat is een stuk betere manier dan achterin de groep je apparaat stiekem minder zwaar zetten dan gevraagd ;-).

En wat moet je dan met die data? Daar is nog veel in te winnen, daar was men het er over eens. Als je veel data verzamelt kan je correlaties vinden. Maar vertrouw je die correlatie dan? Dat is voorlopig mensenwerk. En in een professionele omgeving is dat ook beter; je hebt een open ruimte nodig, coaches zullen nooit echt kunnen worden vervangen door machines. Atleten zijn ook makkelijker coachbaar dan normale mensen, ze nemen advies beter aan.

En wat is de toekomst? Gervais zegt: Er moeten systemen en strategieën komen waardoor mensen zelf kunnen gaan zien wat goed is voor ze. En ze op een verantwoorde manier tot het randje kunnen worden geduwd, maar binnen veilige grenzen. En de grote onbekende wereld die voorlopig buiten het meten valt zijn de gedachten. Deze wereld kan grote invloed hebben; ruzie met je vriendin of stress rond een transfer kan effect hebben op je prestatie, en dit valt voorlopig buiten wat praktisch meetbaar is.

Cruz wil graag één apparaat wat alles meet. Nu is het lastig om dingen te correleren omdat metingen in verschillende apps komen. En Owusu ziet in de toekomst mogelijkheden met computer vision. Automatische beeldherkenning  zou op die manier sleutel momenten in een video kunnen annoteren, wat veel zou kunnen helpen.

Een fijne en sterk geleide sessie waarbij duidelijk wordt dat dit er veel gebeurt op het gebied van sport en data, en dat er ook nog heel veel te doen is. Kansen volop.

 

sxsw15 notes – How to Prepare for The Tidal Wave of Big Data Jobs

Data wordt steeds strategischer voor bedrijven. Daarom zie je tegenwoordig soms de functie ‘Chief Data Officer’ of ‘Chief Analytics Officer’. Probleem is dat er te weinig mensen te vinden zijn voor deze functies. Dit panel ging over dat verschijnsel: Wat is nou dat werk, waarom is het tof, en wat zijn kwalificaties.

In het panel de Chief Analytics Officer van New York City, de Chief Digital Officer van het MoMa in New York en de oprichter van de Digital Officers Club. Alle info is hier te vinden als je dat wilt nazoeken.

De functies als ‘Chief Analytics Officer’ ontstaan niet zo maar, in een organisatie. Een effectieve manier om de noodzaak van die functie aan te tonen is door te gaan kijken naar een probleem wat op dat moment gezien wordt door de organisatie, en dat dan te proberen op te lossen met data. Daaruit volgt dan als vanzelf dat je mensen nodig hebt om dat werk uit te voeren en is de ‘data functie’ geboren.

De Chief Analytics Officer van New York vertelde hoe zijn dag er uit zag. Centraal voor zijn werk is altijd: Welke processen gebeuren er in New York, welke nieuwe diensten zijn er voor de New Yorkers, welke problemen zijn er daar mee. En als die problemen er zijn kijkt hij naar het landschap van data. Welke data is er allemaal. In New York heeft hij veel moeite gedaan om alle eilandjes van data te verbinden. Dat vereist praten, uitleggen, vragen. Een belangrijke skill voor een Chief Analytics Officer.

Hij gaf een mooi voorbeeld van het nut van analytics binnen New York. Vorig jaar zijn er bij een brand een aantal brandweermannen om het leven gekomen omdat het appartement illegaal verbouwd bleek te zijn. New York heeft inspecteurs die daar op toezien, maar die hebben natuurlijk een eindige hoeveelheid tijd en moeten kiezen waar ze langs gaan. Door analytics te draaien op onder andere de belastinggegevens van verhuurders konden ze een veel betere set maken van potentieel illegaal verbouwde appartementen. Het percentage sluiting op geïnspecteerde appartementen ging daardoor van 13 naar 70 procent, enorm veel beter dus. Analytics redt levens, mensen.

Vervolgens kwam de discussie op het onderwerp: Hoe kan je de vereiste mix van skills krijgen? Sreenivasan tipte een ‘Computational Journalism’ cursus die Columbia geeft. Mashariki vertelde dat de analytische skills een vereiste zijn, en daarnaast iets als gedragswetenschap of psychologie ook vereist is.

Hoe vind je die mensen, als organisatie? New York doet dat als volgt: Ze geven een bepaald probleem, en zeggen: Los dit op met data. Je hebt een week. De persoon die dit oplost, er een goed verhaal bij heeft, én die andere gemeente instanties heeft gebeld voor data, is geschikt voor de baan. Kijk op nyc.gov/analytics om te zien hoe dat er uit ziet.

En als je ze hebt, hoe richt je je organisatie dan in? Bij LinkedIn was er eerst een centraal team met data scientists, die alle vragen oplosten. Dit team was groot genoeg om een andere organisatie-structuur te testen, en ze werken nu decentraal. Per afdeling 2 data-scientists. Dit werkt goed omdat die de medewerkers van die afdeling dan gaan leren hoe ze dingen moeten aanpakken. De kennis wordt zo breder in de organisatie. Als je de luxe niet hebt van een dergelijk groot team moet het centraal. Het risico bestaat dat een eenzame data scientist alleen maar opdrachtjes krijgt van een product manager, en na een jaar gek wordt om alleen maar sql te tikken.

Hoe zien ze de toekomst van data science? Dat de resultaten meer ‘ambient’ worden. Nu is het rapportage op verzoek, dit moet veranderen in weergave van de dingen die je moet weten, op een meer laagdrempelige manier, bijvoorbeeld via wearables of andere meer ‘ambient’ displays.

Al met al een mooi overzicht van dit werkveld en nuttige tips.

Revenge of the nerds

Eerste sessie van de Sloan Sports Analytics Conference is meteen een topper. Panel met Michael Lewis (schrijver van Moneyball), Marc Cuban (Eigenaar Mavericks), Nate Silver (auteur The Signal and the Noise), Paraag Marathe (COO 49’ers) en Daryl Morey (GM van de Houston Rockets). Een paar van de onderwerpen die langs kwamen.

Hoe ga je om met statistieken in een sportclub?
Michael Lewis zei dat de vele boze reacties op Moneyball hem verbaasd hadden, maar het daarna ook wel begreep want het ging mensen hun baan kosten. Een club is gewend te werken op een bepaalde manier, en de sportwereld is relatief gesloten voor de buitenwereld. Iets wat Marathe ook noemde, en Cuban vertelde over hoe hij als eigenaar behoorlijk werd aangepakt, “wat weet jij er nou van, knul” door z’n eigen mensen. Marathe noemde als grootste uitdaging voor een statistiek-gedreven initiatief ook dat je heel veel moet communiceren zodat het een groepsbeslissing wordt, in plaats van een idee van die Indiase vent met z’n cijfers. Inmiddels is het in de VS wel meer volwassen geworden, en worden stats samen met andere kenmerken gebruikt. Scouts kijken naar stats als ‘baseline’, en kijken dan zelf naar de persoonlijkheid en andere aspecten van een speler om te kunnen inschatten of deze een succes kan worden.

Wat is er nog te weinig verkend?
In basketbal gebeurt er nog te weinig met de beweging van de spelers. Van iedere speler en de bal wordt 30x per seconde de positie vastgelegd, en dat is een nog relatief nieuwe berg data waar de nodige winst uit te halen is. In football wordt er nog te weinig gekeken naar het mentale aspect. Het atletisch vermogen van spelers is erg soortgelijk, maar psychologisch zijn er grote verschillen in hoe spelers omgaan met een fout, of juist een succes. Ook is blessure voorkoming belangrijk, als je belangrijkste speler er 4 wedstrijden naast zit kan je seizoen verpest zijn.

Wat is het volgende grote?
Alle panel leden waren het eens over ‘in game strategy’ als grote verbetering waarbij stats nog goed kunnen worden ingezet. Zelfs bij football wordt het nog niet gedaan en wordt de beslissing over run vs pass, of wat te doen bij een 4th down nog altijd ad hoc genomen. Zelfde bij basketbal, ‘We doen tijdens de wedstrijd nog altijd hetzelfde als 20 jaar geleden’ en er wordt veel te weinig gebruik gemaakt van de live stats, met name de xy data.

Wat is nog moeilijk te meten?
De kwaliteit van coaches wordt nog weinig naar gekeken. Een goede coach kan veel meer uit een speler halen, daar kan heel veel verdiend worden. Ook het samenspel tussen de coaches, spelers en overige staf. De chemistry. Vullen ze elkaar goed aan. Cuban vertelt ook over organizational dynamics: wat gebeurt er tussen spelers, wie loopt er eerder uit de huddle, wie zit stiekem te vloeken in z’n handdoek. Dat is mensenwerk en daar moet je bovenop zitten. En dat doet hij ook, tot verbazing van z’n andere staf. Maar hij is het gewend uit het zakenleven. En dat blijkt dan toch nieuw te zijn voor de sportwereld.

Al met al een heel goed panel, veel goede anekdotes. Zoek de video op als hij online komt.

First talk on CSN11 – Sentiment analysis

According to the Condorcet theorem, bigger crowds do better. If each individual independently decides with the same probability, the collective reaches ‘the right’ decision fast. If the individuals can connect, the collective behavior can become very rich and complex. See Linux, wikipedia.

But on social networks, there is no collective ‘goal’ besides connecting, recreation. Still, the chatter can predict the box office receipts. And Google search terms shows where people have flu, better than any medical database. It is also shown that happiness and loneliness is contagious; if many people in your network are lonely, you feel more lonely too.

His research focuses on sentiment, by extracting indicators from text. And predicting the future from that. This can work well, if applied on large numbers, see http://wefeelfine.com and Facebook gross happiness index.

McNair defines 72 terms, that map to 6 independent dimensions. These terms are applied to tweet texts, resulting in 6 charts. It turns out that about 8% of all tweets show emotional content. Charts of Election08 shows dips and peaks that make sense; energetic on election day, for example.

The Dow Jones industrial average appears to correlate with the Calm measurement, but with a lag of about 4-5 days. It can be used to predict its future value, with an accuracy of 86%, whatever that may mean.. See http://arxiv.org/abs/1010.3003 for his paper.

He also studied mood contagion. Look at twitter users who follow each other, and then the use of emoticons. People follow others with similar traits, assortative network. He shows that sad people connect to sad people, and happy to happy people. His recommendation is to connect to happy people, and to disconnect from unhappy ones. 🙂

He concludes with the question if we can unleash a happiness virus on the network, would that work? Or push another mood?

Nice talk by jbollen@indiana.edu. The slides of his presentation can be found at http://www.slideshare.net/KREMCSN/csn11-keynote-johan-bollen