Suite

Comment définir un événement pour les fonctionnalités sélectionnées dans mapcanvas dans qgis à l'aide de python

Comment définir un événement pour les fonctionnalités sélectionnées dans mapcanvas dans qgis à l'aide de python


J'ai créé un bouton poussoir, lorsqu'il est cliqué, il appelle la fonction 'selectfeatures'. Cette fonction appellera la fonctionnalité Sélectionner à l'aide de l'outil à main levée de QGIS et permettra à l'utilisateur de sélectionner des fonctionnalités dans le mapcanvas. Ce dont j'ai besoin, c'est que mon événement reconnaisse les fonctionnalités sélectionnées dans mapcanvas et appelle une autre fonction. Comment cela doit-il être accompli ?


Si je vous ai bien compris, vous pouvez utiliser le SIGNALsélectionChangéà partir de votre couche vectorielle et connectez-la à votre autre fonction (qui doit accepter un argument pour recevoir les identifiants des entités sélectionnées).

Par exemple, chargez une couche vectorielle dans QGIS, activez-la dans la table des matières et exécutez le code suivant dans la console QGIS Python. Vous devriez voir que la fonction s'exécute après une nouvelle sélection, reconnaissant les identifiants des fonctionnalités sélectionnées.

lyr=iface.activeLayer() def myFunction(selFeatures) : print str(len(selFeatures)) + " les fonctionnalités ont été sélectionnées : " + str(selFeatures) lyr.selectionChanged.connect(myFunction)

Sélectionnez la fonctionnalité une par une et enregistrez-la en tant qu'image à l'aide d'un script python

J'ai utilisé le code suivant pour sélectionner les fonctionnalités une par une. mais lorsque j'exécute le script, il sélectionne simplement la dernière fonctionnalité et zoome. Je veux sélectionner chaque fonctionnalité et l'agrandir.

Maintenant, le processus de zoom est trop rapide car je ne peux pas voir la fonction sélectionnée zoomée. en plus de cela, l'image qui est générée est la même à chaque fois. Mon objectif est de réaliser les choses suivantes.

Répétez les étapes pour le reste des fonctionnalités.


Identification des clics sur les boutons gauche et droit de la souris dans l'application PyQgis

Salut les gars, je suis relativement nouveau sur PyQt. J'essaie de créer un plugin personnalisé pour Qgis qui permet à l'utilisateur de sélectionner certaines entités en dessinant un polygone sur le canevas à l'aide de clics de souris, puis d'effectuer l'intersection des entités sélectionnées avec une autre couche. Ce que je veux faire, c'est que lorsque l'utilisateur clique avec le bouton droit sur le canevas, la sélection de polygones doit s'arrêter. Pour cela, je dois identifier entre les signaux de la souris droite et gauche. J'ai créé une fonction factice juste pour tester cette fonctionnalité :

J'appelle cette fonction comme suit :

Mais je n'arrive pas à appeler la fonction. Je suppose que je fais quelque chose de mal dans la section canvasClicked. Toute aide à ce sujet serait très appréciée. Merci d'avance :)


Évaluez votre décision.

Une fois que vous avez choisi un marché cible, assurez-vous de considérer ces questions :

  • Y a-t-il suffisamment de personnes qui correspondent à mes critères ?
  • Ma cible bénéficiera-t-elle vraiment de mon produit/service ? En verront-ils un besoin ?
  • Est-ce que je comprends ce qui pousse ma cible à prendre des décisions ?
  • Peuvent-ils se permettre mon produit/service ?
  • Puis-je les joindre avec mon message ? Sont-ils facilement accessibles ?

Ne décomposez pas trop votre cible ! N'oubliez pas que vous pouvez avoir plus d'un marché de niche. Déterminez si votre message marketing doit être différent pour chaque créneau. Si vous pouvez atteindre efficacement les deux niches avec le même message, alors vous avez peut-être trop décomposé votre marché. De plus, si vous trouvez qu'il n'y a que 50 personnes qui correspondent à tous vos critères, vous devriez peut-être réévaluer votre cible. L'astuce consiste à trouver cet équilibre parfait.

Vous vous demandez peut-être : « Comment puis-je trouver toutes ces informations ? » Essayez de rechercher en ligne les recherches que d'autres ont effectuées sur votre cible. Recherchez des articles de magazines et des blogs qui parlent de ou de votre marché cible. Recherchez des blogs et des forums où les personnes de votre marché cible communiquent leurs opinions. Recherchez les résultats du sondage ou envisagez de mener votre propre sondage. Demandez vos commentaires à vos clients actuels.

Définir votre marché cible est la partie difficile. Une fois que vous savez qui vous ciblez, il est beaucoup plus facile de déterminer quels médias vous pouvez utiliser pour les atteindre et quels messages marketing résonneront avec eux. Au lieu d'envoyer du courrier direct à tout le monde dans votre code postal, vous pouvez l'envoyer uniquement à ceux qui correspondent à vos critères. Économisez de l'argent et obtenez un meilleur retour sur investissement en définissant votre public cible.


Introduction

Les systèmes volcaniques à proximité des zones urbanisées nécessitent une évaluation solide des risques pour aider les décideurs pendant les périodes critiques de gestion des urgences, ainsi qu'avant le début des troubles volcaniques, pour élaborer des plans de préparation et définir la gestion de l'utilisation des terres. L'évaluation de l'aléa volcanique à partir de futurs scénarios éruptifs de manière probabiliste est devenue une technique largement utilisée pour l'évaluation des risques ces dernières années (Newhall et Hoblitt 2002 Marzocchi et al. 2004, 2006, 2008, 2010 Aspinall 2006 Neri et al. 2008 Martí et al. 2008a, 2011 Sobradelo et Martí 2010 Sobradelo et al. 2011). L'aléa volcanique est la probabilité qu'une zone particulière soit affectée par un événement volcanique destructeur au cours d'une période donnée (Blong 2000). Ainsi, pour quantifier l'aléa volcanique, nous devons estimer les probabilités d'occurrence d'un scénario éruptif particulier dans le temps et dans l'espace. Malgré les limites de la construction d'un arbre d'événements généralement imposées par le manque de connaissances sur le comportement passé et présent des volcans actifs, il ressort clairement des travaux précédemment cités et des expériences de crises volcaniques (Aspinall et Cook 1998) que la construction d'un L'arbre d'événements est extrêmement utile pour l'évaluation des dangers.

Les probabilités futures d'occurrence d'un scénario éruptif peuvent être analysées à la fois à court et à long terme. Les prévisions d'éruption à court et à long terme sont définies en fonction de l'intervalle de temps prévu au cours duquel le système volcanique entre en troubles et/ou montre des variations importantes. Aux fins de notre analyse, le risque volcanique à long terme fait référence à la fenêtre de temps avant que le système volcanique ne s'émeuve, et le risque volcanique à court terme fait référence à la phase de troubles. Par conséquent, la prévision à long terme est principalement basée sur des données géologiques, historiques et géochronologiques et des modèles théoriques, tandis que la prévision à court terme est complétée par des informations issues d'une surveillance continue.

La complexité de tout système volcanique et ses processus éruptifs associés, ainsi que le manque de données qui caractérisent de nombreux volcans actifs, en particulier ceux avec de longs intervalles entre les événements, rendent la quantification des risques volcaniques très difficile, car il n'y a souvent pas assez de données d'observation pour construire un modèle statistique robuste. Cependant, il est important de trouver un moyen de résumer l'incertitude d'un scénario volcanique de manière structurée et systématique, afin que lorsque de nouvelles preuves arrivent, nous puissions mettre à jour ces incertitudes de manière cohérente et rigoureuse. Cela permettra de documenter les chemins menant aux décisions et de les suivre plus tard, plutôt que de se baser sur l'intuition ou des sentiments instinctifs.

L'inférence bayésienne est basée sur le principe que chaque état d'incertitude peut être modélisé avec une distribution de probabilité. Il fournit un instrument numérique, basé sur une modélisation mathématique rigoureuse, pour définir et interpréter les incertitudes. Au fur et à mesure que de nouvelles données arrivent, la méthode intègre les nouvelles preuves afin de réduire progressivement l'incertitude. La précision des estimations de probabilité pour chaque scénario éruptif possible dépendra fortement des données disponibles. Nous commençons par l'état d'ignorance totale et utilisons des a priori non informatifs pour quantifier notre incertitude avant d'observer les données, puis les mettons à jour avec l'arrivée de nouvelles preuves à partir de données géochronologiques et géophysiques, pour obtenir les probabilités postérieures, qui fournissent une estimation de l'incertitude. après avoir observé les données. En raison du catalogue de données médiocre et incomplet souvent utilisé lors des estimations d'éruptions, les incertitudes aléatoires (stochastiques) et épistémiques (données ou connaissances limitées) sont importantes et nous devons trouver un moyen de les évaluer correctement.

L'incertitude aléatoire (stochastique) est une conséquence de la complexité intrinsèque d'un système, d'où une limitation de notre capacité à prédire l'évolution du système de manière déterministe. L'incertitude aléatoire introduit une composante d'aléatoire dans les résultats, quelle que soit notre connaissance physique du système. L'incertitude épistémique est directement liée à notre connaissance du système et à la qualité et la quantité de données que nous avons sur le système. Plus nous avons de données, mieux nous connaissons le système et plus l'incertitude épistémique est faible (Woo 1999).

Dans cet article, nous présentons Hazard Assessment Event Tree (HASSET), un outil de probabilité qui utilise l'inférence bayésienne dans une structure arborescente d'événements pour évaluer l'aléa volcanique des futurs scénarios volcaniques. Il évalue les sources d'incertitude les plus pertinentes pour estimer la probabilité d'occurrence d'un événement volcanique futur. HASSET est présenté comme un progiciel gratuit sous la forme d'un plug-in pour le système d'information géographique open source Quantum Gis (QGIS), fournissant un calcul graphiquement soutenu de l'arborescence des événements de manière interactive et conviviale. Il est construit sur le modèle d'arbre d'événements bayésien proposé par Sobradelo et Martí (2010) et élargi pour inclure deux nœuds supplémentaires et importants pour tenir compte du type et de l'extension des phénomènes d'aléa. De plus, HASSET introduit la méthode Delta pour approximer la précision des estimations de probabilité, en construisant un intervalle de variabilité de 1 écart type autour de la valeur de probabilité attendue pour chaque scénario.

Il est important de mentionner que certaines parties de notre outil chevauchent les outils BET_EF et BET_VH présentés par Marzocchi et al. (2008, 2010). Ces outils utilisent la théorie bayésienne dans une structure arborescente d'événements. HASSET est construit sur la plate-forme QGIS, tirant parti des fonctionnalités supplémentaires de ce système d'information géographique, et BET_EF et BET_VH sont présentés sous la forme d'un logiciel indépendant. Les principales différences sont que HASSET évalue le danger associé aux épisodes de troubles magmatiques et non magmatiques, en tenant compte des troubles induits par des déclencheurs externes (géothermie, sismique), par opposition aux déclencheurs internes seuls (magmatiques) (cela sera décrit plus en détail dans la section suivante ). HASSET évalue le risque associé aux scénarios volcaniques éruptifs et non éruptifs (par exemple, explosion phréatique et défaillance de secteur) et examine le risque pour différents types de composition de magma et différents emplacements de ventilation, ainsi que le risque géologique et son étendue. Cela permet d'identifier des scénarios éruptifs importants qui, autrement, passeraient inaperçus. À cet égard, HASSET surmonte les limites des modèles d'arbre d'événements précédents en permettant un plus grand ensemble de scénarios volcaniques futurs dans leur estimation de probabilité, et étend ainsi leur utilisation à un plus large éventail de systèmes volcaniques, en tenant compte des incertitudes aléatoires et épistémiques, et en réduisant le un biais supplémentaire que la composante de décision humaine ajoute à l'utilisation de techniques alternatives pour estimer les probabilités d'arbre d'événements (Aspinall 2006 Loughlin et al. 2002). Dans cet article, nous nous concentrerons sur l'évaluation du risque volcanique à long terme du système, nous baserons donc notre analyse sur le comportement passé du volcan.


Transformations MNF inverses

Utiliser Transformée MNF inverse pour retransformer les bandes MNF dans leur espace de données d'origine.

Noter: Lisser les images dominées par le bruit (numéros de bande plus élevés) avant d'effectuer la transformation inverse ou éliminer les bandes bruitées pendant la transformation inverse à l'aide d'un sous-ensemble spectral. Le lissage ou l'élimination des bandes bruyantes réduit le bruit dans l'espace de données d'origine.

  1. Dans la boîte à outils, sélectionnez Transformer > Rotation MNF > Transformer MNF inverse. La boîte de dialogue Inverse MNF Transform Input File s'affiche.
  2. Sélectionnez un fichier d'entrée et effectuez un sous-ensemble spatial et spectral facultatif, puis cliquez sur d'accord. La boîte de dialogue Saisir le nom de fichier des statistiques MNF avant s'affiche.
  3. Saisissez le nom du fichier de statistiques MNF de transfert.
  4. Cliquez sur d'accord. La boîte de dialogue Paramètres de transformation MNF inverse s'affiche.
  5. Sélectionnez la sortie vers Déposer ou alors Mémoire.
  6. Du Type de données de sortie liste déroulante, sélectionnez le type de données.
  7. Cliquez sur d'accord. ENVI ajoute la sortie résultante au gestionnaire de calques.

Échantillonnage aléatoire stratifié proportionnel

  1. Met le Stratification tapez le bouton radio pour proportionner.
  2. Entrer le Taille minimale de l'échantillon en pourcentage ou en pixels en cliquant sur le bouton bascule. La saisie d'une valeur pour l'un mettra automatiquement à jour la valeur pour l'autre, ce qui permet de voir facilement la relation entre la taille de l'échantillon en pourcentage et la taille de l'échantillon en pixels. La taille minimale est de un, pour garantir qu'au moins un pixel est inclus dans la plus petite classe (ou ROI).
  3. Pour afficher les tailles d'échantillon de classe proportionnelles pour le paramètre de taille d'échantillon minimum actuel, cliquez sur voir les tailles d'échantillons de classe. La boîte de dialogue Tailles d'échantillon proportionnelles doit être fermée avant que la boîte de dialogue Générer des paramètres d'entrée d'échantillon aléatoire ne redevienne active.

La taille totale de l'échantillon s'affiche à gauche de la voir les tailles d'échantillons de classe et se mettra à jour dynamiquement à mesure que de nouveaux paramètres sont entrés.


  • Le projet 11th Hour (La Fondation de la famille Schmidt)
  • ACLU
  • Services Web Amazon (AWS)
  • Audacieux
  • Booster le sport
  • Canal.ai
  • Cérémonie
  • Dictionary.com
  • Arts électroniques (EA)
  • Eventbrite
  • Facebook
  • Jumio
  • La Haus
  • LexisNexis
  • Medstar Santé
  • Métromile
  • Commission métropolitaine des transports (MTC)
  • Les Mets de New York
  • Novi
  • Parité
  • PG&E
  • Phylagène
  • Gemmes de poche
  • Santé de l'hélice
  • Simple soldat
  • Récologie
  • Reddit
  • École supérieure de commerce de Stanford
  • École de médecine de Stanford
  • Sirop.tech
  • UCSF Brain Networks Lab
  • Métastase cérébrale UCSF
  • Séjours hospitaliers UCSF
  • Radio-oncologie UCSF
  • Cancer de la prostate par rayonnement UCSF
  • Radiochirurgie à planification automatique UCSF
  • Cancer de la colonne vertébrale métastatique UCSF
  • Solutions vidéo chirurgicales Vierge
  • Basket-ball de l'Université de l'État de Washington
  • W.L. Gore & Associés

Actualités ABC

Notre équipe: Daren Ma, Ming-Chuan Tsai, Haree Srinivasan

But: Les étudiants d'ABC News ont utilisé Python pour écrire un modèle d'apprentissage automatique pour prédire les résultats des élections et ont utilisé Docker et AWS pour déployer le pipeline.

Conseiller en responsabilité

Notre équipe: Jacob Goffin

But: Chez Accountability Counsel, Jacob a créé des scripts de grattage Web en Python et Selenium pour créer une base de données unique en son genre sur les plaintes relatives aux droits de l'homme. Il a également construit une recherche de documents (à l'aide de Django/ElasticSearch) sur des milliers de documents .pdf, permettant aux utilisateurs de trouver rapidement des affaires de droits humains pertinentes pour soutenir leurs recherches.

Airbnb

Notre équipe: Ivette Sulca, Hoda Noorian

But: Les étudiants d'Airbnb ont développé un prototype d'outil d'évaluation qui identifie les biais socio-économiques sur les algorithmes et les expériences Airbnb. Ils ont analysé les tests A/B passés et créé un tableau de bord à l'aide de Python et de Superset.

Notre équipe: Esther Liu, Jack Dong

But: Chez Beam Solutions, les étudiants ont utilisé des techniques d'apprentissage automatique pour classer les données de transaction et effectuer le clustering de texte. Ils ont également travaillé sur la recherche de l'industrie et la cartographie des bases de données pour de nouveaux clients potentiels.

Cuyana

Notre équipe: Hannah Lyon

But: Chez Cuyana, Hannah a utilisé des chaînes de Markov pour développer un modèle d'attribution marketing basé sur les données qui a informé les dépenses marketing. Elle a créé un modèle de propension des clients en utilisant l'amplification du gradient pour déterminer les fonctionnalités critiques du site qui ont ensuite été améliorées par l'équipe numérique pour améliorer la conversion. De plus, elle a combiné les données SQL et Tableau pour une analyse ad hoc des méthodes de paiement, formé des réseaux de neurones pour produire des intégrations de produits utilisées pour un système de recommandation sur les pages de produits du site Web et modélisé le comportement des acheteurs récurrents prédisant les deuxièmes achats.

Eventbrite

Notre équipe: Maxine Liu, Zhentao Hou

But: Les étudiants d'Eventbrite ont créé un classificateur et un modèle d'apprentissage en profondeur pour améliorer les recommandations d'événements. Ils ont également recherché des arguments pour et contre l'investissement dans des événements en ligne du point de vue de la taille des opportunités, des données sur les produits et de l'impact potentiel sur les revenus. Dans un autre projet, ils ont analysé des données textuelles avec des bibliothèques NLP pour identifier les caractéristiques indiquant la qualité de la liste des événements.

Faire la fête

Notre équipe: Kevin Wong

But: Chez Faire, Kevin a développé un mécanisme de signalisation des valeurs aberrantes basé sur SQL. De plus, il a mené une analyse approfondie de l'efficacité de l'application mobile Faire sur le comportement des détaillants à l'aide de SQL, de python, de statistiques et de la correspondance des scores de propension.

Notre équipe: Peng Liu, Wenjie Duan

But: Les étudiants de FLYR ont développé un workflow SQL/python qui prédit les revenus des vols en trouvant des vols similaires avec des modèles de clustering et de forêt aléatoire.

FracTracker

Notre équipe: Viviane Chu

But: Vivian a travaillé avec FracTracker sur la collecte et l'agrégation de données pétrolières et gazières pour l'État de Californie, avant de procéder à l'analyse de la production des puits de pétrole au niveau du pool. Des données financières ont ensuite été ajoutées pour prédire l'état de chacun des puits de pétrole en tant qu'actif ou passif.

Guerriers de l'État d'or

Notre équipe: Kyrill Rekun, Xueying Li

But: Aux Golden State Warriors, les étudiants ont utilisé des techniques d'apprentissage automatique pour créer un modèle d'acheteur de billets de dernière minute qui prédit la probabilité qu'une personne soit un acheteur de dernière minute, un planificateur ou un acheteur intermédiaire. À l'aide du package Python à vie, ils ont créé un modèle de dépenses de valeur à vie proxy pour les clients afin de les aider dans le marketing et le ciblage des tickets. Ces projets ont utilisé des outils tels que Pandas, Seaborn et sklearn.

Gore Médical

Notre équipe: Peng Liu, Wenjie Duan

But: Les étudiants de Gore Medical ont développé des modèles PyTorch CNN en utilisant l'API fast.ai pour détecter les points clés dans les images médicales de tomographie par cohérence optique, permettant ainsi l'évaluation automatisée d'un implant. Ils ont obtenu ces résultats en utilisant l'apprentissage par transfert et l'augmentation des données.

Hohonu

Notre équipe: Ariana Moncada, Matthieu Sarmiento

But: À Hohonu à l'Université d'Hawaï, les étudiants ont créé un pipeline de prévision des marées qui aide à remplir une application Web Django et des tracés Plotly pour les prévisions. Ils ont regroupé plusieurs ensembles de données de séries chronologiques pour augmenter les performances de leurs modèles de séries chronologiques multivariées en R et Python.

Groupe d'analyse des données sur les droits de l'homme (HRDAG)

Notre équipe: Bing Wang

But: Au Human Rights Data Analysis Group (HRDAG), Bing a glané l'emplacement critique des informations sur les décès à partir de champs de texte non structurés en arabe à l'aide de Google Translate et de Python Pandas, ajoutant des enregistrements identifiables aux données du conflit syrien. Elle a écrit des scripts R et bash Makefiles pour créer des blocs d'enregistrements similaires sur les meurtres dans le conflit au Sri Lanka afin de réduire la taille de l'espace de recherche dans le processus de couplage d'enregistrements d'apprentissage automatique semi-supervisé (déduplication de base de données).

Collecteur

Notre équipe: Shreejaya Bharathan, Geoffrey Hung

But: Les étudiants de Manifold ont développé une bibliothèque Python qui utilise l'apprentissage automatique et l'apprentissage en profondeur pour résoudre les paramètres des systèmes dynamiques définis par des équations différentielles à l'aide de PyTorch, Docker et MLFlow.

MetroMile

Notre équipe: Matthieu Roi, Lin Meng

But: À Metromile, les étudiants ont créé un modèle de classification des collisions pour prédire le principal point d'impact lors d'une collision à l'aide des données télématiques recueillies auprès des clients. Sur un autre projet, ils ont utilisé l'apprentissage en profondeur pour classer les images de voitures frauduleuses.

Mets de New York

Notre équipe: Rushil Sheth

But: Aux Mets de New York, Rushil a créé des modèles de changement de champ intérieur et extérieur en utilisant des distributions multivariées, des classificateurs puissants (RF et XGboost) et le clustering.

Commission métropolitaine des transports (MTC)

Notre équipe: Kamron Afshar, Michael Schulze

But: Les étudiants de MTC ont utilisé l'apprentissage en profondeur pour former un classificateur d'images de réseau neuronal sur des images de bâtiments afin de classer leur utilisation. Ils ont généré l'ensemble de données à l'aide de l'API Google. Ils ont également construit un pipeline de données de robot d'exploration Selenium qui récupère les codes juridiques et les a collectés dans une base de données Redshift pour suivre les modifications.

Nu Poppy

Notre équipe: Lisa Chua, Shane Buchanan

But: Chez NakedPoppy, les étudiants ont amélioré le système de recommandation pour les nouveaux clients en incorporant un filtrage basé sur le contenu et collaboratif formé sur les données du parcours de navigation. Ils ont utilisé des techniques de PNL pour extraire les aspects clés des avis Google et mis en œuvre une exploration d'opinion basée sur les fonctionnalités des avis sur les produits pour aider à la notation des nouveaux produits. Plus tard, ils ont effectué une analyse du panier de marché sur les données de transaction pour fournir aux clients des recommandations « de jumeler avec » et augmenter l'engagement.

Orioles de Baltimore

Notre équipe: Collin Prather

But: Aux Orioles de Baltimore, Collin a mis en œuvre un modèle d'analyse de survie récurrente profonde (LSTM dans PyTorch) pour prédire la probabilité qu'un entraîneur de la Ligue américaine retire son lanceur à l'aide de données de séries chronologiques en jeu. Un autre projet important consistait à développer un modèle pour prédire le niveau de fatigue des lanceurs de secours, puis à déployer une application Web conteneurisée (Docker) sur AWS pour héberger le modèle et des visualisations explicatives pour communiquer l'analyse aux principales parties prenantes du front office Orioles.

Notre équipe: Kathy Yi, Sean Sturtevant, Jingwen Yu, Nithish Kumar Bolleddula

But: Les étudiants de PG&E ont utilisé SQL, Python et AWS Sagemaker pour utiliser des techniques d'apprentissage automatique afin de prédire si un actif de PG&E est susceptible de connaître une défaillance. Dans le cadre d'un autre projet à PG&E, les étudiants ont construit des modèles de vision par ordinateur sur des images de drones pour identifier les défauts des lignes du réseau électrique.

Phylagène

Notre équipe: Nicholas Parker, Mundy Reimer

But: Les étudiants de Phylagen ont travaillé sur des projets avec des données d'échantillons de microbiome et des processus de laboratoire impliquant le développement de logiciels, l'analyse de données et l'apprentissage automatique.

Gemmes de poche

Notre équipe: Qingmengting Wang, Tian (Arthur) Qin

But: À Pocket Gems, les étudiants ont réalisé deux projets NLP en utilisant LSTM et Dialogflow.

Santé de l'hélice

Notre équipe: Andrew Eaton, Xuxu Pan

But: Les étudiants de Propellor Health ont construit un modèle de forêt aléatoire pour prédire combien de temps il faudrait pour résoudre un ticket de support client à l'aide d'incorporations de mots à partir des textes du ticket et d'un modèle Continuous Bag of Words (CBOW). Ils ont également publié des tableaux de bord en direct contenant des informations sur le nombre de tickets et les taux de réclamations sur Tableau Server.

Récologie

Notre équipe: Yunzheng Zhao, Shishir Kumar

But: À Recology, les étudiants ont utilisé la régression linéaire pour générer des statistiques d'itinéraire et une estimation du temps de service à partir des données SIG et de collecte des déchets. Ils ont également analysé les données de routage et identifié des anomalies dans le processus de reporting et de saisie des données.

Reddit

Notre équipe: Kevin Loftis, Esme Luo

But: Les étudiants de Reddit ont travaillé sur la détection de la communauté subreddit basée sur des graphiques. Ils ont développé un graphique de sous-reddit basé sur le chevauchement des vues des utilisateurs et ont effectué une détection de communauté sur le graphique pour regrouper des sous-reddits similaires à l'aide de Python et de NetworkX. Cela a doublé le taux d'abonnement des subreddits par rapport au système existant. Sur un autre projet, ils ont travaillé sur un pipeline d'extraction de fonctionnalités de streaming où ils ont architecturé et développé un processeur de données de streaming Flink dans Scala à l'aide de Docker, Flink, Kafka, Circle CI et Kubernetes.

Réputation

Notre équipe: Meng Lin, Hao Xu

But: Chez Reputation, les étudiants ont utilisé la correspondance d'entités dans l'apprentissage en profondeur pour faire correspondre les adresses et ont effectué une modélisation de sujet pour analyser les tendances de sujet dans les avis.

Institut Salk des sciences biologiques

Notre équipe: Alaa Abdel Latif, Annette (Zijun) Lin

But: Les étudiants du Salk Institute for Biological Studies ont construit des modèles d'apprentissage en profondeur à super résolution à l'aide de fast.ai et PyTorch.

Science de Sparte

Notre équipe: Kwong ensoleillé

But: Chez Sparta Science, Sunny a travaillé sur l'amélioration de la fiabilité des tests d'équilibre en effectuant une analyse d'entropie à plusieurs échelles avec R et Python sur des analyses de plaque de force.

Café de spécialité et boulangerie

Notre équipe: Jiaqi Chen, Sakshi Singla

But: Chez Specialty's Cafe & Bakery, Jiaqi a effectué des prévisions de revenus à l'aide d'analyses de séries chronologiques et d'EDA et a également travaillé à la création d'un moteur de recommandation utilisant l'apprentissage automatique.

École supérieure de commerce de Stanford

Notre équipe: Jingxian Li

But: Les étudiants de la Stanford Graduate School of Business ont nettoyé les documents SEC 10-K et construit des modèles word2vec sur la base de ce corpus. Ils ont également proposé différentes manières d'évaluer les modèles et ont appris à utiliser le modèle BERT.

Trulia

Notre équipe: Léa Genuit, Alan Flint

But: Chez Trulia, Lea a utilisé des techniques d'apprentissage en profondeur à l'aide de Pytorch pour identifier les documents numérisés pivotés d'un facteur de 90 degrés. Elle a également mis en place une amélioration de la solution actuelle (Tesseract, un moteur OCR) en travaillant sur un patch de l'image à l'aide de Python. Ensuite, elle a comparé les résultats de Tesseract et des modèles CNN. Sur un autre projet chez Trulia, Alan a construit un outil d'analyse de puissance en Python pour la plate-forme de test A/B de Trulia. Cela impliquait de coder et de déployer un pipeline ETL et de concevoir une application interactive à l'aide de Streamlit. Son deuxième projet consistait à utiliser un modèle d'apprentissage automatique interprétable pour identifier les caractéristiques du site qui influencent les résultats positifs pour les acheteurs de maison intéressés.

TruStar

Notre équipe: Dillon Quan

But: Chez TruStar, Dillon a conçu des analyseurs pour normaliser les données ingérées dans le lac de données afin de centraliser les échantillons dans un seul format pour une utilisation en aval de l'analyse prédictive à l'aide de Spark et Scala. Son deuxième projet s'est concentré sur l'analyse des URL et sur la manière de générer des scores pour déterminer leur niveau de malveillance à l'aide de Python et Pytorch.

Laboratoire des réseaux cérébraux de l'UCSF

Notre équipe: Soleil Qingyi, Akanksha

But: En collaboration avec le Brain Networks Laboratory de l'UCSF et la Wicklow AI in Medicine Research Initiative (WAMRI), les étudiants se sont concentrés sur la caractérisation de maladies, telles que l'autisme et la maladie d'Alzheimer, en établissant un diagnostic et un pronostic à partir de données de magnétoencéphalographie cérébrale multicanaux (MEG). Ils ont construit un modèle LSTM (Long Short-Term Memory) à l'aide de PyTorch pour analyser les données MEG du cerveau et extraire des informations pour faire des prédictions sur les paramètres caractéristiques d'intérêt. Sur un autre projet, ils ont travaillé sur le pré-entraînement des réseaux de neurones convolutifs 3D avec des données d'IRM cérébrale. Les modèles ont été pré-entraînés à l'aide d'une tâche de segmentation.

Institut des sciences de la santé informatique de l'UCSF Bakar

Notre équipe: Linqi Sheng

But: En collaboration avec l'UCSF et la Wicklow AI in Medicine Research Initiative (WAMRI), Linqi a construit un modèle LSTM (Long Short-Term Memory) à l'aide de PyTorch pour analyser les données MEG du cerveau, extraire des informations et faire des prédictions sur les paramètres caractéristiques d'intérêt.

Département de radio-oncologie de l'UCSF, Wicklow AI in Medicine Research Initiative (WAMRI)

Notre équipe: Roja Immanni

But: En collaboration avec le département de radio-oncologie de l'UCSF, Roja a découvert que les ensembles de données d'images médicales sont fondamentalement différents des ensembles de données d'images naturelles en termes de nombre d'observations de formation disponibles et de nombre de classes pour la tâche de classification. Elle a émis l'hypothèse que par rapport aux architectures utilisées pour les images naturelles, celles nécessaires à l'imagerie médicale peuvent être plus simples. Elle a proposé des architectures plus petites et a montré comment elles fonctionnent de manière similaire tout en économisant considérablement le temps de formation et la mémoire. Il s'agit d'un travail conjoint avec Gilmer Valdes à l'UCSF.

UCSF et Wicklow AI in Medicine Research Initiative (WAMRI)

Notre équipe: Zacharie Barnes

But: En collaboration avec l'UCSF et la Wicklow AI in Medicine Research Initiative (WAMRI), Zachary a utilisé l'environnement Spark de l'UCSF pour les données EHR afin de créer un ensemble de données, de générer des étiquettes pour les patients atteints de sepsis acquis à l'hôpital et de créer des modèles de prédiction à l'aide de sklearn et Pytorch.

UCSF Morin Lab et Wicklow AI in Medicine Research Initiative (WAMRI)

Notre équipe: Sihan Chen

But: En collaboration avec le Morin Lab de l'UCSF et la Wicklow AI in Medicine Research Initiative (WAMRI), Sihan a construit un réseau en U résiduel 3D pour segmenter avec précision les métastases à partir d'images IRM cérébrales avec PyTorch. Il a évalué les effets du nombre, de la taille et de l'emplacement des métastases sur la précision, ce qui a donné lieu à une présentation de conférence scientifique et à un manuscrit et a aidé l'UCSF à concevoir un modèle de pointe.

Vasant Lab à l'UCSF et Wicklow AI in Medicine Research Initiative (WAMRI)

Notre équipe: Shrikar Thodla

But: En collaboration avec le Vasant Lab de l'UCSF et la Wicklow AI in Medicine Research Initiative (WAMRI), Shrikar a travaillé sur plusieurs projets. Celles-ci comprenaient l'utilisation de l'apprentissage en profondeur pour segmenter et classer les images médicales, la tentative de générer des images 3D à partir de plusieurs vues d'images 2D, la migration de composants complets de GCP vers IBM, la détection de rotations accidentelles dans les images à l'aide de CNN intégrés à PyTorch et l'optimisation du code pour lire des images à partir d'une base de données.

Santé unie

Notre équipe: Srikar Murali, Sean Tey

But: Les étudiants de United Healthcare ont nettoyé et traité des millions de transactions de réclamations d'assurance avec SQL et ont effectué des tests d'hypothèses sur des données démographiques. Sur un autre projet, ils ont prédit les membres susceptibles d'être hospitalisés dans un proche avenir dans le cadre d'un système d'identification des membres administrativement complexes avec un modèle d'arbres de gradient à l'aide de la bibliothèque CatBoost.

ValiMail

Notre équipe: Andrew Young, Charles Siu

But: À Valimail, les étudiants ont abordé le problème de la classification d'un arriéré de plus de 100 000 domaines Internet inconnus générés par Valimail Defend. Ils ont développé un pipeline d'apprentissage automatique de bout en bout qui classe les domaines de confiance en détectant s'ils appartiennent à des catégories à faible risque telles que l'immobilier. Le modèle Gradient Boosting Machine (GBM) a atteint un taux de précision de plus de 95 % avec les données de test lors de la classification des domaines immobiliers à l'aide du traitement du langage naturel (NLP) pour l'analyse de contenu Web. Sur un autre projet, ils ont conçu et mis en œuvre des API REST à l'aide de Flask dans des modules Dockerized dans le pipeline et ont construit des scrapers Web à l'aide de BeautifulSoup pour rassembler plusieurs sources de données externes pour la formation de modèles ML.

Vierge

Notre équipe: Mikio Tada, Stéphanie Jung

But: Les étudiants de Virgo ont développé un script Python pour extraire des trames de données de 120 heures de vidéo. Ils ont utilisé Google AutoML pour former des modèles d'apprentissage en profondeur afin d'automatiser l'enregistrement vidéo pendant les procédures médicales endoscopiques et de développer un système de marquage automatique des types de procédure. Sur un autre projet, ils ont construit un prototype d'outil de détection d'objets pour le suivi des polypes en temps réel lors d'une coloscopie en utilisant CVAT pour l'étiquetage des données et Google AugoML pour entraîner le modèle d'apprentissage en profondeur.

Laboratoires Walmart

Notre équipe: Samarth Inani, Akansha Shrivastava

But: À Walmart Labs, les étudiants ont développé un outil de peinture d'images pour supprimer les occlusions des images de meubles haute résolution à l'aide de convolutions partielles. Ils ont également travaillé sur un projet axé sur la recherche visant à améliorer l'algorithme de détection des couleurs afin d'améliorer la précision de l'attribut de couleur dans la description du produit des meubles répertoriés sur Walmart.com à l'aide de Pytorch et Open-CV.

Wicklow AI in Medicine Research Initiative (WAMRI) et MedStar Georgetown University Hospital

Notre équipe: Max Calehuff, Xintao (Todd) Zhang, Wendeng Hu

But: Les étudiants travaillant avec la Wicklow AI in Medicine Research Initiative (WAMRI) et le MedStar Georgetown University Hospital ont utilisé la PNL pour créer un programme de notation automatisé pour les rapports d'imagerie des étudiants en médecine.

Zyper

Notre équipe: Andy Cheon, Aakanksha Nallabothula Surya

But: Chez Zyper, les étudiants ont construit et déployé un réseau de neurones convolutifs (CNN) de classification d'images avec PyTorch pour aider les marques à recruter efficacement des fans avec les types esthétiques souhaités sur les réseaux sociaux. Ils ont appliqué des méthodes d'importance des fonctionnalités en utilisant l'apprentissage automatique en Python pour identifier les principaux facteurs qui stimulent les taux d'engagement du contenu généré par les utilisateurs. Ils ont également développé un pipeline de prédiction de localisation des utilisateurs à l'aide d'outils NLP (NLTK, spaCy) pour améliorer le prédicteur de localisation existant et découvert et visualisé les tendances à partir du contenu de discussion de groupe de 15 communautés de marques utilisant principalement Pandas et ggplot.

AlienVault

Notre équipe: Sankeerti Haniyur

But: Sur ce projet, l'étudiant a utilisé des techniques d'apprentissage en profondeur et de PNL pour marquer automatiquement les documents de cybersécurité. Elle a ensuite construit un modèle de reconnaissance d'entités nommées pour détecter les indicateurs de compromission dans les documents.

Solutions de faisceau

Notre équipe: Darren Thomas, Liying Li

But: Les étudiants ont utilisé des techniques de PNL en Python pour la reconnaissance de noms et ont utilisé Pytorch et un LSTM pour détecter les transactions frauduleuses. Sur un autre projet, grattage de données à l'aide d'une API reposante, création d'une application à l'aide de Flask en Python. Ils ont également appliqué des modèles d'apprentissage automatique non supervisés pour créer des modèles de clustering et de détection d'anomalies à l'aide de Python.

General Electric

Notre équipe: Benjamin Khuong, Ziqi Pan

But: Les étudiants ont travaillé sur un projet de détection d'objets pour détecter les défauts dans les tomodensitogrammes de pièces de machine. Leur projet était axé sur la conception de solutions basées sur la vision par ordinateur pour la détection automatique des défauts sur les appareils industriels. Ils ont mis en œuvre des algorithmes d'apprentissage en profondeur de pointe tels que Faster R-CNN, R-FCN et des réseaux de neurones convolutifs 3D.

Filetage des boulons

Notre équipe: Wenkun Xiao, Nicole Kacirek

But: Les étudiants ont travaillé en étroite collaboration avec l'équipe marketing pour optimiser les messages de campagne en appliquant des techniques de PNL et d'apprentissage automatique aux critiques de produits et aux publications sur les réseaux sociaux des concurrents. Ils ont également construit et mis en production un modèle de CLTV (valeur à vie du client) et de prévision des revenus qui a été mis en production.

Point de contrôle/Dôme9

Notre équipe: Brian Chivers, Evan Liu

But: Les étudiants ont développé un algorithme d'apprentissage non supervisé pour détecter les anomalies dans le trafic réseau AWS.

Dictionnaire.com

Notre équipe: Rebecca Reilly, Minchen Wang

But: Les étudiants se sont concentrés sur l'augmentation des revenus en utilisant la modélisation de sujets, en utilisant Python et la bibliothèque spaCy pour découvrir les relations du secteur en utilisant le comportement des annonceurs. Ils ont utilisé des technologies d'apprentissage automatique pour prédire les prix des publicités en ligne et identifier les fonctionnalités importantes. Sur un autre projet, ils ont créé un classificateur PNL pour identifier correctement les phrases acceptables et appropriées.

Eventbrite

Notre équipe: Nan Lin, Lance Fernando

But: Les étudiants ont construit des modèles d'apprentissage automatique pour prédire la LTV (valeur à vie) des clients. Sur un autre projet, ils ont dédupliqué plus de 5 millions d'adresses de sites à l'aide de mesures de similarité de chaînes floues et d'un HMM, puis ont utilisé ces données pour créer une méthode de classement de recherche afin de recommander des sites aux créateurs d'événements.

Notre équipe: Aditi Sharma, Zhi Li

But: Les étudiants ont construit un système de recommandation basé sur le contenu pour les voitures et ont utilisé la prédiction du prix des enchères.

Fandom

Notre équipe: Byron Han, Yuhan Wang

But: Les étudiants ont utilisé SQL pour extraire des données d'AWS, puis ont utilisé des techniques NLP pour créer un pipeline de classification de texte.

Hohonu

Notre équipe: Connor Swanson

But: L'étudiant a construit des systèmes de détection d'anomalies en Python pour les données environnementales. Il a également construit des modèles de prévision de séries chronologiques pour prédire les futurs changements environnementaux et construit des tableaux de bord pour héberger leurs conclusions.

Notre équipe: Tyler Ursuy, Anush Kocharyan

But: Les étudiants ont classé chaque partenaire Kiva en catégories de risque en mettant en œuvre un modèle de détection des risques de forêt aléatoire qui surveille les informations financières, géographiques et économiques des partenaires mondiaux de Kiva. Ils ont également créé un tableau de bord interactif en ligne pour fournir un accès facile aux analyses de données, aux visualisations de données et aux prévisions de modèles, ce qui aidera Kiva à réduire le temps et l'argent consacrés à l'inspection manuelle des informations sur les partenaires et à la réalisation de visites programmées en personne.

Analyse kwh

Notre équipe: Hongdou Li, Zhe Yuan

But: Les étudiants ont utilisé des techniques d'apprentissage automatique pour prédire les performances des panneaux solaires à travers le pays et ont fourni des déductions commerciales.

Prune maigre

Notre équipe: Hai Le, Jon-Ross Presta

But: Les étudiants ont automatisé le processus de génération de données pour un tableau de bord avec un script Python. Ils ont également formé un modèle NLP qui prend la ligne d'objet, des informations sur l'application qui envoie l'e-mail et des informations sur le segment destinataire pour prédire les taux d'ouverture des e-mails à l'aide de PyTorch. Dans un autre projet, les étudiants ont utilisé Python/PyTorch pour créer un modèle NLP afin de prédire l'engagement des utilisateurs en fonction du contenu du message.

IA multiple

Notre équipe: Edward Richard Owens, Prakhar Agrawal

But: Les étudiants ont créé un système qui optimise le fonctionnement des systèmes CVC en détectant la stabilisation de la température du bâtiment à partir des données des capteurs. Sur un autre projet, ils ont construit un simulateur de golf avec le modèle en utilisant une vidéo d'une personne frappant une balle de golf et produisant la trajectoire de la balle en utilisant l'apprentissage automatique et la physique. Ils ont utilisé des méthodes et des architectures telles que la suppression de l'arrière-plan, le darknet (YOLO) et le flux optique pour la vision par ordinateur.

Raie manta

Notre équipe: Shivee Singh, Xiao Han

But: Les étudiants ont utilisé l'apprentissage automatique et l'apprentissage en profondeur pour identifier les microplastiques dans l'eau de mer à l'aide d'OpenCV Python et PyTorch. Leur objectif principal était de construire des modèles de détection d'objets en essayant de localiser des microfibres à partir d'images sous-marines pour approximer le volume total et la distribution des microfibres dans l'océan.

MetroMile

Notre équipe: Christopher Olley, Wei Wei

But: Les étudiants ont utilisé l'apprentissage automatique et l'apprentissage en profondeur pour identifier les conducteurs en fonction de leurs données télématiques (vitesse et accélération). Dans un autre projet, les étudiants ont extrait des événements et créé des fonctionnalités basées sur ces données pour entraîner des modèles arborescents à l'aide de Python. Ils ont extrait les données de trajet étiquetées du stockage SQL et Amazon S3 et ont créé les modèles ML/DL pour identifier les utilisateurs à l'aide de Python et SQL.

Mozilla

Notre équipe: Sarah Melançon, Brian Wright

But: Les étudiants ont utilisé Python et Spark pour combiner et agréger des données liées aux modules complémentaires à partir d'une variété de sources de données en une seule source de données. Ils ont également construit un tableau de bord basé sur cette source de données à l'aide de Redash. Les étudiants ont construit un pipeline ETL qui a agrégé plusieurs sources de données dans un ensemble de données combiné.

Commission métropolitaine de transport

Notre équipe: Jacques Sham, Quinn Keck

But: Les étudiants ont construit un lac de données sur AWS, impliquant S3 et Redshift, en utilisant des outils disponibles sur le marché (Trifacta et Python). Sur un autre projet, ils ont analysé les données Clipper et FasTrak, suivi les indicateurs de performance clés et créé des tableaux de bord. Ils ont développé des modèles d'apprentissage automatique et de séries chronologiques pour prédire l'utilisation quotidienne de la Clipper Card à moins de 4 %.

Delta Analytics

Notre équipe: Chong Geng

But: L'étudiant a développé des métriques pour définir le succès du produit en termes d'engagement des utilisateurs et d'efficacité de réponse. Il a également appliqué des techniques de PNL pour mettre à niveau le système de recommandation et a construit un tableau de bord pour visualiser les résultats.

Pavot nu

Notre équipe: Nina Hua, Donya Fozoonmayeh

But: Les étudiants ont utilisé l'apprentissage automatique pour les recommandations de produits et ont utilisé PySpark pour appliquer un modèle dans un environnement distribué. Ils ont également mis en œuvre des techniques d'apprentissage automatique pour classer la couleur de la peau à partir d'une image et ont élaboré un système de recommandation pour améliorer l'expérience utilisateur.

Orange Silicon Valley

Notre équipe: Evan Calkins, Jinghui Zhao, Ran Huang

But: Les étudiants ont développé un algorithme pour soutenir les campagnes marketing ciblées, qui identifie les utilisateurs mobiles similaires en fonction de leurs modèles de localisation. Ils ont construit un modèle de langage n-gram pour la langue africaine du wolof afin d'améliorer les fonctionnalités d'un chatbot utilisant Python. Sur un autre projet, ils ont calculé l'optimalité relative de l'emplacement du magasin en comparant les mouvements des utilisateurs et les modèles de déplacement à l'aide d'un grand ensemble de données (4 To) d'informations sur les utilisateurs mobiles traitées sur un cluster Spark à 9 nœuds.

Compagnie d'électricité et de gaz du Pacifique

Notre équipe: Gokul Krishna Guruswamy, Louise Lai

But: Les étudiants ont utilisé PyTorch pour former des modèles de détection et de classification d'objets d'apprentissage en profondeur afin d'identifier les défauts de l'équipement et de détecter des objets à petite échelle dans des millions d'images de drones de grande taille. Ils ont beaucoup travaillé dans l'environnement cloud AWS (EC2, S3, lambda, SageMaker, etc.) pour produire ces modèles.

Recologie

Notre équipe: Paul Kim, Katja Wittfoth

But: Les élèves ont utilisé des techniques d'apprentissage en profondeur pour identifier différents types de contaminants dans les poubelles. Ils ont également automatisé l'identification des contaminants dans des images complexes de poubelles en développant un modèle de classification d'images multi-étiquettes utilisant l'apprentissage en profondeur, Pytorch, Python et AWS.

Récologie (Itinéraires)

Notre équipe: Xu Lian, Philippe Trinh

But: Les étudiants ont construit un modèle d'apprentissage automatique pour prédire l'occurrence d'un accident de camion à l'aide de Sklearn. Ils ont utilisé des méthodes d'analyse de données et d'apprentissage automatique pour fournir des recommandations politiques sur la façon dont Recology peut augmenter la sécurité lorsque les chauffeurs de collecte sont en ville. Ils ont également fusionné des feuilles de différentes sources à l'aide de Pandas et de PySpark.

Reddit

Notre équipe: Yixin Sun, Julia Amaya Tavares

But: Les étudiants ont construit un pipeline d'apprentissage automatique sur Airflow pour estimer la capacité de rétention des sous-titres. Ils ont utilisé le package Python spaCy pour créer un petit outil permettant d'extraire des mots-clés à partir de commentaires de publication. Sur un autre projet, ils ont utilisé TensorFlow pour créer un classificateur multi-étiquettes pour les titres des articles, et SQL/Pandas pour l'acquisition et le pré-traitement des données.

Réputation.com

Notre équipe: Randy Ma, Xi Yang

But: Les étudiants ont développé un classificateur de sentiments d'évaluation à l'aide d'un modèle d'apprentissage en profondeur avec LSTM et Self-Attention pour améliorer l'évaluation de la réputation (Python, PyTorch). Ils ont extrait les préoccupations des clients en créant un outil d'extraction de mots clés multigrammes à l'aide d'une analyse de dépendance syntaxique. Ils ont également créé un outil automatisé de création de rapports d'informations opérationnelles (SQL, Python) pour évaluer les forces et les faiblesses de l'expérience utilisateur du client.

Autorité de transport du comté de San Francisco

Notre équipe: Soleil de Cristal, Marwa Oussaifi

But: Les étudiants ont créé des outils de visualisation Web pour présenter le nombre d'emplois accessibles et les schémas de déplacement à San Francisco avec D3.js. Ils ont automatisé le prétraitement de données complexes et les pipelines de données pour s'adapter à différents scénarios lors de la collecte, du traitement et de la transmission des données à l'aide de python. Sur un autre projet, ils ont mis en œuvre différents algorithmes de ML pour prédire la possession d'une voiture par ménage.

Split.io

Notre équipe: Xinran Zhang, Zitong Zeng

But: Les étudiants ont développé un bloc-notes Scala pour aider l'équipe du service client à analyser les métriques de rétention des utilisateurs telles que la DAU et la rétention des retours. Ils ont fourni une routine d'anonymisation pour les impressions et les données d'événements sensibles à l'aide de Spark UDF et Murmurhash3. Ils ont exploré des alternatives aux tests paramétriques traditionnels pour améliorer la crédibilité des performances de l'analyse des tests A/B. Ils ont également recherché et mis en œuvre des méthodes de détection des valeurs aberrantes dans Scala.

Trulia

Notre équipe: Xinke Sun, Jyoti Prakash Maheswari

But: Les étudiants ont utilisé SQL pour suivre les KPI et créé des tableaux pour stocker des métriques quotidiennes à l'aide de Python. Les étudiants ont appliqué des techniques d'apprentissage en profondeur pour comprendre le contenu des annonces immobilières composées d'images et de texte et pour prédire la soumission de prospects.

Technologie de confiance

Notre équipe: Viviana M. Peña-Marquez, Neha Tevathia

But: Les étudiants ont construit un modèle NLP pour identifier les noms de logiciels malveillants à l'aide du modèle CBOW et ont exploité les données open source de Twitter. Ils ont utilisé Pytorch pour construire le modèle CBOW. Création et mise en œuvre d'un pipeline pour collecter automatiquement les tweets à l'aide de l'API de Twitter, d'algorithmes d'apprentissage automatique et de traitement du langage naturel appliqués pour détecter les entités et alimenter les détections quotidiennes dans un tableau de bord.

Ubisoft

Notre équipe: Tian Qi, Jessica Wang

But: Les étudiants ont déployé un pipeline d'apprentissage automatique pour prédire les utilisateurs payants au cours des deux prochaines semaines à l'aide de Python et de SQL. Dans un autre projet, les étudiants ont prédit un achat à court terme en utilisant Python.

DÉPARTEMENT DE NEUROLOGIE UCSF (LAB NEUROSCAPE)

Notre équipe: Jenny Kong

But: L'étudiant a utilisé l'apprentissage automatique avec des données d'IRMf pour classer les modèles de réseau d'activations simultanées de régions cérébrales qui surviennent lors d'une récupération réussie de la mémoire haute fidélité.

DÉPARTEMENT DE RADIO-ONCOLOGIE (AI) de l'UCSF

Notre équipe: Miguel Romero Calvo

But: L'étudiant a utilisé des techniques d'apprentissage en profondeur pour améliorer les performances des réseaux de neurones dans les petites données. Il a également mené des recherches sur les méthodologies de formation et d'apprentissage par transfert.

Département de radio-oncologie de l'UCSF (laboratoire de vision par ordinateur)

Notre équipe: Anish Dalal, Robert Sandor

But: Les étudiants ont utilisé des techniques d'apprentissage en profondeur en vision par ordinateur pour segmenter avec précision les ventricules dans le cerveau à l'aide de Pytorch. Dans un autre projet, ils ont construit un classificateur de texte qui prédit la survie des patients atteints de cancer à partir de notes de médecin à l'aide de Python, PyTorch, Bash et FastAI.

Ucsf service de radio-oncologie (laboratoire d'imagerie quantitative)

Notre équipe: Alan Perry, Tianqi Wang

But: À l'aide de Python, les étudiants ont utilisé des techniques d'apprentissage en profondeur pour segmenter différents organes, établir un diagnostic de volume de dose et réaliser une transformation d'images IRM en images CT.

Division de Cardiologie de l'UCSF (Laboratoire Arnaout)

Notre équipe: Max Alfaro, Divya Bhargavi

But: Les étudiants ont construit des modèles d'apprentissage en profondeur pour classer différentes vues d'échocardiogrammes. Ils ont effectué une analyse exploratoire des données pour se familiariser avec la terminologie médicale.

Logiciel ultime

Notre équipe: Victoria Suarez, Harrison Mamin

But: Les étudiants ont créé un système de recommandation pour prédire quels candidats correspondent à l'offre d'emploi à l'aide de Python, ce qui a amélioré l'efficacité des recruteurs de 56 %. Ils ont recherché des méthodes de détection des préjugés sexistes inconscients dans les évaluations de performance à l'aide d'inclusions de mots et de réseaux de neurones. Dans un autre projet, les étudiants ont travaillé sur deux approches pour extraire des paires de langues causales du texte, l'une à l'aide d'un moteur basé sur des règles déterministes et l'autre à l'aide d'un réseau de neurones, en les intégrant dans une interface utilisateur Web à l'aide de Flask.

Sous protection

Notre équipe: Adam Reevesman, Meng-Ting Chang

But: Les étudiants ont construit un algorithme basé sur des règles pour identifier quand un utilisateur a terminé un itinéraire mais a oublié d'arrêter son tracker dans l'application MapMyFitness à l'aide de Python. Ils ont également rempli des fonctions liées à l'EDA.

Soins de santé unis

Notre équipe: Tomohiko Ishihara, Maria Vasilenko

But: Les étudiants ont recueilli des avis d'utilisateurs sur les applications de dossier de santé personnel sur l'App Store d'Apple et le Google Play Store et ont utilisé l'analyse Latent Dirichlet pour essayer de voir de quelles fonctionnalités les utilisateurs parlent le plus. Ils ont construit des modèles pour prédire si un membre est susceptible de tomber enceinte en créant un ensemble de données, en effectuant une ingénierie de fonctionnalités et en créant des modèles d'apprentissage automatique. Sur un autre projet, ils ont collecté des avis d'utilisateurs sur GooglePlay et Appstore et ont effectué une modélisation thématique (LDA) telle qu'implémentée dans Gensim.

Valimail

Notre équipe: Joy Qi, Jialiang Shi

But: Les étudiants ont construit des modèles de classification d'apprentissage automatique pour identifier les listes de domaines de messagerie légitimes par rapport aux domaines de messagerie frauduleux. Ils ont utilisé des techniques d'apprentissage automatique pour déterminer si un domaine inconnu est approuvé ou non. Sur un autre projet, ils ont créé un script de grattage pour gratter les liens sociaux sur les pages Web.

Valor analyse de l'eau

Notre équipe: Yihan Wang, Jian Wang

But: Les étudiants ont prédit le non-paiement des clients des services d'eau avec un modèle de forêt aléatoire et ont implémenté le modèle en Python dans la base de code de Valor. Ils ont segmenté les clients des services publics avec un clustering K-means pour comprendre leur comportement. Sur un autre projet, ils ont appliqué un modèle de séries chronologiques multiples pour identifier les compteurs d'eau défectueux. Ils ont utilisé SQL et Python pour créer un workflow de bout en bout pour le projet.

Vida Santé

Notre équipe: Shulun Chen

But: L'étudiant a utilisé SQL, Python et Swagger pour créer des pipelines de données.

Solutions plus sages

Notre équipe: Fan de Ziyu

But: L'étudiant a appliqué des techniques de science des données et d'apprentissage automatique pour prévoir les ventes des détaillants de commerce électronique à l'aide de Python. Sur un autre projet, elle a utilisé l'apprentissage automatique et la PNL pour trouver des anomalies dans la correspondance des produits.

Pizza Zumé

Notre équipe: Brian Dorsey, Fiorella Tenorio

But: Les étudiants ont utilisé des modèles de prédiction de la demande Python, TensorFlow et Time Series. Ils ont travaillé sur un modèle pour prédire la probabilité d'achat des clients et un modèle de prévision de la demande.

Un majuscule

Notre équipe: Arpita Iéna, Devesh Maheshwari, Alexander Howard

But: Les étudiants ont utilisé des techniques de PNL et d'apprentissage en profondeur pour classer les informations sensibles dans le domaine interne de Capital One à l'aide de Python. Le résultat a été encapsulé dans une application Web Flask. Un autre projet impliquait l'ingénierie logicielle dans le but d'automatiser le processus d'authentification AWS de Capital One.

Cogitativo, Inc

Notre équipe: Yiqiang Zhao, Gongting Peng

But: Les étudiants ont utilisé des méthodes d'apprentissage automatique pour créer un pipeline de données pour la détection d'anomalies. Ils ont également utilisé Python pour l'exploration des données.

Delta Analytics

Notre équipe: Stephen Hsu

But: Les étudiants ont travaillé au sein d'une équipe multidisciplinaire pour offrir des services de science des données à une organisation à but non lucratif. Plus précisément, les étudiants ont développé un modèle basé sur la PNL en Python pour classer les messages du forum afin que les questions du forum puissent être correctement mises en correspondance avec les professionnels les mieux placés pour y répondre.

Fin du jeu

Notre équipe: Timothée Lee

But: Les étudiants ont travaillé sur le pipeline de données à l'aide du service API Python. Leur travail impliquait la classification de fichiers PDF à l'aide de Python XGBoost et la collecte d'échantillons de données de recherche à l'aide de Python.

Eventbrite

Notre équipe: Holly Capell Les étudiants d'Eventbrite ont utilisé l'apprentissage automatique en Python pour modéliser les taux de vente des billets afin d'aider l'entreprise à identifier les fonctionnalités de la plate-forme qui stimulent la vente des événements. Ils ont effectué des analyses de cohorte à l'aide de Python pour aider à comprendre le cycle de vie des revenus des clients Eventbrite et ont étudié la saisonnalité des ventes de billets, en utilisant SQL pour interroger des données et R pour créer des visualisations de données.

Banque de la Première République

Notre équipe: Bingyi Li, Christophe Csiszar

But: Les étudiants ont construit un système Web pour classer les obligations municipales afin d'assurer la conformité du gouvernement à l'aide de Python et de Flask. Ils ont utilisé des algorithmes d'analyse de données volumineuses, d'apprentissage automatique et de clustering pour automatiser la classification du portefeuille d'obligations municipales de la banque en obligations d'actifs liquides de haute qualité. Ce travail a remplacé le besoin de consultants externes inefficaces et coûteux pour effectuer cette tâche tous les trimestres.

Notre équipe: Yue Lan, Akshay Tiwari

But: Les étudiants ont écrit des scripts SQL pour effectuer une analyse exploratoire des données et ont construit un pipeline de données pour ingérer les données des clients des compagnies aériennes. Ils ont également utilisé des techniques d'apprentissage automatique pour créer et valider des modèles utilisant python pour prédire les réservations et les annulations de billets d'avion dans le cadre du système de gestion des revenus des compagnies aériennes Flyr.

Astros de Houston

Notre équipe: Jake Toffler

But: Les élèves ont regroupé les pitchs des lanceurs individuels par type de pitch à l'aide d'arbres de niveaux, une méthode de regroupement basée sur la densité, en Python.

Isazi Conseil

Notre équipe: Shikhar Gupta, Fei Liu

But: Les étudiants ont utilisé des techniques d'apprentissage en profondeur CNN pour identifier les maladies dans les radiographies pulmonaires.

Notre équipe: Ting Ting Liu, José Antonio Rodilla Xerri

But: Les étudiants ont utilisé des techniques d'apprentissage automatique pour identifier les facteurs pertinents pouvant affecter le financement intégral d'un prêt Kiva. Ils ont développé une application Web alimentée par un modèle de forêt aléatoire afin de prédire le succès des prêts, de mettre en évidence les facteurs qui motivent ces prêts et de fournir des suggestions sur la façon de les améliorer.

Collecteur

Notre équipe: Vinay Patlolla, Jason Carpenter

But: Les étudiants ont travaillé sur deux projets avec Manifold. Dans le premier projet, ils ont utilisé des modèles d'apprentissage automatique tels que Logistic Regression, Random Forest et XGBoost pour détecter les défauts dans les oléoducs à l'aide de Python. Dans le deuxième projet, ils ont développé un pipeline de suivi multi-caméras pour suivre les personnes dans une scène à l'aide de techniques d'apprentissage en profondeur et de clustering.

Métromile

Notre équipe: Chenxi Ge

But: Les élèves ont travaillé sur un problème complexe de vision par ordinateur en utilisant l'apprentissage en profondeur dans le but de localiser des caractères pour décoder la séquence de caractères.

Mozilla

Notre équipe: Tyler White, Jing Song

But: Les étudiants ont utilisé Spark pour obtenir des données afin de créer un tableau de bord de rapport Firefox Health destiné au public. Ils ont utilisé l'analyse des séries chronologiques pour prédire l'utilisation de l'ESR et vérifié la validité des tests t avec des tests non paramétriques.

Notre équipe: Danai Avgerinou, Shannon McNish

But: Les étudiants ont travaillé sur un projet d'ingénierie des données pour construire un petit entrepôt de données centralisé pour héberger les données de MTC. Ils ont également travaillé sur un projet de science des données utilisant la PNL avec des données d'enquête FastTrak et ont fait des découvertes concernant les modèles de fréquentation des utilisateurs de Clipper.

La porte à côté

Notre équipe: Natalie Ha, Christopher Dong

But: Les étudiants ont construit un modèle de classification de texte pour catégoriser les réponses à l'enquête et ont trouvé des corrélations avec le NPS. Sur un autre projet, ils ont créé un tableau de bord Tableau pour l'analyse de l'entonnoir de conversion sur le contenu signalé sur la plate-forme. Ils ont également construit et déployé (avec Airflow) un modèle d'apprentissage automatique utilisant Spark ML pour prédire les réponses des textes d'enquête et créé des requêtes SQL complexes pour calculer les métriques concernant la modération du contenu.

Orange

Notre équipe: Guoqiang Liang

But: Les étudiants ont utilisé des techniques d'apprentissage automatique pour attribuer des probabilités de désabonnement à l'aide de Python et Spark. Sur un autre projet, ils ont utilisé les techniques de la PNL pour classer les documents juridiques.

Notre équipe: Ernest Kim, Davi Alexander Schumacher

Gemmes de poche

Notre équipe: Dixin Yan, Spencer Stanley

But: À Pocket Gems, les étudiants ont utilisé des techniques d'apprentissage automatique pour créer un modèle de désabonnement et un modèle de matchmaking pour un jeu nouvellement développé. Ils ont également recherché et développé des modèles pour aider l'équipe marketing dans l'attribution des canaux et l'optimisation des créations. Dans un autre projet, ils ont utilisé des méthodes de séries chronologiques pour prédire l'impact des canaux publicitaires payants sur le volume d'installation organique.

Prix ​​F(x)

Notre équipe: Neerja Doshi, Alvira Swalin

But: Les étudiants ont utilisé des techniques d'apprentissage automatique (Python) et d'apprentissage en profondeur (PyTorch) pour créer un système de recommandation de produits.

Récologie

Notre équipe: Khoury Ibrahim, Danielle Savage

But: Les étudiants ont utilisé des techniques d'apprentissage en profondeur pour créer un CNN de reconnaissance d'images multi-étiquettes à l'aide de PyTorch pour identifier les contaminants dans les images de décharge, de recyclage et de compost dans les images de déchets de Recology.

Réputation.com

Notre équipe: Sara Mahar, Nicha Ruchirawat

But: Les étudiants ont automatisé la détection en temps réel d'une défaillance de flux de données à partir de sources Google, Bing et Facebook à l'aide d'une suite de tests d'hypothèses standardisés. Dans un autre projet, ils ont identifié des groupes de mots importants à partir de dizaines de milliers d'examens omnicanaux avec la modélisation de sujets Latent Dirichlet Allocation (LDA) et le clustering k-means.

49ers de San Francisco

Notre équipe: Kishan Panchal

But: Les étudiants ont utilisé des techniques d'apprentissage automatique pour créer un système de prédiction du taux de désabonnement hebdomadaire basé sur une cohorte pour les détenteurs d'abonnements. Sur un autre projet, ils ont créé un système d'ingestion de données pour obtenir des données de ticket externes dans l'entrepôt de données de l'équipe.

Autorité des transports du comté de San Francisco

Notre équipe: John Rumpel, Kaya Tollas

But: Les étudiants ont utilisé Python pour calculer les métriques d'accessibilité pour les arrêts de transport en commun (cela a ensuite été utilisé dans leur étude sur les TNC et l'achalandage). Sur un autre projet, ils ont préparé des données à saisir dans le modèle de voyage SFCTA. Et sur un autre projet, ils ont visualisé les incidents de circulation avec une carte interactive en utilisant javascript.

Notre équipe: Mathew Shaw, Cara Qin

But: Les étudiants ont utilisé des techniques d'apprentissage automatique pour identifier les utilisateurs suspects, prédire la LTV et classer les thèmes de jeu.

Notre équipe: Daniel Grzenda, Jade Yun

But: Les étudiants ont utilisé la théorie des graphes pour quantifier les variantes et analyser les données protéiques du sang des patients à l'aide de Python.

Snaplogic

Notre équipe: Nimesh Sinha, chanson de Zizhen

But: Les étudiants ont utilisé des techniques de traitement du langage naturel et d'apprentissage automatique pour créer un moteur de recommandation de pipeline de données. Sur un autre projet, ils ont travaillé sur le regroupement des clients en fonction des données de connexion.

École supérieure de commerce de Stanford

Notre équipe: Ker Yu Ong, Chen Wang

But: Les étudiants ont comparé des bases de données cloud (AWS, Google Bigquery, Snowflake et Databricks) en exécutant des requêtes d'analyse comparative pour des cas d'utilisation de recherche. Ils ont également exécuté des modèles d'apprentissage automatique pour classer les articles du WSJ et utilisé des techniques de PNL pour extraire des informations d'articles de presse et identifier des sujets dans les critiques de produits Amazon.

Rapidement

Notre équipe: David Kes

But: Les élèves ont développé un schéma de contrôle de moyenne mobile à pondération exponentielle (EWMA) pour détecter les détours de bus pour diverses agences de transport en commun à l'aide de Python. L'algorithme a été utilisé pour aider à automatiser le processus de l'équipe de réussite client pour détecter les défauts dans les systèmes des agences de transport en commun.

Pointage

Notre équipe: Thy Khue Ly, Beiming Liu

But: Les étudiants ont utilisé l'apprentissage automatique pour prédire les risques de défaut des clients et également pour les regrouper en groupes en fonction de leurs transactions par carte de crédit à l'aide de Python. Dans un autre projet, ils ont utilisé la PNL pour prédire les catégories de transactions, et dans un projet final, ils ont utilisé des séries chronologiques et l'apprentissage automatique pour prédire le revenu annuel des utilisateurs avec des données transactionnelles.

Ubisoft

Notre équipe: Feiran Ji, Lingzhi Du

But: Les étudiants ont prédit le comportement d'achat des utilisateurs pour les futurs jeux à l'aide de techniques d'apprentissage automatique et ont déployé un pipeline de bout en bout pour mettre le modèle en production sur des clusters Hadoop à l'aide de Spark. De plus, ils ont visualisé des informations et développé un tableau de bord interactif à utiliser conjointement avec le modèle prédictif.

Notre équipe: Siavash Mortezavi, Kerem Can Turgutlu

But: Les étudiants ont utilisé des techniques traditionnelles d'apprentissage automatique pour prédire la survie globale des patients atteints de cancer du méningiome et ont utilisé l'apprentissage en profondeur et la vision par ordinateur pour segmenter automatiquement les structures cérébrales.

Notre équipe: Sangyu Shen, Qian Li

But: Les étudiants ont utilisé des techniques d'apprentissage automatique pour classer les patients présentant des effets secondaires de la radiothérapie à l'aide de Python.

Sous protection

Notre équipe: Ryan Campa, Zhengjie Xu

But: Les élèves ont utilisé l'apprentissage automatique pour prédire la foulée et la cadence afin d'aider les coureurs à améliorer leur forme. Ils ont également utilisé l'apprentissage non supervisé pour identifier les courses organisées à partir de millions de lignes de données d'entraînement.

Soins de santé unis

Notre équipe: Savannah Logan, Sooraj Mangalath Subrahmannian

But: Les étudiants ont appliqué les techniques de la PNL en Python pour identifier les principales plaintes dans une enquête sur un site Web. Ils ont ensuite utilisé des techniques d'apprentissage automatique pour identifier les domaines d'amélioration possible du temps de rejet de la couverture.

Valimail

Notre équipe: Taylor Pellerin, Devin Bowers

But: Les étudiants ont utilisé des techniques d'apprentissage automatique pour aider à identifier les comportements d'envoi d'e-mails frauduleux. Ils ont prototypé des outils internes, de la documentation, etc. De plus, ils ont construit un classificateur d'apprentissage automatique pour aider à identifier de nouveaux services de messagerie légitimes. Cela permet à Valimail de parcourir rapidement les rapports agrégés par courrier électronique pour identifier les services légitimes qui envoient des courriers électroniques au nom d'un client.

Valor Water Analytics

Notre équipe: Jingjue Wang, Kunal Kotian

But: Les étudiants ont formé un réseau neuronal récurrent pour prévoir la consommation d'eau et ont signalé des relevés de compteurs d'eau inhabituels en comparant l'écart des prévisions par rapport aux valeurs réelles. Ils ont écrit le code de production d'un pipeline pour extraire et transformer des données, former des modèles d'apprentissage en profondeur à l'aide de TensorFlow et générer des prévisions pour plusieurs séries chronologiques de consommation d'eau.

Vida Santé

Notre équipe: Nishan Madawanarachchi, Chengcheng Xu

But: Les étudiants ont prédit la perte de poids chez les clients à l'aide de la régression linéaire avec R. Dans un autre projet, ils ont utilisé la régression logistique en Python pour prédire le niveau d'urgence des messages des clients à l'aide de la régression logistique en Python. Ils ont également créé un chat bot qui visait à aider les nouveaux utilisateurs dans le processus d'intégration.

Sports vaudous

Notre équipe: Ford Higgins, Ian Pieter Smeenk

But: Les étudiants ont contribué à un projet de « génome du football » pour la classification stylistique des équipes utilisant Python. Ils ont construit un modèle statistique de basket-ball universitaire qui s'appuie sur des modèles existants afin de les améliorer et ont conçu des outils que les entraîneurs de football peuvent utiliser pour aider à repérer les équipes adverses. Ces projets ont été réalisés à l'aide de Python, R, SQL et D3.js.

Vungle

Notre équipe: Deena Liz John, Patrick Yang

But: Les étudiants ont utilisé Python, SQL et Looker pour mettre en œuvre des tests A:B chez Vungle, axés sur la comparaison de différents modèles d'annonces, niveaux de compression, etc. Ils ont également aidé au développement d'une plate-forme de test A:B interne.

Solution plus sage

Notre équipe: Liz Chen, Yu Tian

But: Les étudiants ont développé un pipeline de bout en bout en Python à l'aide de technologies de vision par ordinateur et d'apprentissage en profondeur pour un produit promotionnel d'entreprise afin de reconnaître les promotions en ligne à partir d'images. Sur un autre projet, ils ont déployé des API REST en production et conçu des expériences pour comparer les résultats de différentes méthodes.

Notre équipe: Vanessa Zheng

But: Les étudiants ont développé des modèles de détection de fraude sur un ensemble de données déséquilibré de grande dimension à l'aide de Python. Sur un autre projet, ils ont conçu et évalué des métriques de risque globales pour surveiller, conditionner et renforcer les modèles de fraude avec SQL et Python.

Zipcar

Notre équipe: Sri Santhosh Hari

But: Les étudiants ont utilisé des techniques de séries chronologiques pour prévoir l'attrition des clients. En outre, ils ont utilisé des techniques d'apprentissage automatique telles que Random Forest et XGBoost pour identifier les principales caractéristiques affectant les réservations afin de prédire la probabilité des membres de réserver une voiture.

Aki Technologies

Notre équipe: Arda Aysu, Joshua Amunrud

But: Prédisez une activité humaine complexe à l'aide d'un accéléromètre d'appareil mobile et de données gyroscopiques et détectez une fraude possible en analysant les données de niveau d'impression

Joshua et Arda ont étudié plusieurs techniques et stratégies de traitement du signal numérique pour le regroupement de données de séries chronologiques. En fin de compte, nous avons utilisé Python pour produire un modèle de forêt aléatoire qui a utilisé des données traitées pour prédire les activités. Ils ont examiné un mois de données sur le niveau d'impression et ont essayé d'identifier les éditeurs présentant des caractéristiques inhabituelles. Il s'agit d'un projet en cours, mais des outils pour une exploration plus approfondie ont été construits en Python.

Notre équipe: Cameron Carlin, Mikaela Hoffman Stapleton

But: Prévoir l'achalandage en rassemblant et en analysant les facteurs externes pertinents pour la demande d'achalandage

Chez BART, de nombreux facteurs entrent en jeu pour savoir comment, quand et où les gens décident de prendre les transports en commun. Avec les récents changements dans l'industrie des transports et la concurrence croissante, il est plus essentiel que jamais de prévoir avec précision l'achalandage pour planifier les finances à l'avenir. Cameron et Mikaela ont utilisé R pour développer un modèle de prévision de série chronologique SARIMax incorporant des facteurs externes et des données gouvernementales pour déterminer les covariables d'achalandage. Cet algorithme de modélisation a été implémenté dans une application Shiny pour permettre à un public plus large au BART de profiter de ces prévisions.

Un majuscule

Notre équipe: Nick Levitt, Kyle Kovacevich

But: Construire des modèles prédictifs et des pipelines ETL pour un projet de cybersécurité

Nick et Kyle ont utilisé une combinaison de techniques avancées d'apprentissage automatique telles que l'apprentissage profond, la PNL et l'analyse de réseau pour trouver des valeurs aberrantes et des modèles dans les données. Le travail a été implémenté en Python, PostgreSQL et Spark sur Hadoop et Parquet.

Clorox

Notre équipe: Rui Li, Elise Song

Chez Clorox, nous avons été confrontés à un défi commercial consistant à explorer des facteurs importants en corrélation avec les fluctuations des ventes à court terme après l'éclatement d'un événement. Nous avons récupéré plus de 28 millions de titres d'actualités et 102 000 articles complets relatifs à l'événement, mené des analyses de sentiment sur 14 millions de Tweets et de publications Instagram pour l'ingénierie des fonctionnalités, et trouvé des résultats significatifs à partir d'une analyse de régression. Notre présentation a été bien accueillie par l'équipe produit et l'équipe de science des données.

Artisanat

Notre équipe: Keyang Zhang

But: Extraire les phrases clés et détecter les signaux des actualités

Keyang a construit un algorithme de reconnaissance d'entité de nom en Python pour extraire le nom principal de l'entreprise des nouvelles. Il a également utilisé Latent Dirichlet Allocation, Word2vec et FuzzyWuzzy pour effectuer l'extraction de mots-clés et de phrases-clés. Sur la base des mots clés et des phrases clés, Keyang a utilisé Gaussian Naive Bayes pour construire des classificateurs afin de détecter les signaux de chaque nouvelle.

Coca Cola

Notre équipe: Dominic Vantman, Justin Midiri

But: Créer un programme Python qui agrège les ventes, les consommateurs et les données syndiquées dans une base de données d'informations unifiée et effectue des analyses avancées sur les performances promotionnelles et le retour sur investissement

Dominic et Justin ont conçu des tableaux de bord de visualisation de données pour mieux comprendre les mesures de performance financière, le rapprochement de la rentabilité des clients et les tactiques d'optimisation des dépenses commerciales promotionnelles qui génèrent la croissance la plus élevée sur leur solide portefeuille de clients, de produits et de marchés géographiques.

Convergence Gestion des investissements

Notre équipe: Linda Liu

But: Effectuer une analyse exploratoire des données sur différents aspects du marché financier et utiliser des méthodes de régression et de classification pour prévoir/identifier l'alpha

Linda a tiré parti de la méthode d'ensemble utilisant l'empilement et le vote majoritaire pour détecter des événements rares sur le marché financier. Elle a également écrit des modèles d'apprentissage automatique qui pourraient être déployés en production.

Dictionary.com

Notre équipe: Claire Large

But: Identifiez et classez les mots nouveaux ou manquants pour une inclusion potentielle dans le dictionnaire

Claire a développé un système autonome en Python à l'aide de sci-kit learn pour générer un score de validité pour les éléments de la liste mensuelle des requêtes sans correspondance sur le site Dictionary. Son algorithme incorporait des signaux provenant de la structure lexicale, des modèles de requête et de l'utilisation sur les médias sociaux, et utilisait une nouvelle technique d'assemblage pour atténuer l'effet du bruit dans l'ensemble d'apprentissage.

Ebates

Notre équipe: Sheri Nguyen, Keyang Zhang

Objectif 1 : Construire un modèle de détection d'anomalies qui a trouvé des ruptures dans les rapports d'affiliation

Sheri et Keyang ont construit un système de détection d'anomalies en utilisant une combinaison de l'algorithme Bayesian Change Point et du package Twitter Anomaly Detection en intégrant R dans leurs programmes Python à l'aide de RPY2. Leur modèle a réussi à détecter certains partenaires majeurs signalant des pannes sur diverses plateformes.

Objectif 2 : Construire un modèle de prévision des revenus quotidiens

Sheri et Keyang ont construit un modèle pour prédire les revenus quotidiens. Il s'agissait d'une mise en œuvre importante pour l'équipe marketing d'Ebates, car leur entonnoir de données quotidien des affiliés était souvent retardé, un modèle de prédiction de revenus précis était nécessaire afin de prendre des décisions commerciales hebdomadaires importantes sur l'emplacement des campagnes marketing. Ils ont implémenté quelques algorithmes différents, notamment la régression linéaire et la forêt aléatoire. Leur modèle a été mis en production avec un taux d'erreur de 5 à 6 %.

Objectif 3 : Construisez un modèle pour trouver quels clients doivent recevoir des e-mails de rappel pour Référer un ami à Ebates

Sheri et Keyang ont construit un modèle pour sélectionner les clients les plus susceptibles de recommander Ebates à un ami. Le programme Refer-A-Friend est l'un des programmes les plus générateurs de revenus proposés par Ebates. Ils ont d'abord filtré les clients d'Ebates pour comportement frauduleux, puis ont attribué des probabilités à chaque client. Les clients avec les probabilités les plus élevées ont ensuite reçu un e-mail pour leur rappeler le programme Refer-A-Friend proposé par Ebates. Le modèle de Sheri et Keyang a amélioré les performances du modèle de classification d'origine d'Ebates de 13 % de détection de vrais positifs à 80 % de détection de vrais positifs. Leur modèle est actuellement utilisé en production.

Eventbrite

Notre équipe: Kelsey MacMillan

But: Améliorez la recherche de sites et les recommandations en extrayant des fonctionnalités de haut niveau à partir des données d'événement En plus des organisateurs avec lesquels Eventbrite entretient des relations directes, il existe de nombreux organisateurs individuels dans le monde qui se connectent eux-mêmes à Eventbrite et créent des événements. Faire le tri dans ce vaste inventaire d'événements organisés individuellement pour faire correspondre les participants à leur prochaine expérience est un défi. Pour aider à relever ce défi, Kelsey a mis en œuvre une méthode de modélisation de sujet non supervisée appelée factorisation matricielle non négative qui extrait des « balises » de sujet clés des événements en utilisant le texte brut de leurs titres et descriptions. Pour la tâche toujours délicate de valider une méthode non supervisée, Kelsey a construit un type différent de modèle de sujet en utilisant une approche probabiliste appelée Latent Dirchlet Allocation et a vérifié la stabilité des sujets trouvés dans les deux types de modèles.

Notre équipe: Hannah Lieber

But: Aidez les équipes commerciales et marketing à mieux comprendre les caractéristiques de leurs organisateurs générateurs de revenus. Hannah a utilisé Hive et Python pour développer un modèle de forêt aléatoire afin de classer les organisateurs susceptibles de se désintégrer, permettant à Eventbrite de prendre des mesures préventives pour retenir ces organisateurs.

Banque de la Première République

Notre équipe: Yige Liu, Anshika Srivastava

But: Etude de diversification des gisements et analyse de réseau

Anshika et Yige ont étudié les segments volatils des dépôts pour comprendre si l'augmentation de l'équilibre des segments entraîne une modération de la volatilité. Ils ont également utilisé la théorie des graphes pour concevoir le pseudo-algorithme permettant de détecter les ménages et d'identifier les personnes influentes dans le réseau de la banque à l'aide des données historiques de la banque. Ils ont acquis des données à partir de plusieurs serveurs et bases de données à l'aide de SQL (serveur SQL) et ont effectué l'analyse à l'aide de Python Pandas et Matplotlib.

Notre équipe: Graham McAlister, Derek Welborn, Yixin Zhang

Graham a construit un algorithme de détection d'anomalies prédictif en implémentant une forêt d'isolement en Python. Le système prend des prédictions pour la demande de recherche des caractéristiques de vol et renvoie la probabilité que ce point provienne de la distribution "normale" dans l'ensemble de données.

Derek a construit un système de prévision des prix pour les vols. Sa solution utilisait l'amplification de gradient implémentée à l'aide de SciKit-Learn en Python. Le modèle est hébergé dans une application flask et est utilisé par l'équipe de science des données de Flyr.

Yixin a analysé les tickets traités par le support client de Flyr pour les aider à mieux concentrer leurs efforts. Son travail a décomposé quels partenaires étaient les plus susceptibles de créer différents problèmes et à quel point ils étaient coûteux à traiter. Elle a visualisé ces données en utilisant à la fois Matplotlib de Python et R Shiny.

Notre équipe: Su Wang

But: Interrogez, analysez et communiquez efficacement les données pour répondre aux questions commerciales

Gyft, une filiale en propriété exclusive de First Data Corporation, est une plate-forme de carte-cadeau numérique de premier plan avec une application de carte-cadeau mobile de premier ordre pour iPhone et Android. Avec des sites Web à fort trafic et des quantités massives de données, Gyft a besoin d'analystes de données pour travailler avec des équipes interfonctionnelles, interroger, analyser et communiquer efficacement des données dans un environnement commercial Internet au rythme rapide. Une journée type pour un stagiaire Data Analyst chez Gyft implique la création et la maintenance de tableaux de bord KPI, la collaboration avec différents départements pour comprendre les questions commerciales, la création des bonnes mesures, l'interrogation efficace des bonnes données à partir de la base de données, l'extraction d'informations à l'aide de diverses techniques statistiques et la transmission le bon message aux équipes. SQL est fréquemment utilisé, R et Python sont utilisés lorsqu'une analyse statistique est nécessaire.

Accueil.ai

Notre équipe: Viakhya Sachdeva, Evelyn Peng

Objectif 1 : Identifiez les lieux fréquemment visités pour les utilisateurs et prévoyez les déplacements entre ces lieux

Vyakhya et Evelyn ont travaillé sur 2 projets majeurs chez Home.ai. Dans le premier projet, ils ont développé une solution prête pour la production pour identifier les lieux fréquemment visités sur la base des données de localisation mobile/GPS à l'aide des algorithmes de clustering DBScan et Gaussian Mixture. Compte tenu de la liste des lieux appris à l'étape précédente, ils ont développé un algorithme pour identifier les trajets entre ces lieux. Ils ont utilisé la régression logistique pour prédire la prochaine destination des utilisateurs en fonction d'un lieu et d'une heure de départ. Leur mise en œuvre a amélioré la précision du système existant de 30 %.

Objectif 2 : Prédisez les états de différents appareils domestiques en fonction des données des capteurs des appareils IoT, du temps et des facteurs environnementaux

Leur deuxième projet était lié à l'automatisation des appareils domestiques, dans lequel ils combinaient des données de séries chronologiques d'appareils IoT (capteurs de mouvement, prises électriques, serrures de porte, etc.), des données environnementales (température, heure de la journée, etc.) et utilisateur. l'emplacement et construit des modèles d'apprentissage automatique utilisant des réseaux de neurones pour anticiper les besoins des utilisateurs dans une maison autonome. Leur modèle a atteint un taux de précision global de

Astros de Houston

Notre équipe: Eric Lehman

But: Développer un algorithme automatisé pour caractériser la zone de frappe de la MLB pour différents comptes et positions

Eric a utilisé à la fois des approches d'apprentissage automatique et d'analyse pour modéliser la frappe réelle en fonction des historiques de pitch de la MLB en 2015 et 2016. Plusieurs approches de modélisation différentes ont été étudiées à l'aide du package scikit-learn de Python, notamment LDA, les arbres de décision et l'amplification de gradient. La zone de frappe a été caractérisée en trouvant la meilleure superellipse qui a minimisé le taux d'erreur de classification pour un compte et une position de frappeur donnés (L ou R). Des visualisations détaillées de la zone de frappe ont été créées à l'aide du package Shiny de R.

Isazi

Notre équipe: Christine Chu, Erin Chinn

But: Prédire les caractéristiques cliniques des patientes atteintes d'un cancer du sein à l'aide des niveaux d'expression de l'ARNm

La médecine de précision est un domaine émergent qui décide du traitement médical en fonction du contenu génomique d'un patient. Compte tenu de la grande dimensionnalité et de la nature complexe des gènes et de leurs interactions, les réseaux de neurones et l'apprentissage en profondeur sont bien adaptés aux modèles prédictifs impliqués dans la médecine de précision. Christine et Erin ont construit un modèle de réseau neuronal multitâche en conjonction avec un auto-encodeur de débruitage pour prédire les caractéristiques cliniques en fonction des niveaux d'expression des patientes atteintes d'un cancer du sein. Ils ont utilisé plusieurs bibliothèques en Python (Numpy, Sci-kit Learn, Keras, Theano) pour développer et tester leurs modèles. Avec leur modèle, ils ont pu atteindre une précision de 93% et 82% dans la prédiction de deux caractéristiques cliniques importantes qui distinguent les différents types de cellules cancéreuses du sein.

Comté de Los Angeles

Notre équipe: Matt McClelland

Objectif 1 : Modélisation des transactions d'actes du comté de Los Angeles pour des prévisions précises

L'objectif de ce projet était de recréer un modèle de série chronologique fourni au comté de LA par l'économiste de l'UCLA William Yu. Le modèle d'ensemble résultant utilise les techniques VAR et la régression dynamique avec de nombreux termes autorégressifs.

La nature de ce projet nécessitait GGplot à des fins de validation et de facilité de projection des prévisions. La mise en œuvre statistique réelle nécessitait divers packages combinés à des fonctions personnalisées pour obtenir des résultats de prévision d'ensemble. Des travaux supplémentaires doivent être effectués pour intégrer cette fonction en interne en tant que produit de travail nettoyé

Objectif 2 : Nettoyage, agrégation et visualisation des données de vote du comté de LA

En tant qu'exploration ouverte des données du vote par courrier du comté de LA, beaucoup de travail a été effectué pour nettoyer et augmenter les données. L'augmentation des données a été effectuée à l'aide de l'API de géocodage de Google et du package gmap de R pour les requêtes de latitude/longitude et de distance. Les données sur les électeurs ont également été complétées par les données du recensement qui ont fusionné au niveau du secteur de recensement. En utilisant ces données, nous avons pu générer plusieurs rapports de style EDA pour la référence interne du comté de LA. La visualisation a été réalisée à l'aide de Leaflet et Shiny.Actuellement, il s'agit d'une application interne pour le comté de LA, mais il est possible de rendre cette application publique.

Prêter

Notre équipe: Francisco Calderón Rodriguez

But: Construire un modèle de classification pour prédire la probabilité qu'un e-mail client soit une réclamation

Francisco a extrait les textes des e-mails à l'aide de Python de la plate-forme de gestion des clients qui ont été formatés en JSON. Il a collecté plus de 5 000 e-mails de non-réclamation et 260 e-mails de réclamation et a appliqué la vectorisation de comptage de Scikit-Learn pour générer des fréquences pour chacune des 6 000 fonctionnalités. Fonctionnalités modélisées à l'aide de la régression logistique avec une pénalité L1 pour effectuer la sélection des fonctionnalités.

Caisse à butin

Notre équipe: Cameron Carlin, Mikaela Hoffman Stapleton

But: Comprendre le sentiment et la demande des clients pour avoir un aperçu de la diversité future des produits et des désirs des clients

Chez Loot Crate, un service de souvenirs "geek et jeux" par abonnement, comprendre quels types de produits les consommateurs veulent et ce qu'ils pensent des offres d'abonnement actuellement disponibles est primordial pour réussir. Cameron et Mikaela ont utilisé le traitement du langage naturel (NLP), en particulier des analyseurs de texte et des analyses de sentiments, pour quantifier l'expérience client et explorer les tendances autour des informations historiques sur les consommateurs. Ces résultats ont été combinés à la classification Naive Bayes et à une analyse exploratoire des offres de produits historiques pour aider à orienter la future curation des produits Loot Crate.

Mindlight Medical

Notre équipe: Spencer Smith

But: Construire une interface Web pour que les cliniques téléchargent les données EEG

Les données ont été analysées puis enregistrées dans une MongoDB. Spencer a développé un nouvel algorithme pour classer les trajectoires de développement des données médicales. Il a l'intention de publier cette innovation.

Mozilla

Notre équipe: Connor Ameres, André Guimaraes Duarte

But: Créer un tableau de bord interactif des statistiques de plantage de Firefox

Andre et Connor ont utilisé Spark (PySpark + SparkSQL) pour créer un pipeline ETL qui génère un rapport trihebdomadaire (M, W, F) d'analyse de crash sur un échantillon représentatif de 1% de la population du canal de publication de Firefox sur ordinateur. Ils ont utilisé la bibliothèque MetricsGraphics.js (D3) de Mozilla afin de produire une visualisation interactive de ces données.

En outre, Andre a effectué plusieurs analyses ad hoc des données de comportement des utilisateurs de Firefox, telles que la recherche d'une corrélation entre les gros utilisateurs et les premiers utilisateurs à l'aide de la régression logistique. Connor a également utilisé diverses méthodes de clustering et algorithmes de détection d'anomalies, comme les forêts d'isolement, pour segmenter les utilisateurs en fonction de leurs métriques d'engagement correspondantes.

Athlétisme d'Oakland

Notre équipe: Josué Amonrud

But: Prédisez la fréquentation au niveau du jeu pour la saison 2017 et analysez les listes de billets Stubhub au fil du temps

Les données au niveau du jeu incluent les ventes de billets, le jour de la semaine, l'adversaire, le type de promotion, etc. Un modèle de régression linéaire a été adapté à ces données afin à la fois de prédire la participation match par match et de quantifier le changement des facteurs. Ces informations pourraient être utilisées pour regrouper les jeux pour les packs de billets multi-jeux. Un autre projet impliquait R avec ggplot2 pour tracer les listes de billets au fil du temps afin d'avoir une intuition de la façon dont les prix changent par rapport au jour du match.

Pow-Wow Énergie

Notre équipe: Will Young

But: Prédire le stress hydrique des amandiers à l'aide de données de télédétection (par exemple, météo, imagerie aérienne)

Will a utilisé des méthodes établies de gestion du stress hydrique pour concevoir des caractéristiques à partir de données distantes. Ces caractéristiques ont été utilisées en entrée d'un algorithme d'amplification de gradient pour prédire le stress hydrique au niveau de l'arbre. D'autres projets comprenaient un algorithme Kmeans pour mesurer le diamètre des arbres à partir d'images aériennes. Il a principalement utilisé Python avec Numpy, Sklearn et Pandas.

49ers de San Francisco

Notre équipe: Mélanie Palmer

But: Modèle de propension à l'achat pour les détenteurs d'abonnements de saison ainsi que pour les événements tiers afin d'augmenter les prospects

Melanie a utilisé Python pour créer un classificateur d'amplification de gradient afin d'identifier les acheteurs parmi près d'un demi-million d'enregistrements. Le modèle a été intégré dans un serveur dynamique à l'aide de Redshift et Crontab pour mettre à jour les scores et les prévisions de probabilité d'achat sur une base hebdomadaire. Les données ont été analysées et modélisées à l'aide de R et Tableau.

Revenus scientifiques

Notre équipe: Tim Zhou

But: Enquêter sur la présence de divers effets économiques dans les paramètres de jeu

Tim a rédigé des rapports internes et des tableaux de bord de diverses métriques de jeux mobiles à l'aide de R Shiny. Il a effectué diverses transformations et nettoyages de données pour préparer les données à la modélisation.

Notre équipe: Lin Chen

But: Construire un tableau de bord d'analyse de données et effectuer une exploration des fonctionnalités pour optimiser les modèles

Lin a utilisé SQL et R pour analyser certains phénomènes d'achat in-app de jeux mobiles et a conçu le tableau de bord de visualisation à l'aide de R Shiny. Elle a utilisé python, R et QGIS pour explorer de nouvelles fonctionnalités à partir des données externes, effectué l'ingénierie des fonctionnalités et la sélection des fonctionnalités, et optimisé les modèles. En utilisant de nouvelles fonctionnalités, le modèle final a permis d'augmenter de 20 % la prévision de la valeur à vie des utilisateurs.

Scribd

Notre équipe: Ruixuan Zhang, Brigit Lawrence-Gomez

But: Développer un modèle de classification d'ensemble pour classer les chapitres de livres et améliorer l'expérience de lecture des utilisateurs

Afin d'assurer une satisfaction maximale du lecteur, Scribd souhaite présenter son contenu de lecture numérique de manière optimale - en sautant tout ce qui est ennuyeux au début et à la fin du livre. Afin de baliser correctement leur vaste bibliothèque numérique, ils s'appuient sur la puissance et l'efficacité de l'apprentissage automatique. Nous avons appliqué avec succès divers outils d'apprentissage automatique, d'extraction de caractéristiques et de traitement du langage naturel aux données de livre au niveau du chapitre, atteignant une précision de 96 % en utilisant Python, Scikit-learn et GloVe Word Vectors.

Shippo

Notre équipe: Sheri Nguyen

But: Construit un modèle pour prédire le nombre de jours qu'un colis sera estimé être en transit

En tant que plate-forme d'API d'expédition, Shippo vise à rendre l'expédition rapide, rentable et facile à utiliser pour ses consommateurs. Ce projet a servi à donner une estimation alternative d'arrivée en plus de la date de livraison estimée par le transporteur. Elle a testé une variété de modèles, notamment : Random Forest, Linear Regression, Poisson Regression et Gradient Boosting. Pour évaluer ses résultats, elle a utilisé la validation croisée K-Fold et des mesures d'erreur telles que MSE et MAE.

Banque de la Silicon Valley

Notre équipe: Jinxin Ma

But: Utiliser l'analyse de réseau pour déterminer les clients les plus centraux de la banque

Jinxin a utilisé R et Python pour effectuer une analyse de réseau à l'aide des données CRM de la Silicon Valley Bank. L'analyse a permis de déterminer les clients les plus centraux et ainsi de fournir les informations bancaires sur les clients dans lesquels investir davantage.

Médecine Simpatica

Notre équipe: Juan Pablo Oberhauser

But: Construire un pipeline d'acquisition de données pour les fichiers de séquençage Fasta RNA

Le pipeline a utilisé des outils tels que le pseudo-alignement et pyspark pour télécharger, remodeler et quantifier les données génomiques. Juan Pablo a construit un programme de classification d'ensembles basé sur des arbres dans Spark pour diagnostiquer plusieurs maladies et infections virales. Il a principalement utilisé Spark, Python et AWS.

Écoles publiques du Sommet

Notre équipe: Arda Aysu

But: Construire un modèle pour prédire les scores des étudiants aux examens externes mandatés par l'État à l'aide de métriques internes

Après s'être familiarisé avec la structure des données de performance des étudiants de Summit, un modèle a été construit en Python pour prédire leurs résultats aux tests. Du temps a également été consacré à donner un aperçu des approches basées sur les données et à aider l'équipe Summit à apprendre Python.

Notre équipe: Roger Wu

But: Quantifier l'impact de la tarification et d'autres facteurs sur la conversion

Turo est un marché de location de voitures où les propriétaires de voitures peuvent louer leurs voitures aux voyageurs. Comprendre l'impact du prix et d'autres facteurs sur la conversion est important pour le succès de l'entreprise. En utilisant R et SQL, Roger a quantifié l'impact de ces facteurs sur la conversion. Cela a été fait à l'aide d'une étude observationnelle et d'un modèle de régression logistique.

Notre équipe: Yichao Zhu

But: Explorez la saisonnalité et l'épidémie régionale de conjonctivite en fonction des publications sur les réseaux sociaux

Yichao a extrait des tweets mentionnant la conjonctivite et tous les champs associés tels que les réponses, le lieu et l'heure à l'aide de Python, AWS et Twitter API. Des méthodes basées sur les réseaux sociaux sont mises en œuvre pour estimer l'emplacement des utilisateurs, ce qui n'a pas été fourni. Elle a également suggéré la PNL (méthode basée sur le contenu) pour l'estimation de la localisation. Elle a créé une base de données pour stocker les ensembles de données pour une utilisation ultérieure.

Oncologie UCSF

Notre équipe: Vincent Rideout

But: Utilisez Deep Learning pour étudier le processus de prétraitement de radiothérapie

Vincent a utilisé des réseaux de neurones convolutifs pour prédire les taux de passage avant traitement à partir d'images représentant la dose de rayonnement appliquée à chaque partie du corps (cartes de fluence). Il a expérimenté de nombreuses architectures de réseaux neuronaux et hyperparamètres différents pour optimiser la qualité des prédictions. L'apprentissage par transfert a été utilisé pour améliorer les performances sur un petit ensemble de données : un modèle formé pour exceller dans la reconnaissance d'images sur l'ensemble de données d'images du monde réel ImageNet a été réutilisé pour ce problème et s'est avéré être la meilleure solution. L'équipe est sur le point de soumettre un article académique basé sur leurs conclusions et fera une présentation lors de la réunion annuelle et de l'exposition de l'American Association of Physics in Medicine.

Valor Water Analytics

Notre équipe: Tim Zhou, Zefeng Zhang

But: Exploiter les données d'utilisation de l'eau des entreprises de services publics pour optimiser l'efficacité opérationnelle et les sources de revenus

Tim a développé un algorithme de clustering hybride utilisant KMeans et DBSCAN pour aider à signaler les compteurs d'eau potentiellement anormaux. Tim a exploré l'utilisation de l'analyse de Fourier pour identifier le comportement périodique, mais a finalement opté pour un algorithme d'autocorrélation simple. Zefeng a étudié les corrélations entre les données d'utilisation de gaz et d'eau. Zefeng a développé un modèle de détection d'anomalies utilisant des chaînes de Markov à décalage 1.

Vida Santé

Notre équipe: Laurent Barrett

Objectif 1 : Identifiez les valeurs aberrantes dans les données de poids auto-enregistrées pour nettoyer les ensembles de données

Lawrence a utilisé R et un algorithme de détection des valeurs aberrantes basé sur la distance pour identifier les valeurs aberrantes dans les données de poids. L'algorithme provient d'un article universitaire, mais il a été modifié pour fonctionner sur les données de poids fournies par Vida.

Objectif 2 : Évaluer les performances d'un nouvel algorithme de correspondance de coach via des tests A/B

Lawrence a utilisé des tests A/B dans R pour confirmer que le nouvel algorithme de correspondance des coachs a considérablement amélioré la communication entre les coachs et les utilisateurs. Il a également évalué la puissance du test pour déterminer la fiabilité de ces résultats.

Objectif 3 : Extraction des données de la base de données de Vida pour les rapports d'entreprise

Lawrence a utilisé SQL dans BigQuery, la base de données relationnelle de Google, pour extraire des données pour des rapports qui ont permis de déterminer l'efficacité des programmes de perte de poids, de prévention du diabète et de surveillance de la tension artérielle de Vida. Il s'agissait d'un besoin continu pendant la majeure partie du stage, car les rapports devaient être mis à jour et remis sur une base mensuelle. Lawrence a utilisé une combinaison de SQL et R pour interroger et nettoyer les données de ces rapports.

Objectif 4 : Test du ChatBot Vida

Lawrence a mis en place de nombreux tests sur les fonctions en production qui sont utilisées pour comprendre la saisie de texte par l'utilisateur en saisissant les mots importants nécessaires pour répondre aux requêtes de l'utilisateur. Il a utilisé le framework de tests unitaires de Python pour tester ces fonctions.

Notre équipe: Donny Chen

Objectif 1 : Développer des systèmes de recommandation pour personnaliser la lecture de santé des utilisateurs

Donny a effectué une modélisation de sujet NLP et appliqué la récupération d'informations sur des documents volumineux et des messages d'utilisateurs pour concevoir des fonctionnalités. Il a développé des systèmes de recommandation comprenant un filtrage collaboratif en Python pour personnaliser les lectures de soins de santé lors d'une recherche par mots-clés.

Objectif 2 : Extraire les données de Google BigQuery

Donny a utilisé SQL pour récupérer et agréger les données de Google BigQuery afin d'obtenir les données du KPI pour les métriques des utilisateurs. Il a également utilisé R pour nettoyer et visualiser les données de divers rapports analytiques.

Objectif 3 : Concevoir et migrer de Google BigQuery RDBMS vers la base de données de graphes Neo4j

Donny a contribué à la conception de schémas et à l'importation de données pour les lectures de soins de santé dans la base de données de graphes Neo4j pour faciliter le passage d'une base de données relationnelle traditionnelle à une base de données de graphes avancée et évolutive. La récupération des informations connectées dans une base de données relationnelle est souvent lourde car elle nécessite la jonction de nombreuses tables, ce qui peut être réalisé beaucoup plus efficacement dans une base de données graphique.

Objectif 4 : Suivi des événements du serveur Web conçu et déployé des changements d'utilisateurs dans Django

Donny a utilisé Django pour automatiser la journalisation des événements afin de suivre les modifications apportées aux informations des utilisateurs. Il a travaillé en Python et a contribué au serveur web en production.

Vungle

Notre équipe: Shivakanth Thudi, Danny Suh, Matthew Wang, Jennifer Zhu

But: Améliorer le modèle de partage des revenus

L'objectif de Vungle est d'évaluer la faisabilité et l'impact sur la rentabilité de l'engagement dans un modèle commercial de partage des revenus avec les annonceurs. Matthew et Jennifer ont construit un pipeline d'extraction et de traitement de données à l'aide de Python et Spark et ont construit un tableau de bord interactif ainsi qu'un modèle d'apprentissage automatique pour permettre à l'équipe de vente d'explorer, de visualiser et de prédire les segments rentables du marché. Danny et Shiva ont amélioré les modèles de valeur à vie (LTV) de Vungle grâce à l'utilisation de bibliothèques telles que XGBoost, SKlearn et Spark ML.

Wikia

Notre équipe: Albert Ma

But: Mettre en place un système de recommandation utilisant le filtrage collaboratif sur les utilisateurs et les wikis

Wikia a recommandé des wikis au bas de leurs pages sélectionnés à partir d'une liste personnalisée. Albert voulait générer des recommandations en utilisant le filtrage collaboratif au lieu de choisir manuellement les wikis à montrer aux utilisateurs. Il a mis en place un système de recommandation utilisant l'alternance des moindres carrés et la factorisation matricielle en Python à l'aide des packages numpy et pandas. Il a généré des modèles de base avec des suppositions aléatoires et a recommandé des wikis populaires pour évaluer les performances des modèles. Il a pu réduire le taux d'échec de 25% et 20% par rapport aux suppositions aléatoires et aux wikis populaires respectivement.

Williams-Sonoma

Notre équipe: Maxine Qian, Zainab Danoise

Objectif 1 : Créer des modèles d'apprentissage automatique pour prédire les perspectives des produits Open Kitchen

Objectif 2 : Incorporer une nouvelle variable « Cumpiness » et évaluer s'il s'agit d'un ajout précieux au cadre RFM grâce à la modélisation

Maxine et Zainab ont travaillé avec l'équipe d'analyse pour générer des informations sur les consommateurs pour une nouvelle marque et ont construit des modèles pour prédire la probabilité qu'un utilisateur achète la nouvelle marque. Ils ont extrait des caractéristiques à l'aide de SQL, effectué une analyse exploratoire des données dans R, et effectué une ingénierie des caractéristiques et construit des modèles de classification à l'aide de Python. Le modèle a été utilisé pour décider quels clients cibler pour la nouvelle marque. En outre, ils ont utilisé des méthodes d'apprentissage automatique pour évaluer si la variable « Cumpiness » constitue un ajout précieux au cadre RFM.

Xambala

Notre équipe: Valentin Vrzheshch

But: Construire un outil pour comparer les performances commerciales de l'entreprise

Valentin a écrit des scripts Python qui calculent des indicateurs de coûts de trading à haute fréquence pour chaque ordre (métriques telles que le déficit de mise en œuvre, la toxicité et l'impact sur le marché) à l'aide de pandas et de psql. Valentin a également développé des tableaux de bord avec des visualisations des indicateurs à l'aide de R (shiny, plotly, googlevis) pour une évaluation facile et rapide des performances de l'algorithme.

Notre équipe: Avril Liu

Objectif 1 : Construire un modèle de détection de fraude

April a évalué la régression logistique au lasso, la forêt aléatoire, l'amplification AdaBoost/gradient et a construit un modèle final qui a amélioré le score F0.5 de base de 35%. Elle a évalué diverses mesures de performance basées sur le modèle d'affaires de l'entreprise et a effectué des analyses de corrélation et des transformations de données.

Objectif 2 : Pipeline pour l'analyse de l'importance des fonctionnalités

April a conçu et construit différentes bases de données Cassandra pour héberger 100 Go de données. Elle a imputé les signaux manquants dans les données utilisées pour former les modèles de profil de risque et a mis en œuvre une méthode de hachage pour imputer les signaux sur une base continue. Elle a également évalué l'importance des fonctionnalités via un classificateur de forêt aléatoire et extrait plus de 100 signaux de plus de 200 Go de données pour identifier la fraude à l'aide de Python.

Objectif 3 : Utilisez un ensemble de signaux pour remplacer la règle d'accélération existante afin d'obtenir de meilleures performances de filtrage des transactions à haut risque tout en maintenant une proportion élevée de transactions accélérées

April a effectué des analyses avancées et des analyses de données exploratoires dans deux signaux de source de paiement différents afin de trouver une solution pour améliorer la règle actuelle d'accélération des paiements.

Notre équipe: Alice Zhao

But: Construire des modèles de détection de fraude

Alice a travaillé à la création de modèles de détection de fraude pour la fraude par fonds insuffisants, un problème difficile en raison d'un ensemble de données très déséquilibré. Alice a essayé différentes méthodes d'échantillonnage, des algorithmes sensibles aux coûts ainsi que des astuces de hachage pour créer un bon modèle à l'aide de Python, R et SQL.

Notre équipe: Jinxin Ma, Alice Zhao

But: Comparez les mesures d'importance des fonctionnalités et créez un meilleur modèle de détection des fraudes

Jinxin et Alice travaillaient sous l'équipe Risk Data de Xoom. Ils ont comparé les mesures d'importance des fonctionnalités de la forêt aléatoire, de l'amplification de gradient et des arbres supplémentaires et ont prédit si la transaction est frauduleuse à l'aide d'une régression logistique à l'aide de Python, R et Tableau.

Notre équipe: Jinxin Ma

But: Imputer les valeurs manquantes pour les transactions et les règles de détection de fraude réévaluées

Jinxin a créé sa propre base de données à l'aide de PostgreSQL et a écrit des requêtes efficaces pour imputer les valeurs manquantes pour des millions de transactions. L'imputation a amélioré la performance des règles de détection de fraude.

Airbnb

Notre équipe: Ben Miroglio et Chhavi Choudhry

But: regrouper des sessions Web pour segmenter les utilisateurs et améliorer le flux du site Web et de l'application mobile d'Airbnb

Ben et Chhavi ont utilisé des techniques d'apprentissage automatique pour identifier les caractéristiques indiquant des résultats positifs à l'aide de R et Python. Ils ont construit un visualiseur de session Web interactif à l'aide de D3.js pour identifier les principales différences entre les différents segments d'utilisateurs et pour identifier les goulots d'étranglement dans le parcours de la session.

Cloche d'abeille

Notre équipe: Paul Thompson et Jacob Pollard

But: regrouper les utilisateurs en fonction de facteurs influençant les préférences d'événement et classer la catégorie d'événement en fonction de la description de l'événement

Paul et Jake ont appliqué l'algorithme de clustering hiérarchique ROCK aux données d'événements en Python et aux utilisateurs regroupés en fonction des événements auxquels ils ont participé. Ils ont également implémenté un classificateur Naive Bayes en utilisant uniquement des structures de données Python de base, employant une validation croisée 5 fois, résultant en une précision moyenne de 75 %.

Laboratoires Capital One

Notre équipe: Vincent Pham et Brynne Lycette

But: utiliser des techniques d'apprentissage automatique pour la détection des fraudes par carte de crédit et créer une plate-forme d'unification des données

L'équipe de fraude de Capital One a collecté et construit plus de deux cents fonctionnalités pertinentes pour classer les transactions frauduleuses par carte de crédit. Vincent et Bree ont utilisé diverses techniques d'apprentissage automatique utilisant H2O et Dato afin d'évaluer la robustesse des logiciels et d'augmenter la précision de la prédiction de la fraude.Ils ont également mis en place un magasin de données NoSQL et un système de stockage en mémoire de niveau supérieur pour unifier divers processus de streaming et de traitement par lots.

ChannelMeter

Notre équipe: Ghizlaine Bennani et Mrunmayee Bhagwat

But : regrouper des chaînes YouTube similaires

Ghizlaine et Mrun ont développé un algorithme utilisant des techniques d'apprentissage automatique supervisées et non supervisées utilisant Python et PostgreSQL pour regrouper des chaînes et des vidéos YouTube similaires en fonction des performances et des métriques de contenu. Ce regroupement a abouti à un ciblage personnalisé pour les fournisseurs de contenu YouTube multicanaux. Ils ont également modélisé les vues médianes des vidéos YouTube individuelles au cours de leur première semaine à l'aide d'une analyse de régression.

Ville de l'espoir

Notre équipe: Isabelle Litton

But: extraire les sites de récidive du cancer dans les notes cliniques

Isabelle a tiré parti du traitement du langage naturel à l'aide de Linguamatics pour capturer les sites de récidive du cancer à partir de notes cliniques et radiologiques. Elle a également automatisé le processus de validation des résultats avec Python, économisant environ deux heures par validation.

Clorox

Notre équipe: Tate Campbell et Sharon Wang

But: modèle de désabonnement des consommateurs pour un programme de fidélisation des produits qui identifie les caractéristiques clés contribuant aux taux de fidélisation des clients

Tate et Sharon ont utilisé PySpark pour extraire des données pertinentes et effectuer une ingénierie de fonctionnalités sur plus de 10 Go de données. Un modèle de classification aléatoire des forêts a été construit à l'aide de Python pour prédire la durée pendant laquelle les consommateurs resteraient activement inscrits au programme.

Dictionary.com

Notre équipe: Miao Lu

But: aider Dictionary.com à comprendre le comportement des super-utilisateurs

Miao a réalisé deux projets distincts sur Dictionary.com. Elle a créé un tableau de bord utilisant des diagrammes sunburst pour le suivi des séquences de visites basé sur les sessions, en utilisant MapReduce (Python), Hadoop streaming et D3 (javascript, html, css). Elle a également analysé la rétention des super-utilisateurs à l'aide de Hive.

Eventbrite

Notre équipe: Meg Ellis et Jack Norman

But: créer un modèle de suggestion de prix pour aider les organisateurs d'événements à optimiser les ventes de billets et les revenus

En identifiant les caractéristiques importantes qui influencent le plus les prix des billets, Meg et Jack ont ​​mis en œuvre un modèle K Nearest Neighbours qui regroupe des événements présentant des caractéristiques similaires, puis ont tiré parti de la répartition des coûts de ces événements similaires et réussis pour proposer une gamme appropriée de prix de billets que l'organisateur utiliser lors de la création de leur événement. Flask a ensuite été utilisé pour créer une application Web permettant aux utilisateurs d'interagir avec le modèle.

Banque de la Première République

Notre équipe: Piyush Bhargava, Felipe Chamma et Harry O'Reilly

But: optimiser l'allocation des liquidités

Felipe et Harry ont utilisé SQL Server Piyush pour développer un nouveau processus pour optimiser l'allocation de liquidités pour le tampon de liquidité en exploitant les données de transaction des clients et les positions de fin de journée. Le processus a été automatisé et s'exécute désormais quotidiennement pour améliorer les performances. Un outil basé sur SQL a également été conçu pour détecter les modèles inhabituels de transactions des clients et alerter les représentants des banques afin d'atténuer les risques de liquidité. Le processus d'allocation des pertes au niveau des prêts a également été automatisé pour prendre en charge les tests de résistance du capital requis par la nouvelle réglementation financière.

Notre équipe: Matthieu Leach

But: enquêter sur les clients qui prétendent que le produit FareKeep de FLYR permet aux clients de verrouiller un prix de vol jusqu'à 7 jours

Matthew a étudié comment mieux identifier les clients les plus susceptibles de faire une réclamation FareKeep en utilisant des techniques de regroupement pour regrouper les segments de clientèle et en utilisant des régressions logistiques pour prédire le taux de réclamation. Il a également utilisé Bokeh pour créer un tableau de bord affichant les facteurs qui influencent le taux de réclamation.

Notre équipe: Ghizlaine Bennani

But: créer un tableau de bord pour visualiser les données JUVO de manière interactive

Création d'un tableau de bord à l'aide de l'application Flask via python pour afficher un tableau de bord de visualisation D3 interactif qui synchronise les données en temps réel de redshift. Le but du tableau de bord est d'aider les clients à comprendre l'activité JUVO et à visualiser les données pour aider l'unité commerciale dans son processus de prise de décision.

Notre équipe: David Wen, Jaime Pastor

But: créer un tableau de bord pour analyser la rétention des utilisateurs et créer des profils de crédit client

David a créé un tableau de bord à l'aide de JavaScript et Flask, et a architecturé le flux de données interne de Juvo pour fournir des données au tableau de bord à l'aide d'Airflow. Il a également construit un classificateur pour prédire quels utilisateurs seraient retenus. À l'aide de PostgreSQL et de Python (pandas, scikit-learn), Jaime a exploré l'ensemble de données de Juvo, conçu des fonctionnalités et testé différents algorithmes d'apprentissage automatique pour prédire quels utilisateurs rembourseront un prêt en fonction de leur comportement mobile.

Légant

Notre équipe: Tate Campbell, Sharon Wang

But: créer un modèle d'apprentissage automatique pour prédire la fréquence des demandes de renseignements afin d'optimiser les prix des enchères pour un bon AdWords

Tate et Sharon ont utilisé le clustering k-means pour regrouper les heures de la journée qui ont un nombre similaire d'impressions et de clics, puis ont utilisé une forêt aléatoire pour quantifier la relation entre le coût et les demandes de renseignements. Ils ont également créé un algorithme d'optimisation pour rechercher la meilleure combinaison de prix d'enchères quotidiens en fonction du nombre prévu de demandes de renseignements et des contraintes budgétaires.

Métromile

Notre équipe: Gabrielle Corbett et Jason Helgren

But: valider l'utilité d'une alerte de balayage de rue basée sur une application

Metromile fournit une application avec des fonctionnalités pratiques, notamment une analyse de la consommation de carburant, une surveillance du moteur et des alertes de balayage des rues. Gabby et Jason ont développé un modèle de régression logistique utilisant Python et PostgreSQL pour prédire le comportement du conducteur en fonction de ses habitudes de conduite passées et si le conducteur a reçu une alerte de balayage de rue.

BASE RÉSEAU

Notre équipe: Mrunmayee H. Bhagwat

But: construire un modèle de prévision de séries chronologiques

À l'aide de techniques de PNL, Mrunmayee a catégorisé les données de médias sociaux non structurées de Walmart et modélisé leur buzz social à l'aide d'un modèle linéaire généralisé. Elle a également effectué une analyse de séries chronologiques sur les données pour identifier les fluctuations saisonnières et les tendances des revenus trimestriels de Walmart et a construit un modèle de prévision des revenus en utilisant une approche SARIMA dans R.

Radium Un

Notre équipe: Chasseur de Kirk

But: améliorer le ciblage mobile et optimiser la tarification des enchères dans l'espace publicitaire programmatique

La publicité programmatique a lieu sur les ordinateurs de bureau et les appareils mobiles et l'espace peut générer des milliards de points de données par jour. Kirk a interagi avec des ensembles de données extrêmement volumineux à l'aide du cadre informatique distribué Apache Hive. Il a construit des modèles d'apprentissage automatique à l'aide de la bibliothèque scikit-learn de Python qui a identifié les utilisateurs mobiles les plus susceptibles de mener à un résultat positif pour l'entreprise.

École supérieure de commerce de l'Université de Stanford

Notre équipe: Alex Morris

But: développer une méthode structurée permettant d'extraire les données des dossiers SEC EDGAR

Alex a participé au développement du package Python SecParser et a mis en place un pipeline de données qui extrait les données clés pour analyse à partir des formulaires SEC EDGAR non structurés (formulaire 4). Il a ensuite appliqué diverses techniques d'apprentissage automatique et de régression sur les données analysées pour identifier les dépôts ayant un impact significatif sur la performance des actions des émetteurs à la suite de transactions d'initiés importantes.

Écoles publiques du Sommet

Notre équipe: Jaclyn Nguyen

But: identifier les écarts de réussite et calibrer le système de notation

Jaclyn a utilisé les évaluations MAP nationales et l'analyse statistique pour confirmer que les élèves ont atteint leur croissance d'évaluation projetée indépendamment de la race et du groupe socio-économique. Elle a en outre mené une analyse pour déterminer si les enseignants notaient de manière cohérente entre les niveaux et les matières, et a fourni une technique de recalibrage basée sur la régression.

Notre équipe: Alex Romriell et Swetha Venkata Reddy

But: créer un modèle pour détecter les épidémies de conjonctivite

Alex et Swetha ont effectué des analyses textuelles et géospatiales sur plus de 300 000 tweets pour détecter les épidémies locales de conjonctivite. Ils ont créé un cadre pour identifier les tweets directement liés à la conjonctivite. Les flambées épidémiques ont été mises en correspondance avec les dossiers cliniques à l'échelle nationale. L'analyse des séries chronologiques des tweets a révélé des tendances et une saisonnalité similaires par rapport aux données réelles des hôpitaux. Des techniques d'analyse de texte telles que l'analyse Latent Symantec sur AWS ont été utilisées pour filtrer le bruit des données. Un modèle multinomial Naive Bayes a également été développé sur la base des scores TFIDF des tweets pour prédire le sentiment.

Université de San Francisco, Bureau de l'avancement

Notre équipe: Jacob Pollard

But: identifier des donateurs potentiels

À l'aide de modèles de forêt aléatoire dans R, Jacob a sélectionné 10 parmi les 70 variables totales de la base de données des donateurs des anciens élèves de l'USF qui avaient la plus forte influence sur la prédiction d'un donateur potentiel. Ces variables ont été utilisées pour construire un ensemble de classificateurs de régression logistique avec bagging. Cette méthode a ensuite été implémentée en Python avec l'aide de Scikit-Learn, Numpy et Pandas.

Upwork

Notre équipe: Paul Thompson

But: améliorer les prédictions des cotes de rendement au travail des pigistes

Paul a créé des modèles de classification à l'aide des réseaux de neurones LSTM et GRU, Word2Vec et Doc2Vec, et TF/IDF en conjonction avec des algorithmes d'apprentissage automatique tels que la forêt aléatoire et les machines vectorielles de support. Il a utilisé python scikit-learn, gensim et keras et a exécuté des modèles à la fois localement et sur des clusters AWS EC2 (à l'aide de CloudML) et du GPU EC2 (à l'aide de ssh), réussissant à améliorer le modèle de production existant.

Sports vaudous

Notre équipe: Vitesse de Ryan

But: développer un cadre pour prendre en charge le traitement et l'analyse des données de suivi des joueurs de la NBA

Ryan a construit un framework MapReduce en Python pour prendre en charge la création de modèles descriptifs et prédictifs, et générer un ensemble de résultats d'analyse pour les données de suivi des joueurs de SportVu NBA qui génère 800 000 points de données par match. Le regroupement d'un score de similarité a été effectué sur les distributions de localisation des joueurs, l'espacement des courts et la distance parcourue sur plusieurs ensembles de données de 55 Go.

Vision vive

Notre équipe: Alex Romriell et Swetha Venkata Reddy

But: déterminer l'efficacité du logiciel de traitement oculaire spécialisé OcculusRift

Alex et Swetha ont optimisé les processus ETL (extraction, transformation, chargement) à l'aide de Python et PostgreSQL pour mieux ingérer les données de jeu des utilisateurs. SQL a été utilisé pour interroger l'ensemble de données et récupérer les principales métriques oculaires des journaux de jeu. Ils ont confirmé que le traitement ciblait correctement l'œil faible. Ils ont également créé un tableau de bord D3.js pour les modèles visuels et les comportements des sessions de jeu des utilisateurs.

Vungle

Notre équipe: Chhavi Choudhury, Yikai Wang et Wanyan Xie

But: développer un modèle de taux de conversion des utilisateurs et un modèle de valeur à vie de l'utilisateur en tant que société de publicité pour les applications mobiles

Vungle a créé un système de recommandation d'annonces basé sur un modèle de prédiction du taux de conversion des utilisateurs avec des données d'affichage d'annonces. Wanyan a mis en œuvre un modèle de machine de factorisation pour calculer rapidement les poids des termes d'interaction dans le modèle de régression logistique et Yikai a exécuté un algorithme de sélection de caractéristiques basé sur les performances de test pour sélectionner des caractéristiques dans le modèle actuel et a également mis en œuvre un modèle d'arbre d'amplification de gradient. En utilisant Python et Spark, ils ont pu améliorer à la fois l'efficacité et la précision des prédictions. Dans une tentative de créer des modèles liés à la valeur à vie de l'utilisateur (LTV), Chhavi, Yikai et Wanyan ont identifié des fonctionnalités pertinentes liées à l'utilisateur et développé divers modèles pour prédire les jours d'utilisateurs actifs et les revenus sur 7 jours pour différents annonceurs.

Wikia

Notre équipe: Isabelle Litton

But: automatiser le processus de balisage du contenu pour améliorer le ciblage des annonces

Isabelle a formé plusieurs classificateurs à l'aide du package Sklearn de Python et des fonctionnalités tfidf pour atteindre une précision globale de 86 %.

Williams-Sonoma, Inc.

Notre équipe: Jaclyn Nguyen, Sakshi Bhargava et Henry Tom

But: développer un algorithme de sélection automatique d'images et de marquage d'images

Le flux de produits de Williams-Sonoma contient une énorme quantité de données d'images, et il est difficile de baliser automatiquement les images pour l'analyse et les recommandations de produits. Jaclyn, Sakshi et Henry ont réussi à automatiser ce processus grâce à l'utilisation d'algorithmes de traitement d'images d'ensemble personnalisés, de superpixels et d'autres avancées récentes en matière d'imagerie, atteignant une précision de 99 % entre les images silhouette/produit. Ils ont également développé un algorithme de prédiction des couleurs et d'étiquetage des couleurs avec une précision de 90 %.

Plus sage

Notre équipe: Erica Lee et Binjie Lai

But: améliorer et tester des stratégies de prix dynamiques

Wiser fournit des stratégies de tarification pour les détaillants de commerce électronique afin d'optimiser les revenus. Binjie a appliqué des modèles de régression de crête et de séries chronologiques pour la prédiction, la conception d'expériences et les résultats de test, améliorant ainsi de 15 % le modèle de prédiction actuel. Erica a utilisé un modèle linéaire à effets mixtes pour mesurer l'efficacité du moteur de tarification dynamique, en utilisant des technologies telles que Python, Spark et PostgresSQL, ainsi qu'en travaillant sur les plateformes de Big Data Amazon Redshift et Databricks.

Womply

Notre équipe: Felipe Formenti Ferreira

But: améliorer les métriques Statboard de Womply, évaluer le taux de désabonnement des clients et identifier les clients à forte valeur ajoutée

À l'aide des données de revenus quotidiennes du client, Felipe a utilisé python pour analyser l'historique des transactions et fournir des informations commerciales telles que le taux de croissance et la taille moyenne des transactions. Felipe a également utilisé l'analyse en composantes principales pour éliminer toute corrélation entre les variables prédictives et identifier les facteurs influents contribuant à la fidélisation des clients.

Grille automatique

Notre équipe: Brian Kui et Tunc Yilmaz

But: mettre en œuvre des modèles linéaires généralisés et des modèles de réseaux de neurones pour améliorer les modèles de prévision de charge existants

AutoGrid aide les clients industriels à réduire leur consommation d'énergie en contrôlant le fonctionnement des appareils consommateurs d'énergie tels que les chauffe-eau. L'équipe a évalué les modifications apportées aux modèles de prévision proposés par l'équipe de science des données afin d'aider AutoGrid à décider s'il est possible d'intégrer les modifications dans le code de production. Ils ont analysé les signaux reçus, la charge et l'état des chauffe-eau, et identifié les erreurs de fonctionnement.

ChannelMeter

Notre équipe: Cody Sauvage

But: fournir à ChannelMeter un moyen de tirer parti de sa base de données de 300 000 canaux pour identifier des concurrents de niche proches pour les abonnés du produit

Cody a utilisé la modélisation de clusters et de sujets, avec un backend Mongo et Postgres, pour construire une métrique de similarité de canal qui utilise des modèles de réapparition de mots pour identifier les voisins les plus proches dans l'espace de contenu.

Clorox

Notre équipe: Kailey Hoo, Griffin Okamoto et Ken Simonds

But: extraire des informations exploitables à partir de plus de 20 000 avis de produits en ligne à l'aide de techniques d'analyse de texte en Python et R

L'équipe a quantifié les opinions des consommateurs sur une variété d'attributs de produits pour plusieurs marques afin d'évaluer les forces et les faiblesses de la marque.

Convergence Gestion des investissements

Notre équipe: Matt Shadish

But: appliquer des techniques d'apprentissage automatique pour améliorer une stratégie de trading existante

Matt a utilisé Python et des pandas pour incorporer des variables externes et créer des modèles transversaux pour un problème de série chronologique. Il a également créé des visualisations des performances de la stratégie de trading actuelle à l'aide de ggplot2 dans R.

Laboratoires Danaher

Notre équipe: Brian Kui et Tunc Yilmaz

But: requête de données d'imprimante de séries chronologiques fortement déséquilibrées : moins de 200 défauts sur deux millions d'enregistrements de temps

Brian et Tunc ont appliqué des algorithmes d'apprentissage automatique pour prédire les pannes rares des imprimantes industrielles afin de trouver un modèle à mettre en œuvre en production pour des prédictions en temps réel.

Dictionary.com

Notre équipe: Alice Benziger

But: créer un indice de popularité pour la fonctionnalité Mot du jour de Dictionary.com en fonction des données d'engagement des utilisateurs, telles que les pages vues (sur les applications mobiles et de bureau), les taux de clics sur les e-mails et les interactions sur les réseaux sociaux (Facebook, Instagram et Twitter)

Alice a appliqué des techniques d'apprentissage automatique pour mettre en œuvre un modèle permettant de prédire le score de popularité de nouveaux mots afin d'optimiser l'engagement des utilisateurs.

Engager3

Notre équipe: Matt Shadish

But: effectuer une analyse des prix de détail historiques des produits dans tous les magasins

À l'aide de Python, Matt a créé des visualisations de ces analyses dans Matplotlib. Il a ensuite appliqué l'analyse en tant que solution fonctionnelle (en utilisant des RDD et des DataFrames) afin de tirer parti d'Apache Spark. Cela a permis d'analyser des milliards d'historiques de prix dans un délai raisonnable.

Fandor

Notre équipe: Steven Chu

But : définissez, calculez et analysez les caractéristiques du produit, la valeur à vie de l'utilisateur, le comportement de l'utilisateur et les mesures de réussite du film

Comme Fandor est un modèle basé sur l'abonnement, leur objectif est d'attirer plus d'abonnés et de fidéliser les abonnés actuels. Il existe de nombreuses possibilités d'utiliser des métriques pour segmenter et exécuter des prédictions pour les utilisateurs. Actuellement, l'une de ces mesures (la partition du film) est en cours de production sous forme de visualisation de séries chronologiques que les parties prenantes peuvent voir et utiliser dans leurs propres processus de prise de décision.

Notre équipe: Florian Burgos et Dan Loman

But: utilisez l'apprentissage automatique pour prédire le prix des vols de correspondance en fonction du prix des billets aller simple

Florian et Dan ont amélioré l'engagement des utilisateurs sur le site Web en affichant du contenu sur la page de destination avec d3. Ils ont également calculé le contenu pendant la nuit à l'aide de l'informatique distribuée sur une instance AWS ec2 pour trouver les meilleures offres aux États-Unis par origine.

Logiciel GE

Notre équipe: Chandrashekar Konda

But: résoudre les tâches de normalisation des pièces et de mappage des conditions de paiement

À l'aide de Hadoop et de la recherche Elastic, Chandrashekar a identifié des pièces mécaniques similaires sur cinq millions de pièces dans les versions de conception de plate-forme pétrolière pour l'activité Oil & Gas de GE.

Dans un projet distinct Chandrashekar utilisant Python et Talend, nous avons identifié les meilleures conditions de paiement parmi un million de conditions de paiement dans les différentes activités de GE.
Approvisionnement : à l'aide de Python, nous avons comparé plus de 1,8 million de transactions d'achat avec 50 000 produits de GE pour déterminer si GE peut bénéficier de l'achat de tous les matériaux auprès d'autres filiales de GE.

Google

Notre équipe: Sandeep Vanga

But : effectuer un regroupement de texte non supervisé pour obtenir des informations sur des sous-thèmes représentatifs

Sandeep a construit un modèle de base à l'aide des fonctionnalités de clustering Kmeans et de tfidf. Il a également conçu deux variantes des modèles Word2Vec (fonctionnalités basées sur l'apprentissage en profondeur). La première méthode est basée sur l'agrégation de vecteurs de mots et la seconde méthode est basée sur Bag of Clusters (BoClu) de mots. Il a également mis en œuvre la méthode du coude pour choisir le nombre optimal de grappes. Ces algorithmes sont validés sur 10 marques/thèmes différents à partir des données d'actualité collectées sur un an. Diverses métriques quantitatives telles que l'entropie, la silhouette, le score, etc. et des techniques de visualisation ont été utilisées pour valider les algorithmes.

Légant

Notre équipe: Brendan Herger

But : étudier le flux de données existant pour prendre des décisions commerciales et optimiser le processus d'extraction-transformation-chargement des données pour permettre une future analyse approfondie des données en temps réel

Bien que le pipeline existant de Lawfty ait connu des périodes de panne importantes et des données largement non validées, Brendan a pu prendre en charge la création d'un nouveau secteur vertical en espagnol, créer des installations en temps quasi réel et contribuer à un meilleur ciblage des campagnes AdWords.

LiveCareer.com

Notre équipe: Fletcher Stump Smith

But: effectuer un traitement du langage naturel (NLP) et une classification de documents à l'aide de Naive Bayes avec scikit-learn et des représentations vectorielles creuses (Scipy).

Fletcher a écrit du code pour stocker et traiter des données textuelles, en utilisant Python et SQLite. Il a effectué des tests et une refactorisation continus du code de science des données existant. Tout cela a servi à créer un cadre pour trouver des mots pertinents pour des emplois spécifiques.

Comté de Los Angeles

Notre équipe: Michaela Hull

But: trouver des électeurs en double à l'aide d'une correspondance exacte et approximative, d'une ingénierie de caractéristiques telles que les distances entre deux points d'intérêt, en parcourant le site Web du Census Bureau pour des caractéristiques démographiques potentiellement utiles et des modèles de classification, le tout au nom de la prédiction des agents de vote

Michaela a utilisé l'informatique distribuée, l'API Google Maps, des bases de données relationnelles, traitant de grandes bases de données (

5 millions d'observations) et une variété de techniques d'apprentissage automatique.

MyFitnessPal.com

Notre équipe: Layla Martin et Patrick Howell

But: développer un modèle d'apprentissage automatique pour prédire une étiquette de saveur pour chaque aliment dans la base de données de MyFitnessPal

En utilisant principalement Python et SQL, l'équipe a construit un pipeline de données pour mieux fournir les numéros d'abonnement et les revenus aux unités de business intelligence au sein d'UnderArmour.

Ouiota

Notre équipe: Leighton Dong

But: construire des modèles de risque de défaut de crédit à la consommation pour accompagner les clients dans la gestion de portefeuilles d'investissement

Leighton a prototypé une méthodologie pour mesurer le risque de défaut à l'aide d'une analyse de survie et d'un modèle de risque proportionnel de Cox. Il a développé un processus automatisé pour collecter de manière exhaustive les informations sur l'entreprise à l'aide de l'API Crunch Base et les stocker dans une base de données NoSQL. Leighton a également conçu des ensembles de données pour découvrir des clients potentiels pour des produits d'analyse (tels que l'optimisation des prix de vente au détail) et a collecté automatiquement les noms de sociétés et d'autres fonctionnalités textuelles à partir des pages de résultats de recherche Bing.

Revup

Notre équipe: Brendan Herger

But : créer plusieurs pipelines de données et utiliser l'apprentissage automatique pour aider à piloter le produit bêta de REVUP

Brendan a pu créer trois nouveaux flux de données qui ont été directement mis en production. De plus, il a utilisé le traitement du langage naturel et l'apprentissage automatique pour valider et analyser la sortie mécanique du turc. Enfin, il a utilisé le regroupement spectral pour identifier l'affiliation politique de l'individu à partir des données de la Commission électorale fédérale.

Stella & Dot

Notre équipe: Rashmi Laddha

But: construire un modèle prédictif pour la prévision des revenus basé sur le comportement de la cohorte du styliste

Rashmi a regroupé les micro-segments des stylistes en analysant leur comportement dans les premiers jours après avoir rejoint l'entreprise et a utilisé le regroupement k-means sur trois paramètres pour regrouper les stylistes. Elle a ensuite construit un modèle de prévision pour chaque micro-segment dans R en utilisant le filtrage HoltWinters et ARIMA, en ajustant le modèle pour obtenir un taux d'erreur de 5 %. Elle a également effectué des analyses de sensibilité autour du changement des premiers moteurs de performance dans le cycle de vie du styliste.

Écoles publiques du Sommet

Notre équipe: Griffin Okamoto et Scott Kellert

But: démontrer l'efficacité des évaluations de contenu en ligne.

Griffin et Scott ont démontré l'efficacité des évaluations de contenu en ligne de Summit en utilisant les scores des élèves sur les évaluations et les informations démographiques pour prédire les résultats des tests standardisés. Ils ont développé un modèle de régression linéaire en utilisant R et ggplot2 et ont présenté des résultats et des recommandations pour le modèle d'enseignement de Summit à l'équipe d'information.

Notre équipe: David Reilly

But: examinez plus de 300 000 trajets dans la ville de San Francisco pour étudier le comportement des conducteurs à l'aide de SQL et R

David a construit des fonctionnalités comportementales et situationnelles afin de modéliser les réponses des conducteurs aux demandes de répartition à l'aide d'algorithmes avancés d'apprentissage automatique. Il a analysé les taux de remboursement des frais d'annulation dans plusieurs villes afin de prédire quand des frais d'annulation doivent être appliqués à l'aide de Python.

Centre USF pour la planification et l'efficacité institutionnelle

Notre équipe: Layla Martin et Leighton Dong

But: analyser les facteurs influents dans la rétention des étudiants de premier cycle à l'USF à l'aide de modèles de régression logistique

L'équipe a prédit les décisions des étudiants de se retirer, de continuer ou d'obtenir leur diplôme de l'USF en tirant parti des techniques d'apprentissage automatique dans R. Ces informations ont été utilisées pour améliorer la planification budgétaire de l'établissement.

Williams-Sonoma

Notre équipe: Sandeep Vanga et Rachan Bassi

But: automatiser le processus de marquage des images en utilisant le traitement d'images ainsi que des outils d'apprentissage automatique

Le flux de produits de Williams-Sonoma contient plus d'un million d'images et les métadonnées correspondantes - telles que la couleur, le motif, le type d'image (catalogue/multiproduit/produit unique) - sont extrêmement importantes pour optimiser la recherche et les recommandations de produits. Ils ont automatisé le processus de marquage des images en utilisant le traitement d'images ainsi que des outils d'apprentissage automatique. Ils ont utilisé des techniques de vision par ordinateur basées sur la saillance de l'image et l'histogramme des couleurs pour segmenter et identifier les régions/caractéristiques importantes d'une image. Un algorithme d'apprentissage automatique basé sur un arbre de décision a été utilisé pour classer les images. Ils ont pu atteindre une précision de 90 % en cas d'images de silhouette/produit unique et de 70 % de précision en cas d'images complexes de multiproduits/catalogue.

Xambala

Notre équipe: Luba Gloukhova

But: quantifier la performance d'une stratégie de trading haute fréquence sous-jacente

Luba a étendu la base de données interne existante avec des sources de données de Bloomberg Terminal, permettant une meilleure compréhension des caractéristiques des symboles sous-jacents aux performances de la stratégie. Elle a également identifié des écarts dans une base de données d'analyse des transactions en fin de journée.

Zéphyr Santé

Notre équipe: Daniel Kuo

But: développer un algorithme d'apprentissage automatique supervisé pour un projet Publication Authorship Linkage afin de déterminer si plusieurs publications sont coréférées aux mêmes auteurs

Via le système DMP de Zephyr, l'algorithme exploite le couplage d'enregistrements existant d'institution à institution pour augmenter facilement les nouveaux attributs et fonctionnalités dans les modèles. Les techniques de modélisation utilisées dans ce projet incluent la régression logistique, les arbres de décision et l'adaboost. L'équipe a utilisé les deux premiers algorithmes pour effectuer des sélections de fonctionnalités, puis a utilisé l'adaboost pour améliorer les performances.

Notre équipe: Monica Meyer et Jeff Baker

But: Développer un algorithme/modèle de classification pour le projet de pertinence du domaine pathologique qui prédirait et évaluerait le lien entre un document donné et un domaine pathologique spécifié.

Le modèle offre à Zephyr la possibilité de noter et de collecter rapidement des documents, en ce qui concerne une maladie, pour fournir les documents résultants aux clients. Notre équipe a exploré quatre algorithmes différents pour résoudre ce problème : régression logistique, logistique en sac, Bayes naïf et forêt aléatoire. Des approches binaires et multimarques ont été testées. L'approche est évolutive pour inclure d'autres types de documents.

Notre équipe: WeiWei Zhang

But: Déterminer la pertinence du domaine de la maladie pour les revues médicales à l'aide de techniques d'apprentissage automatique.

Le projet a commencé par un échantillonnage des données de la base de données PubMed. Grâce au traitement du langage naturel et au processus d'ingénierie des fonctionnalités, le texte du résumé et le titre des documents médicaux ont été transformés en jetons avec des scores TF-IDF (Term Frequency, Inverse Document Frequency). En tirant parti des caractéristiques d'un classificateur de forêt aléatoire, les caractéristiques les plus importantes de l'espace des caractéristiques ont été sélectionnées. Le corps du modèle était une régression logistique multi-label. Les résultats ont été évalués sur la base de l'exactitude, du rappel, de la précision et du score F1. En bref, le projet est un excellent exemple de gestion de données non étiquetées, de classes déséquilibrées et de problèmes multi-étiquettes dans un contexte d'apprentissage automatique.


2 réponses 2

Tout d'abord, ce petit conseil n'est pas correct :

la raison pour laquelle vous manquez peut-être l'entrée pendant certaines images peut être liée au fait que IEnumerator met plus de temps à produire

Je vois souvent cela, où les gens pensent que si une méthode de mise à jour ou une coroutine est lente, elle "prendra du retard" sur le reste de la boucle de jeu, car les choses se passent dans le jeu plus rapidement que le code lent ne le vérifie.

L'unité ne fonctionne pas de cette façon. Les scripts de mise à jour et de coroutine s'exécutent séquentiellement sur le thread principal dans le cadre de la boucle de jeu. Si l'un de ces scripts s'exécute lentement, la boucle de jeu ne peut pas continuer, lire de nouvelles entrées et restituer de nouvelles images. Il cale jusqu'à ce que le script se termine. Ainsi, le symptôme d'un script lent est une faible fréquence d'images - mais toutes les entrées qui se produisent pendant la durée de cette longue image seront toujours captées sur l'image suivante.

Au contraire, je pense que vos entrées manquées provenaient de votre première version de votre code, où vous avez modifié la valeur de repfor sur les images en alternance. En fait, cela signifiait que vous ne regardiez le clavier que sur les images impaires, et uniquement le contrôleur sur les images paires. Ainsi, si le joueur appuie sur une touche du clavier sur une image paire, ou sur un bouton du contrôleur sur une image impaire, vous l'ignorez. Cela ne semble pas être un problème dans votre code mis à jour.

Maintenant, quant à ce qu'il faut faire avec le code mis à jour : je le jetterais en gros et je recommencerais. Le flux de cette classe est déroutant, il fait des tas de travail redondant et il alloue les ordures avec un abandon imprudent avec toute sa construction de chaîne temporaire.

Quelques stratégies que je vais utiliser ici :

Principe de responsabilité unique : S'il s'agit du InputManager , rendons-le responsable uniquement des entrées. Le GameManager peut être notre machine d'état pour déterminer quand afficher/masquer l'interface utilisateur (ou il peut le déléguer à un MenuManager ), quand il est valide pour accepter les joueurs rejoignant, et quand il est valide pour accepter une demande de début de partie.

Vous aurez probablement d'autres écrans qui souhaitent effectuer une transition vers l'intérieur et l'extérieur (comme un écran de victoire/fin de match), donc centraliser cette responsabilité ailleurs nous aide également à rester AU SEC.

Créez des singletons GameManager et InputManager : de cette façon, nous pouvons les trouver en temps constant avec GameManager.GetInstance() au lieu de chercher à chaque fois que nous voulons les utiliser. (Ou vous pouvez contenir une référence aux gestionnaires dont vous avez besoin en tant que variable membre, si vous en avez envie)

Pas de construction de chaîne dans la boucle de jeu : à la place, définissons une structure de données claire qui contient toutes les chaînes dont nous avons besoin, et réutilisons-les simplement à chaque image. Vous pouvez toujours remplir cette structure dans le code au démarrage si vous le souhaitez.

Pas de travail redondant : nous ne vérifierons pas encore et encore la même entrée pour chaque emplacement de joueur. Nous ne vérifierons pas à nouveau une entrée déjà affectée pour affecter un nouveau lecteur. Ainsi, nous n'aurons pas à faire de travail supplémentaire pour vérifier les mappages en double.

Au lieu de cela, nous allons partitionner nos boutons possibles en deux ensembles :

ceux qui ne sont toujours pas attribués : nous vérifierons une fois chaque bouton de tir non attribué et l'attribuerons au joueur suivant en ligne si vous appuyez sur ce cadre.

ceux qui ont été assignés : nous vérifierons une fois les boutons de démarrage assignés, pour décider s'il est temps de commencer le jeu.


Voir la vidéo: Emmanuel Macron la bête de lévénement