Saturday Samedi May 25 Mai 2019 - Seventh Canadian Statistics Student Conference Septi eme Congr es Canadien des Etudiants en Statistique
←
→
Page content transcription
If your browser does not render page correctly, please read the page content below
Seventh Canadian Statistics Student Conference • Septième Congrès Canadien des Étudiants en Statistique University of Calgary, Alberta Saturday • Samedi May 25 • Mai 2019
HRIC Atrium P10 TRW HRIC HMRB P6 PP MT HSC P7 FMC P8 WHC P4 NT P8a SSB P1 ST Public P1, P3, P4, P6, P8a, P10 (underground) P3 Staff P7, P8, TRW (underground) ST SOUTH TOWER T SSB SPECIAL SERVICES BUILDING B TBCC TOM BAKER CANCER CENTRE C FMC FOOTHILLS MEDICAL CENTRE NT NORTH TOWER WHC WOMEN’S HEALTH CENTRE HSC HEALTH SCIENCES CENTRE HMRB HERITAGE MEDICAL RESEARCH BUILDING HRIC HEALTH RESEARCH INNOVATION CENTRE TRW TEACHING RESEARCH & WELLNESS MT MCCAIG TOWER PP PHYSICAL PLANT FOOTHILLS CAMPUS MAP
Windows Elevator“h" Foothills Hospital 1508 1506 1504 1509A 1509 1503 O’Brien Centre 1402 1403 1404 Corridor 14022 1501 Elev ator 1408X Bioinformatics Lab Serv ice Shaft 1450V 1405B 1405A 1500 Health Sciences Library Serv ice Shaft 1452V Theatre 4 Service Stairs to Serv ice Shaft O’Brien Centre, (1st/2nd floors), 1454V Theatres 3 & 4, Room 1405B Main Level Serv ice Shaft 1456V To HRIC & Theatre 3 Theatre 4 Serv ice Shaft 1460V Serv ice Shaft 1462V 4 Health Sciences Library 4 Theatre 3 4 Serv ice Shaft 1484V 1464A 1462B 146 4B Serv ice Shaft 1479V 1st Floor
Contents • Table des matières Welcome • Bienvenue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Sponsors • Commanditaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Organizers and volunteers • Organisateurs et bénévoles . . . . . . . . . . . . . . . . . . . . 10 Program Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 Aperçu du programme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 Keynote address • Discours d’honneur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 Statistical Computing Workshop • Atelier en Calculs Statistiques . . . . . . . . . . . . . . 15 Machine Learning applications in R Applications de l’apprentissage machine en R . . . . . . . . . . . . . . . . . . . . . . 16 Invited career speakers • Conférenciers invités à la séance sur les carrières . . . . . . . . . 17 Posters • Affiches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 Oral presentations •Présentations orales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 Scientific abstracts: Oral presentations • Résumés scientifiques: présentations orales . . . . 22 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 Robust estimators • Estimateurs robustes . . . . . . . . . . . . . . . . . . . . . . . . 25 Causal inference • Inférence causale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 Model selection • Sélection de modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 Bayesian statistics • Statistique Bayesienne . . . . . . . . . . . . . . . . . . . . . . . . 34 Biostatistics • Biostatistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 Scientific abstracts: Posters • Résumés scientifiques: Posters . . . . . . . . . . . . . . . . . 40 3
Welcome • Bienvenue We are pleased to have you at the Canadian Nous sommes heureux de vous compter parmi Statistics Student Conference! nous au Congrès canadien des étudiants en Our main goal is to offer a space for students statistique (CCÉS)! Nous visons principale- and recent graduates to network, learn, and ment à offrir aux étudiants et aux nou- participate in multiple activities that can help veaux diplômés un espace leur permettant them consolidate the direction of their pro- de réseauter, d’apprendre, et de participer fessional path. The CSSC provides a low- à de multiples activités susceptibles de les stress environment for sharing ideas, devel- aider à consolider l’orientation de leur par- oping skills and holding discussions with oth- cours professionnel. Le CCÉS offre un envi- ers about research, while learning about ca- ronnement sans stress pour partager des idées, reer opportunities. What is best, a wide développer des compétences et discuter de range of statistical interests are represented, recherche avec des pairs, tout en en apprenant such as biostatistics, industrial statistics; big davantage sur les possibilités de carrière. Qui data analysis; probability theory, Bayesian mieux est, un large éventail d’intérêts statis- approaches, and more. tiques sont représentés, tels que la biostatis- This year’s event will put the spotlight on tique, la statistique industrielle, l’analyse de Machine Learning and Big Data, with a talk données volumineuses, la théorie des proba- about machine learning applications in R and bilités, les approches bayésiennes et plus en- an interactive workshop opposing machine core. L’événement de cette année mettra en learning and logistic regression for big data. lumière l’apprentissage machine et les données Attendees are encouraged to bring their lap- volumineuses, grâce à une présentation sur les tops to the workshop. The program also in- applications d’apprentissage machine en R et cludes a session with representatives from dif- à un atelier interactif opposant l’apprentissage ferent areas of the statistics workforce, aim- automatique et la régression logistique pour ing to provide career advice to graduates and les données volumineuses. Nous encourageons recent graduates; as well as multiple sessions les participants à apporter leur ordinateur dedicated to showcase students’ research work portable à l’atelier. Le programme inclut through talk and poster presentations. également une session avec des représentants Finally, the keynote speaker, Dr. Char- de différents secteurs de la statistique, dans maine Dean from the University of Water- le but de fournir des conseils de carrière aux loo, will talk about Interdisciplinary work and diplômés et aux nouveaux diplômés. Il com- being successful as a leader in the field of porte aussi plusieurs sessions qui mettront en statistics. valeur le travail de recherche des étudiants, par l’intermédiaire de présentations orales et par affiche. 4
Sponsors • Commanditaires Special thanks to all our sponsors who have Nous tenons à remercier chacun de nos com- provided generous support for the various manditaires pour leur généreuse contribu- activities of the Canadian Statistics Student tion au Congrès Canadien des Étudiants en Conference. These contributions have made Statistique. C’est grâce à eux que la tenue this event possible. de ce congrès est possible. Gold Sponsors • Commanditaires Or https://math.ucalgary.ca 5
Organizers and volunteers • Organisateurs et bénévoles Organizing committee • Comité organisateur Co-chairs / Co-présidentes: Ms. Anita Brobbey (University of Calagary) Ms. Myrtha Reyna (University of Toronto) Local arrangements / organisation locale: Ms. Fahmida Yeasmin (University of Calgary) Mr. Charles Sam (University of Calgary) Fundraising / Collecte de fonds: Mr. Thai-Son Tang (University of Toronto) Ms. Melissa Van Bussel (Trent University) Ms. Lin Ling (University of Toronto) Translation / Traduction: Mr. Luc Villandre (McGill University) Mr. Steve Ferreira (McGill University) Ms. Marie-Christine Robitaille Grou (Université de Montréal) Skills session / Séance sur les compétences techniques: Mr. Olawale Fatai Ayilara (University of Manitoba) Mr. Jacob Prosser (University of New Brunswick) Carrer session / Séance sur les carrières: Ms. Afaf Alzahrani (Dalhousie University) Mr. Sudipta Saha (University of Toronto) Scientific Program / Programme scientifique: Ms. Michela Panarella (Univeristy of Toronto) Ms. Victoire Michal (Université de Montréal) 10
Support and thanks • Support et remerciements SSC President / Président de la SSC: Robert Platt SSC Administrative assistant / Adjoint Administrative de la SSC: Miaclaire Woodland SSC Executive assistant / Assistant exécutif de la SSC:: Michelle Benoit SSC Treasurer / Trésorier de la SSC: Edward Chen SSC Local organizers / Organisateurs locaux: Karen Kopciuk, Alexander de Leon SSC meetings coordinator / Coordonnateur des congrès: Changbao Wu Photographer / Photographe: Peter Macdonald Volunteers / Bénévoles: Shakiru Alaka, Sarath Kumar Jayaraman, Mohammed Mujaab Kamso, Mili Roy, Oluwaseyi Adetutu Lawal, and Ayoola Ademola. Judges / Juges: Special thanks to the judges involved in the assessment of abstracts, talks and poster presentations. 11
Program Overview Date and times: Saturday, May 25th, from 07:30 to 20:30. Location: Health Science Centre. Cumming School of Medicine, University of Calgary. Time Session Room Page Registration 07:30-08:30 HRIC atrium Breakfast 08:30-08:45 Presidential address Theatre 4 Student research talks I Applications Theatre 4 22 08:50-09:35 Robust estimators O1500 25 Causal inference 1405B 28 Student research talks II Biostatistics Theatre 4 31 09:40-10:25 Bayesian statistics O1500 34 Model selection 1405B 37 10:25-10:45 Coffee break HRIC atrium Skills session 10:45-11:55 Theatre 4 16 Machine Learning applications in R 11:55-12:10 Sponsor Talk Theatre 4 Lunch 12:10-13:20 HRIC atrium Poster session (starts at 12:40) 40 Workshop 13:20-14:45 Theatre 4 15 Exploring Machine Learning Classification Methods Using R 14:45-15:00 Coffee break HRIC atrium 15:00-16:00 Career panel Theatre 4 17 Keynote speech 16:00-17:15 Interdisciplinary Work and being successful as a leader Theatre 4 14 in this arena 17:15-18:00 Closing and awards Theatre 4 18:00-21:00 Social Evening Social evening A limited quantity of food and beverages will be available at no additional cost. Address & time • Adresse & heure: The Den 18:00 hrs. MacEwan Student Centre, 2500 University Drive NW, Calgary, AB. (http://den.su.ucalgary.ca) 12
Aperçu du programme Date et plage horaire: Samedi 25 mai de 07h30 à 20h30. Lieu: Health Science Centre. Cumming School of Medicine, Université de Calgary. Heure Séance Salle Page Inscription 07:30-08:30 HRIC atrium Petit-déjeuner 08:30-08:45 Adresse présidentielle Theatre 4 Présentations orales étudiantes I Applications Theatre 4 22 08:50-09:35 Estimateurs robustes O1500 25 Inférence causale 1405B 28 Présentations orales étudiantes II Sélection de modèle Theatre 4 31 09:40-10:25 Statistique bayesienne O1500 34 Biostatistique 1405B 37 10:25-10:45 Pause-café HRIC atrium Session de formation 10:45-11:55 Theatre 4 16 Applications en R de l’apprentissage machine 11:55-12:10 Présentation du sponsor Theatre 4 Lunch 12:10-13:20 HRIC atrium Séance d’affiches (débute à 12:40) 40 Atelier statistique 13:20-14:45 Exploration de méthodes de classifications en apprentissage Theatre 4 15 machine sur R 14:45-15:00 Pause-café HRIC atrium 15:00-16:00 Table ronde des carrières Theatre 4 17 Présentation d’honneur 16:00-17:15 Travail interdisciplinaire et réussir en tant que leader Theatre 4 14 dans cette aréna 17:15-18:00 Clôture et remise des prix Theatre 4 18:00-21:00 Soirée Soirée Une quantité limitée de nourriture et de boissons sera disponible sans frais supplémentaires. Adresse & heure: The Den 18:00 hrs. MacEwan Student Centre, 2500 University Drive NW, Calgary, AB. (http://den.su.ucalgary.ca) 13
Keynote address • Discours d’honneur Charmaine Dean est vice-présidente - Recherche et Charmaine Dean is Vice- International à l’Université de Waterloo. Dans le President, Research and In- cadre de ses fonctions, Dre Dean vise à encour- ternational at the University ager les collaborations, et à agir comme liaison en- of Waterloo. Her focus is on tre portfolios externes, partenaires industriels et en- building upon foundational trepreneurs. Les travaux de Charmaine Dean dans strengths to heighten the em- le domaine de l’analyse spatiotemporelle appliquée à phasis on collaborations, and la santé et à la foresterie lui ont valu plusieurs prix. link related external portfo- En 2003, Dre Dean s’est vue décerner le prix CRM- lios in a systematic approach SSC en statistique, en reconnaissance d’une contribu- to industrial partners and en- tion substantielle à la discipline au cours des quinze trepreneurship. Dr. Dean’s années suivant l’obtention du doctorat. En 2007, work in space-time analytics elle a remporté le ”Mathematics Alumni Achieve- for health and forestry has ment Medal” de l’Université de Waterloo. En 2010, been recognized widely: in elle a été nommée Fellow de l’Association américaine 2003, she was awarded the CRM-SSC prize; in 2007 pour l’avancement des sciences. En 2012, elle a été named Fellow of the American Statistical Associa- lauréate du ”Trinidad & Tobago High Commission tion and awarded the University of Waterloo Math- Award”. Enfin, en 2016, elle a été élue membre du ematics Alumni Achievement Medal; in 2010 named International Statistical Institute. Fellow of the American Association for the Advance- ment of Science; in 2012 awarded a Trinidad & To- Résumé scientifique bago Canadian High Commission Award; and in 2016 elected to the International Statistical Institute. Résoudre les problèmes sociétaux auxquels nous Abstract sommes confrontés, du développement durable aux Solving many complex societal problems facing the changements climatiques, de la compréhension des world, from sustainable development to climate catastrophes naturelles à celle des problèmes de change to understanding natural disasters and global santé mondiale, requiert souvent une approche in- health problems, often involves an interdisciplinary terdisciplinaire. Les statisticiens jouent un rôle cru- approach. Statisticians have an important role to cial dans l’élaboration de solutions, en raison de play in contributing to solutions because of our leur prééminence dans le développement d’outils leadership in developing tools for evidence-based pour la prise de décisions basée sur des données decision-making. Additionally, we are well poised probantes. Le développement de nouveaux outils to pull together interdisciplinary teams because gen- statistiques pour résoudre un problème scientifique erally our work is interdisciplinary in nature. For nécessite notamment une compréhension de la sci- example, developing new statistical tools to solve a ence au coeur du problème. La recherche interdisci- scientific problem requires that we understand the plinaire a souvent des répercussions sociétales con- science surrounding the problem. Interdisciplinary sidérables. Elle est également très bénéfique aux research is often of high societal impact and gives re- chercheurs eux-mêmes, qui se voient exposés à une searchers valuable exposure to a diversity of research variété de concepts, d’outils et de méthodologies al- concepts, tools and methodologies beyond their own lant bien au-delà de leur propre discipline. Quels discipline. What are the key ingredients for creat- sont les ingrédients indispensables pour créer un ing a successful, innovative and productive interdis- environnement interdisciplinaire novateur, productif ciplinary environment? What qualities make for suc- et propice au succès? Quelles qualités assurent la cess in this environment and what challenges may réussite dans cet environnement et quels défis peu- hinder success? What are the skills that a leader of vent mener à l’échec? Quelles sont les aptitudes dont a multi-disciplinary team needs? What makes inter- a besoin le dirigeant d’une équipe multidisciplinaire? disciplinary work fun and exciting? How can you be Qu’est-ce qui rend le travail interdisciplinaire amu- a confident contributor around an interdisciplinary sant et excitant? Comment peut-on bien contribuer table of experts? This talk considers these questions, aux travaux d’un comité interdisciplinaire d’experts? providing examples to illustrate best practices in col- Cette présentation aborde ces questions, et fournit laborative training and research environments. des exemples illustrant les meilleures pratiques dans des environnements de formation coopérative et de 14 recherche.
Statistical Computing Workshop • Atelier en Calculs Statistiques Brendan Cord Brendan Cord Lethebe est un chercheur Lethebe is an expe- aguerri à l’Université de Calgary. Il rienced researcher est également le responsable des méthodes in University of Cal- et des analyses au sein de l’unité de gary. He is also the recherche clinique au Cumming School of methods/analytics Medicine de l’Université de Calgary. Il lead of the clinical détient un baccalauréat en science actuar- research unit at the ielle ainsi qu’une maı̂trise en biostatistique. Cumming School of Il se concentre surtout sur la biostatistique, Medicine at University of Calgary. He holds mais il est également doué en modélisation a Bachelor in Actuarial Science (University mathématique, R, SQL, Python et STATA. of Calgary) and a Masters in Biostatistics (University of Calgary). He is mostly Résumé scientifique focused in Biostatistics and is skilled in La capacité d’ajuster adéquatement des Mathematical Modelling, Biostatistics, R, modèles d’apprentissage machine est de plus SQL, Python, STATA and Clinical Research. en plus importante pour les statisticiens. À l’aide d’un jeu de données public, nous Abstract nous concentrerons sur un modèle de clas- Being able to properly fit machine learning sification supervisée et sur des techniques models is becoming an important skill for optimales pour la sélection de paramètres. those in the statistical community. Using a Par l’intermédiaire de librairies R com- publicly available dataset we will focus on munes, nous aborderons la régression lo- supervised classification models, and tech- gistique LASSO, les forêts aléatoires, les niques for optimal parameter selection. We réseaux de neurones, ainsi que de multi- will explore the LASSO logistic regression, ples algorithmes pour les arbres de décision. various decision tree algorithms, random for- Ceci nous permettra de bien distinguer les est, and neural net using popular R pack- avantages et les inconvénients d’utiliser un ages. This will allow us to clearly see the modèle interprétable plutôt que des algo- advantages and disadvantages of using inter- rithmes ”boı̂te noire”. pretable models vs “black-box” algorithms. 15
Machine Learning applications in R Applications de l’apprentissage machine en R Prof. Tom Loughlin est directeur du Tom Loughin is a département de statistique et de science ac- professor and chair tuarielle à l’Université Simon Fraser (SFU) à of the Department Burnaby, Colombie-Britannique. Il a obtenu of Statistics and son doctorat en statistique de la Iowa State Actuarial Science at University et a passé treize ans à Kansas Simon Fraser Uni- State University avant de rejoindre SFU en versity in Burnaby, 2006. Ses intérêts de recherche recoupent British Columbia, plusieurs champs d’applications statistiques Canada. He got et de développement méthodologique. Il his PhD in Statis- s’est penché notamment sur l’apprentissage tics from Iowa statistique, la modélisation de données State University catégoriques, la conception et l’analyse and spent 13 years d’expériences, ainsi que sur les statistiques at Kansas State sportives. Il a publié un livre intitulé ”Anal- University before moving to SFU in 2006. ysis of Categorical Data with R”, co-écrit par Tom has broad research interests in many Chris Bilder et disponible chez CRC Press. areas of statistical application and method Tom a une longue expérience en tant que con- development, including statistical learning, sultant statistique et possède l’accréditation modeling categorical data, design and PSTAT de la American Statistical Associa- analysis of experiments, and statistics in tion (ASA) et de la Société statistique du sports. He has published a book, ”Analysis Canada (SSC). Il est également Fellow de of Categorical Data with R,” co-authored l’ASA. with Chris Bilder and available from CRC Press. Tom has extensive experience as a statistical consultant and has PSTAT accreditation from both the ASA and the Statistical Society of Canada. He is also a Fellow of the ASA. 16
Invited career speakers • Conférenciers invités à la séance sur les carrières Dominique Ibañez Dominique est titulaire d’une maı̂trise en bio- Dominique is statistique de l’Université de Toronto. Elle Chief, Biostatistics s’est jointe à la Direction des aliments de and Risk Mod- Santé Canada il y a quatre ans. Elle est elling Division, arrivée avec 25 ans d’expérience en analyse Bureau of Food statistique en milieu clinique, principalement Surveillance and en recherche en rhumatologie. Elle a plus Science Integration, de 90 articles évalués par des pairs à son ac- Food Directorate at tif. Elle dirige maintenant une équipe de dix Health Canada. She statisticiens. Sous sa direction, de nouvelles graduated with a normes ont été introduites pour améliorer les Master’s degree in performances. Celles-ci incluent: le men- Biostatistics from torat du nouveau personnel par des person- the University of nes plus expérimentées, des forums de discus- Toronto. She joined sion mensuels sur les statistiques, une plus the Health Canada’s Food Directorate four grande attention portée à la recherche statis- years ago. She arrived with 25 years of tique ainsi qu’à la création de liens avec experience conducting statistical analysis les chercheurs universitaires en nutrition à in a clinical environment – primarily in travers le Canada. Son équipe a prodigué une Rheumatology research. She has over 90 expertise statistique dans le cadre de projets peer-reviewed articles to her credit. She clés menés à la Direction des aliments, tels now leads a team of 10 statisticians. Under que la réduction de la teneur en sodium des her leadership, new standards have been aliments, les évaluations précédant la mise en introduced to improve performance. Some marché, et la présence de salmonelle dans le of these include: mentoring of new staff poulet. by more experienced ones, monthly statis- tical discussion forums and greater focus on statistical research as well as outreach to academic nutrition researchers across Canada. Her team has been involved in providing statistical expertise and analysis in key projects conducted in the Food Direc- torate such as Sodium Reduction in Canada, pre-market evaluations and Salmonella in Chicken. 17
Lisa Lix Dre Lisa Lix est professeure de biostatis- Dr. Lisa Lix tique et titulaire de la Chaire de recherche is Professor of du Canada de niveau 1 sur les méthodes Biostatistics and d’assurance de la qualité des données a Tier I Canada électroniques sur la santé au Collège de Research Chair médecine Max Rady de l’Université du in Methods for Manitoba. Elle est aussi directrice de la Electronic Health Plateforme de science des données du Cen- Data Quality in tre George & Fay Yee pour l’innovation the Department of dans les soins de santé, une unité de Community Health recherche résultant d’une collaboration en- Sciences, Max Rady tre l’Office régional de la santé de Win- College of Medicine, nipeg et l’Université du Manitoba. Le Cen- University of Man- tre George & Fay Yee vise à renforcer la itoba. She is also recherche ciblée sur le patient au Mani- Director of the Data Science Platform in toba. Son équipe, comportant plus de the George & Fay Yee Centre for Healthcare trente professeurs, membres du personnel Innovation (CHI), a research unit that is a de soutien et stagiaires possédant une ex- collaboration between the Winnipeg health pertise en biostatistique, en bioinformatique region and the University of Manitoba. The et en méthodologie de recherche clinique, CHI aims to strengthen patient-focused est axée sur la recherche méthodologique, research in Manitoba. Her team of 30+ la formation et la consultation. Les do- faculty, staff and trainees with expertise maines d’expertise de Dre Lix comprennent in biostatistics, bioinformatics, and clinical les méthodes pour corriger les biais et les er- research methodology focuses on method- reurs dans les bases de données électroniques ological research, training, and consulting. sur la santé, les méthodes statistiques pour Dr. Lix’s areas of research expertise in- l’analyse d’issues rapportées par le patient clude methods to address bias and error et les méthodes d’analyse pour les données in electronic health databases, statistical longitudinales. Elle est une chercheuse pro- methods for the analysis of patient-reported lifique ayant publié plus de 325 articles sci- outcomes, and methods for the analysis of entifiques. Dr Lix est membre élue du con- longitudinal data. She is a prolific researcher seil d’administration de la Société statis- who has published more than 325 scholarly tique du Canada, présidente de la program- papers. Dr. Lix is an elected member of the mation du Congrès annuel de la SSC de Board of Directors of the Statistical Society 2019, coprésidente du groupe de travail sur of Canada, Program Chair for the Society’s la qualité des données du Système canadien 2019 meeting in Calgary, Co-Chair of the de surveillance des maladies chroniques, et Data Quality Working Group for the Cana- responsable désignée de la programmation dian Chronic Disease Surveillance System, en statistiques appliquées aux politiques de and Program Chair Elect for the 2020 Joint santé à la conférence Joint Statistical Meet- Statistical Meetings Health Policy Statistics ings (JSM) de 2020. Section. 18
Steven Wu Steven Wu a obtenu un B.Math Hon. en Steven Wu fin- statistique de l’Université Carleton, puis une ished his B. Math M.Sc. en statistique de l’Université Simon Hon. in Statistics Fraser. Il a fait le programme co-op à at Carleton Univer- chaque institution. Pour son premier stage, sity and finished his il a été embauché comme testeur manuel MSc Statistics at Si- d’assurance qualité (QA) dans une startup, mon Fraser Univer- puisque sa connaissance de la programma- sity. He did the tion était terrible. La succession de tâches co-op programs at monotones lui a permis de réaliser le pou- both schools, doing voir de la programmation comme outil pour his first work term as a manual QA tester accroı̂tre la productivité. En s’imprégnant at a startup because his programming skills le jour de l’environnement de la haute tech- were terrible. It was in that role of rote tasks nologie, puis en raffinant le soir sa maı̂trise where he realized how powerful program- de Python, Steven a pu développer et met- ming is as a tool for productivity. Absorbing tre en marché une appli permettant aux tech context at day and developing Python entraı̂neurs de basketball dans les univer- programming skills at night, Steven devel- sités canadiennes d’améliorer leurs stratégies oped and marketed a web app that allowed de jeu à l’aide de données et de méthodes Canadian university basketball coaches to statistiques. Les tentatives de la vendre ont inform their game-planning strategies using échoué misérablement, mais l’expérience a data and statistical methods. Attempts to été malgré tout instructive et lui a de plus sell it failed spectacularly but he learned a donné un bon projet à mentionner dans le ton and it made for a great project to talk cadre de sa recherche d’emploi. Il a pos- about when applying for jobs. He inter- tulé auprès de quelques équipes sportives, viewed with a few sports teams, government départements gouvernementaux, et compag- departments, tech companies, and a hedge nies de haute technologie, ainsi qu’auprès fund before accepting a role as a Data Sci- d’un fonds spéculatif avant de dénicher un entist for Shopify’s People Analytics team. poste de spécialiste des données dans l’équipe People Analytics collects and analyzes data People Analytics de Shopify. L’équipe Peo- about the Shopify team to (a) help leadership ple Analytics collecte et analyse des données make data informed decisions and (b) help sur le fonctionnement de Shopify afin d’aider make our workplace more efficient and en- les dirigeants à prendre des décisions basées gaging. We regularly use statistical methods sur les données, et de créer un environnement to influence decisions around hiring, perfor- de travail plus efficace et stimulant. Son tra- mance, retention, engagement, learning, cul- vail statistique influence la prise de décision ture, andmore. en rapport à l’embauche, la performance, la rétention, l’implication, l’apprentissage, la culture, et bien plus. 19
Posters • Affiches No Title/Titre Presenter/Presenteur 1 Aint Played Nobody: Building an Optimal Schedule to Secure an NCAA Tournament Berth Kevin Floyd J’ai pas triché: Construction d’un calendrier optimal pour sécuriser une place au championnat de la NCAA 2 Application of the Distributed Lag Models for Examining Associations Between the Built Environment and Obesity Risk in Children Anna Smyrnova Application de modèles à retards échelonnés pour examiner les associations entre l’environnement bâti et le risque d’obésité chez les enfants 3 Projected changes of extreme rainfall in the province of Quebec Éloise Nolet-Gravel Changements projetés des précipitations extrêmes au Québec 4 Computing R-optimal designs for multi-response regression models via interior point method Pengqi Liu Calcul de schémas R-optimaux pour les modèles de régression à réponses multiples à l’aide d’une méthode du point intérieur 5 Conducting causal inference in the presence of measurement bias using administrative databases Sumeet Kalia Inférence causale en présence de biais de mesure à partir de bases de données administratives 6 Construction of Block Incomplete Design Under Correlated Error Structure Meixin Liu Construction de plans en blocs incomplets avec une structure d’erreurs corrélées 7 Covariance-adjusted, sparse, reduced-rank regression with application to imaging-genetics data Haoyao Ruan Régression parcimonieuse, à rang réduit et ajustée pour la covariance, avec applications à des données d’imagerie et de génétique 8 Grading Gunslingers: A Preliminary Model For Evaluating Pitcher Types in Baseball Alexander Sharp Classement des tireurs d’élites: Modèle préliminaire pour évaluer les types de lanceurs au baseball - la méthode de réévaluation continue 9 Improving the Hosmer-Lemeshow Goodness-of-Fit Test Nikola Surjanovic Amélioration du test d’ajustement de Hosmer-Lemeshow 10 Incremental value of AUC, average positive predictive value and Brier Score Zhe Lu Valeur ajoutée de l’ASC, de la valeur positive prédictive moyenne et du score de Brier 11 Investigating the relationship between temperature and the number of fatalities on Canadian highways using time series analysis. Alex Mackie Une étude sur la relation entre la température et le nombre de décès sur les autoroutes canadiennes à l’aide d’une analyse de séries chronologiques. 12 Joint Models of Longitudinal and Time-to-event Data: Impact of Data Collection Cycles Yixiu Liu Modèles conjoints pour données longitudinales et de durée de vie: l’effet des cycles de collectes de données 13 Longitudinal Changes in Colorectal Cancer among Farm and Non-farm Rural Residents Ibrahim Watara Abubakari Changements longitudinaux dans le cancer colorectal chez les résidents de zones rurales agricoles et non agricoles 14 Parsimonious Gaussian Mixtures via Chimeral Clusters Jason Hou-Liu Mélanges gaussiens parcimonieux via des grappes chimères 15 Semi-parametric estimation of scoring rates in the English Premier League Robyn Ritchie Estimation semi-paramétrique de la cadence des tirs au but réussis dans la English Premier League 16 Semi-supervised nonnegative matrix factorization with applications to spectral data Shreeves Phil Factorisation matricielle non négative semi-supervisée avec applications aux données spectrales 17 Spatial tracking of the current Ebola outbreak in Congo Michael Wendlandt Suivi spatial de l’épidémie actuelle d’Ebola au Congo 18 Spatio-Temporal Modelling of Ichemic Heart Disease in Manitoba Justin Dyck Modélisation spatio-temporelle de la cardiopathie ischémique au Manitoba 19 The Effect of Pace on the Performance of the Closers in the Kentucky Derby Miguel Macaraig L’effet de l’allure sur la performance des closers au Kentucky Derby 20 Understanding Edmonton’s Weather: An Analysis of the Mean Temperature and Snowfall David Cao Comprendre la météo d’Edmonton : une analyse de la température moyenne et des chutes de neige 21 Unsupervised Learning on Functional Data with Application to U.S. Weather Data Chuyuan Lin Apprentissage non supervisé de données fonctionnelles avec application aux données météorologiques américaines 22 Validation Study on a Screening Tool for Mental Health of Children and Youth in Canada Xuejing Jiang Étude de validation d’un outil de dépistage de la santé mentale des enfants et des jeunes au Canada 20
Oral presentations •Présentations orales Student Research Talks I No Title/Titre Presenter/Presenteur Category/Catégorie Page 1 Impact of interest rate portfolio selection techniques 22 L’effet des risques de taux d’intérêt de techniques optimales de sélection de portfolios 2 An Application of the Gibbs Sampling to the Battleship Game Dan Richard Applications 23 Une application de l’échantillonnage de Gibbs au jeu Bataille Navale 3 Examining Age and Sex-related Differential Item Functioning in Seattle Angina Questionnaire Oluwaseyi A. Lawal Applications 24 Examen du fonctionnement différentiel lié à l’âge et au sexe dans le questionnaire sur l’angine de Seattle d’identification automatique (SIA) 4 Construction of D-optimal Designs in Polynomial Regression Models Di Wu Robust estimators 25 Formulation de plans D-optimaux pour les modéles de régression polynomiale 5 A new design of the continual reassessment method Weijia Zhang Robust estimators 26 Un nouveau plan d’expérience pour la méthode de réévaluation continue 6 Time Series Interpolation Algorithms: An Application to Real-World Data Melissa Van Bussel Robust estimators 27 Algorithmes d’interpolation pour séries chronologiques : Application à des données réelles 7 Sufficient dimension reduction for feasible and robust estimation of average causal effect Trinetri Ghosh Causal inference 28 Réduction suffisante de la dimensionnalité pour une estimation réalisable et robuste de l’effet causal moyen 8 On Bayesian estimation of causal effect with a latent confounder class Kuan Liu Causal inference 29 Estimation bayésienne d’un effet causal en présence d’une classe de confusion latente 9 Distance Metrics for Measuring Joint Dependence with Application to Causal Inference Shubhadeep Chakraborty Causal inference 30 Mesures de distance pour mesurer la dépendance conjointe avec application à l’inférence causale Student Research Talks II No Title/Titre Presenter/Presenteur Category/Catégorie Page 10 Frequentist Model Averaging Estimator of Support Vector Machine Classfiers and Regressors Kiwon Francis Model Selection 31 Estimateur par combinaison de modèles fréquentistes pour les classificateurs et régresseurs par machines à vecteurs de support 11 Outlier Detection Methods for Quantitative Fatty Acid Signature Analysis Jennifer McNichol Model Selection 32 Méthodes de détection des valeurs aberrantes pour l’analyse quantitative de la signature en acides gras 12 Predictive Comparison of Vine Copula Models Md Erfanul Hoque Model Selection 33 Comparaison prédictive de modèles de copules en vignes 13 Bayesian spatial logistic regression model for investigating socio-economic and demographic determinants and Rifat Zahan Bayesian statistics 34 geographic variation of pregnancy termination among Bangladeshi women Modèle de régression logistique spatiale bayésienne pour étudier les déterminants socio-économiques et démographiques, et la variation géographique de l’interruption de la grossesse chez les Bangladaises 14 Measurement error adjustment in a zero-inflated Poisson model Kangjie Zhang Bayesian statistics 35 Ajustement pour l’erreur de mesure dans un modèle de Poisson à inflation de zéro 15 Bayesian Approaches to Density Estimation for Use in Functional Linear Regression Shaun McDonald Bayesian statistics 36 Approches bayésiennes pour l’estimation de densités pour l’utilisation en régression linéaire fonctionnelle 16 Variation Along Continuous Neuroelectric Activity Related to Early Cognitive Impairment Henry Lu Biostatistics 37 Variation le long de l’activité neuroélectrique continue liée à un trouble cognitif précoce 17 Crossed random effects modelling of binomial data with random cluster sizes Jingyu Cui Biostatistics 38 La modélisation par effets aléatoires croisés des données binomiales avec des groupages de tailles aléatoires 18 Automated disease detection in dairy cattle using recurrent neural networks Syed Ali Naqvi Biostatistics 39 Détection automatisée de maladies chez les bovins laitiers à l’aide de réseaux de neurones récurrents 21
Scientific abstracts: Oral presentations • Résumés sci- entifiques: présentations orales Applications 08:50am - 09:35am, Theatre 4, Michela Panarella (Chair • Présidente) michela.panarella@mail.utoronto.ca Lin, Wei-Hsiang; Lin, Shih-Kuei; Tsai, Cary Chi-Liang Impact of interest rate, surrender, and liquidity risks on the surplus of a portfolio of endow- ment policies using optimal portfolio selection techniques L’effet des risques de taux d’intérêt, de rachat et de liquidité sur le surplus d’un portfolio de polices de dotation résultant de techniques optimales de sélection de portfolios A life insurer charges an endowment pol- Un assureur charge au détenteur d’une po- icyholder high premiums from which the lice de dotation des primes élevées, à par- policyholder’s cash value is built at an tir desquelles se bâtit la valeur en argent interest rate. The life insurer invests the de l’assuré, en fonction d’un certain taux collected premiums in financial securities d’intérêt. L’assureur investit les primes to meet or exceed the interest rate, and collectées dans des produits financiers afin a policyholder can surrender his policy d’atteindre ou d’excéder ce taux d’intérêt. before maturity and get his cash value back L’assuré peut racheter sa police avant ma- subject to a surrender charge. When lots turité et obtenir ainsi sa valeur en argent, of policyholders surrender their policies, moins les frais de rachat. Si un grand nom- the life insurer needs to liquidate some bre d’assurés rachètent leur police, l’assureur securities in a short time, which exposes the doit liquider des actifs financiers en peu de insurer to liquidity risk. In this paper, we temps, créant un risque de liquidité. Dans propose a framework to analyse the impact cet article, nous proposons une méthode of interest rate, surrender, and liquidity risks pour analyser l’effet des risques liés aux taux on the surplus of a portfolio of endowment d’intérêt, aux rachats et à la liquidité sur policies. Under the framework, we formulate les surplus d’un portfolio de polices de dota- the fair premium and risk-based reserves tion. À partir de cette méthode, nous for- calculations. In addition, we adopt optimal mulons les calculs pour un montant de prime portfolio selection methods for maximizing juste et pour les montants de réserve associés utilities. A series of sensitivity analyses are au risque. Nous adoptons également des conducted to illustrate the surplus distribu- méthodes optimales de sélection de portfolios tions and corresponding utilities after the afin de maximiser les utilités. Dans ce con- adoption. texte, nous réalisons un ensemble d’analyses de sensibilité dans le but d’illustrer les distri- butions des surplus et les utilités correspon- dantes. 22
Richard, Dan; Lupul, Nicholas An Application of the Gibbs Sampling to the Battleship Game Une application de l’échantillonnage de Gibbs au jeu Bataille Navale Battleship is a classic two player game Bataille Navale est un jeu très populaire, where the goal is to sink the opponent’s dans lequel deux joueurs visent à couler ships. Programming a winning strategy les bateaux de l’adversaire. Programmer for this game is difficult because the state une stratégie gagnante pour ce jeu est diffi- space representing the possible coordinates cile, car l’espace d’état comprenant les coor- for the opponent’s ships is huge. To solve données possibles des bateaux de l’adversaire this issue, we implemented an algorithm est énorme. Afin de régler ce problème, based on the Gibbs sampling to estimate nous avons implémenté un algorithme basé the probability of each coordinate to contain sur l’échantillonnage de Gibbs (Gibbs sam- a ship. Simulation results regarding the pling) nous permettant d’estimer la proba- number of guesses to sink each ship and to bilité qu’un bateau se trouve à chaque co- complete a game are presented along with ordonnée. Nous présentons les résultats de strategy Insights. simulations en lien au nombre d’essais pour couler chaque bateau et pour compléter le jeu, ainsi que des conseils stratégiques con- nexes. 23
Oluwaseyi A. Lawal, Zhiying Liang, Oluwagbohunmi Awosoga, Maria J. Santana, Danielle A Southern, Lisa M. Lix, Colleen Norris, Matthew T. James, Tolulope Sajobi Examining Age and Sex-related Differential Item Functioning in Seattle Angina Question- naire Examen du fonctionnement différentiel lié à l’âge et au sexe dans le questionnaire sur l’angine de Seattle Background/Aims: Patient-reported out- Changes in CFI ≤-0.01 indicates that the come measures (PROMs) are increasingly null hypothesis of invariance should not be being used in to compare the health sta- rejected meaning that there is equality of tus of different population groups. When patterns of the configural, weak, strong and completing PROMs subgroups of individuals strict invariance across sex/age groups; RM- may interpret questions about their health- SEA ≤ 0.05 indicates close model fit. Re- related quality of life (HRQoL) differently, sults: Of the 3864 patients included in this a phenomenon known as differential item analysis, 3203 (82.89%) were younger than functioning (DIF). This may threaten the 75 years old while 3006 (77.8%) are male. overall comparability of PROM scores across Several items demonstrated negligible DIF (0 population groups and/or over time. This
Robust estimators • Estimateurs robustes 08:50am - 09:35am, O1500, Victoire Michal (Chair • Présidente) victoire.michal@umontreal.ca Di, Wu Construction of D-optimal Designs in Polynomial Regression Models Formulation de plans D-optimaux pour les modèles de régression polynomiale Whenever we have an appropriate statistical Même avec un modèle statistique appro- model, it is crucial to have good estimation of prié, l’estimation des paramètres, bien que the parameters of the model. Optimal design cruciale, peut être difficile. La formula- plays a big role on achieving this objective. tion d’un plan optimal aide à améliorer There are a variety of criteria defining good les estimés obtenus. Il existe une multi- estimation. Motivated by this fact, we con- tude de critères pour quantifier la qualité struct D-optimal designs by minimizing the de l’estimation. Dans cet esprit, nous for- generalized variance of the parameter estima- mulons des plans D-optimaux en minimisant tors of some polynomial regression models. la variance généralisée des estimateurs des In order to construct such designs, we use paramètres de modèles de régression polyno- a class of algorithms, indexed by a function miale. Nous employons un type d’algorithme which depends on the derivatives of the cri- indexé par une fonction dépendant de la terion function. We also attempt to improve dérivée de la fonction critère. Nous ten- the convergence of the algorithm by using the tons également d’améliorer la convergence de properties of the directional derivatives of the l’algorithme en exploitant les propriétés des criterion function. dérivées directionnelles de la fonction critère. 25
Zhang, Weijia; Yang, Po; Muthukumarana, Saman A new design of the continual reassessment method Un nouveau plan d’expérience pour la méthode de réévaluation continue We propose a new design of the continual Nous proposons un nouveau plan reassessment method (CRM) and system- d’expérience pour la méthode de réévaluation atically evaluate its performance on certain continue et évaluons systématiquement operating measures to satisfy the require- sa performance sur certaines mesures ments of collective and individual ethics. opérationnelles pour satisfaire aux exi- We consider the cases of a single drug and a gences éthiques collectives et individu- combination of two drugs. Simulation results elles. Nous considérons le cas d’un seul show that our new method works well over- médicament et celui d’une combinaison all in comparison with currently available de deux médicaments. Les résultats de designs, on criteria BEARS: Benchmark, simulation montrent que notre méthode Efficacy, Accuracy, Safety. Our new design fonctionne bien globalement en comparaison avoids toxic doses while reliably identifying avec les plans d’expérience actuellement the maximum tolerated dose. disponibles, selon les critères de Beers: référence, efficacité, précision et sécurité. Notre nouveau plan d’expérience évite les doses toxiques tout en identifiant de manière fiable la dose maximale tolérée. 26
Van Bussel, Melissa; Castel Sophie; Burr, Wesley Time Series Interpolation Algorithms: An Application to Real-World Data Algorithmes d’interpolation pour séries chronologiques : Application à des données réelles The analysis of complex scientific data ob- L’analyse de données scientifiques complexes served in the form of time series often uses observées sous forme de séries chronologiques the power spectrum as an exploratory tool. fait souvent appel au spectre de puissance Robust estimators of this statistic have ex- comme outil d’exploration. Des estima- isted for some time, but typically require that teurs robustes de cette statistique existent the data set be contiguous, that is, without depuis un certain temps, mais ils requièrent any missing observations. This presents a habituellement que le jeu de données soit problem for many data sets, as observations contigu, c’est-à-dire qu’il n’y ait pas de can be missing for a number of reasons: in- valeurs manquantes. Ceci constitue un strumentation error or fault, data corruption, problème pour plusieurs bases de données, or observational concerns such as interrupted puisque des observations peuvent être man- vision of the observational unit (e.g., satel- quantes pour une foule de raisons: erreurs lites losing data coverage due to cloud cover). ou défauts dans la prise de mesure, corrup- Interpolators for time series aim to repair the tion des données, ou problèmes d’observation original scientific data by inserting estimated tels que l’interruption dans l’observation de values for the missing quantities. In this l’unité, p.ex. un satellite perdant le sig- talk, we will examine the computational nal visuel dû au couvert nuageux. Les in- and performance results for a number of terpolateurs pour les séries chronologiques modern interpolation algorithms, as applied visent à arranger les données scientifiques to various real-world datasets. We conclude originales en insérant des valeurs estimées with recommendations for interpolator pour les quantités manquantes. Dans cette choice based on the structure of the data of présentation, nous examinerons les résultats interest. calculatoires et la performance d’un certain nombre d’algorithmes d’interpolation mod- ernes, appliqués à divers jeux de données réelles. Nous concluons avec des recomman- dations pour le choix d’un interpolateur basé sur la structure des données choisies. 27
Causal inference • Inférence causale 08:50am - 09:35am, 1405B, Thai-Son Tang (Chair • Président) thaison.tang@mail.utoronto.ca Ghosh, Trinetri ; Ma, Yanyuan ; Luna, Xavier de Sufficient dimension reduction for feasible and robust estimation of average causal effect Réduction suffisante de la dimensionnalité pour une estimation réalisable et robuste de l’effet causal moyen When estimating the treatment effect in Pour l’estimation de l’effet du traitement an observational study, we use a semipara- dans une étude observationnelle, nous util- metric locally efficient dimension reduction isons une approche de réduction de di- approach to assess both the treatment mensionnalité semi-paramétrique et efficace assignment mechanism and the average localement. Elle permet l’évaluation du responses in both treated and nontreated mécanisme d’assignation du traitement et de groups. We then integrate all results la réponse moyenne dans les groupes traités through imputation, inverse probability et non-traités. Par la suite, nous intégrons weighting and doubly robust augmentation tous les résultats à l’aide d’estimateurs par estimators. Doubly robust estimators are imputation, par pondération selon la prob- locally efficient while imputation estima- abilité inverse, et par augmentation dou- tors are super-efficient when the response blement robustes. Les estimateurs double- models are correct. To take advantage of ment robustes sont efficaces localement, tan- both procedures, we introduce a shrinkage dis que les estimateurs d’imputation sont estimator to automatically combine the two, super-efficaces si les modèles pour la réponse which retains the double robustness property sont corrects. Afin de tirer avantage des deux while improving on the variance when the approches, nous présentons un estimateur de response model is correct. We demonstrate rétrécissement (shrinkage estimator) les com- the performance of these estimators through binant automatiquement. Il préserve la pro- simulated experiments and a real dataset priété de double robustesse et améliore la concerning the effect of maternal smoking variance quand le modèle pour la réponse est on baby birth weight. correct. Nous démontrons la performance de l’estimateur à partir d’expériences simulées et via l’analyse d’un véritable jeu de données traitant de l’effet du tabagisme maternel sur le poids des enfants à la naissance. 28
Kuan Liu; Olli Saarela; Eleanor Pullenayegum On Bayesian estimation of causal effect with a latent confounder class Estimation bayésienne d’un effet causal en présence d’une classe de confusion latente Despite the practicality, observational studies Malgré leur aspect pratique, les études observa- are subjected to selection and confounding bias tionnelles sont sujettes à du biais de sélection et and often require all confounders to be mea- de confusion. Pour l’inférence d’un lien causal, sured and controlled to infer casual relationship. elles requièrent souvent que tous les facteurs de In practice, it’s difficult to ensure and assume confusion soient mesurés et contrôlés. En pra- all confounders were captured in the data. We tique, il est difficile de s’assurer que tous les fac- consider a causal effect that is confounded by teurs de confusion ont été enregistrés. Nous con- an unobserved latent confounder class. This sidérons dans cette étude un effet causal confus latent class can be viewed as the unobserved par une classe de confusion latente non observée. augmented disease-risk/comorbidity profile On peut considérer cette classe latente comme le that functions as a confounder. The observed profil non observé et augmenté de comorbidité covariates, instead of being treated directly as et de risque de maladie, qui agit en tant que confounders, are categorized into two groups: facteur de confusion. Nous ne traitons pas di- one predicts the latent class (class predictors) rectement les covariables observées comme de and one manifested from the latent class (class simples facteurs de confusion. Nous les subdi- indicators). We assume the unobserved latent visons plutôt en deux groupes: l’une comprend class 1) captures the true confounding informa- les prédicteurs de classe, et l’autre comprend tion, 2) can be sufficiently identified (modeled) les effets découlant de la classe (indicateurs de given the measured covariates and 3) deter- classe). Nous assumons que la classe latente non mines both the treatment and outcome process. observée reflète l’information véritable de confu- Furthermore, conditioning on the latent class, sion, qu’elle puisse être suffisamment identifiée treatment assignment is independent of the po- (modélisée) à l’aide des covariables mesurées, et tential outcomes, which permits a full Bayesian enfin, qu’elle détermine autant le processus de parameterization of the joint distribution of the traitement que celui de réponse. De plus, en treatment model, outcome model and the latent conditionnant sur la classe latente, on obtient class model. Our proposed causal problem is que l’assignation du traitement est indépendante appealing - it features dimension reduction of des réponses potentielles. Ceci permet une the measured covariates through modeling the paramétrisation bayésienne complète de la dis- underlying patient augmented confounding in tribution conjointe du modèle de traitement, de a latent class analysis. The objective of this réponse et de classe latente. Le problème causal presentation is to present the proposed causal que nous abordons est attrayant: il implique problem, share existing literature in causal une diminution de la dimensionnalité des covari- inference with unmeasured (latent) confounder ables mesurées à travers la modélisation, par and discuss the planned Bayesian estimation. une analyse de classe latente, de la confusion augmentée sous-jacente pour le patient. Cette présentation vise à expliquer le problème causal proposé, faire connaı̂tre la littérature existante en inférence causale en présence d’un facteur de confusion (latent) non mesuré, et mettre en lumière l’estimation bayésienne imaginée. 29
Chakraborty, Shubhadeep ; Zhang, Xianyang Distance Metrics for Measuring Joint Dependence with Application to Causal Inference Mesures de distance pour mesurer la dépendance conjointe avec application à l’inférence causale Many statistical applications require the Plusieurs applications statistiques quantification of joint dependence among nécessitent de quantifier la dépendance more than two random vectors. In this work, conjointe d’un ensemble formé de plus de we generalize the notion of distance covari- deux vecteurs aléatoires. Dans nos travaux, ance to quantify joint dependence among nous généralisons la notion de covariance d ≥ 2 random vectors. We introduce the de distance pour quantifier la dépendance high order distance covariance to measure conjointe d’un ensemble formé de d ≥ 2 the so-called Lancaster interaction depen- vecteurs aléatoires. Nous introduisons une dence. The joint distance covariance is then distance de covariance d’ordre supérieur defined as a linear combination of pairwise pour mesurer la soi-disant dépendance distance covariances and their higher order d’interaction de Lancaster. La covariance de counterparts which together completely distance conjointe est ainsi définie comme characterize mutual independence. We une combinaison linéaire des distances de co- further introduce some related concepts variance deux-à-deux et de leurs homologues including the distance cumulant, distance d’ordre supérieur, qui lorsque combinés characteristic function, and rank-based caractérisent complètement la dépendance distance covariance. Empirical estimators mutuelle. Ensuite, nous introduisons cer- are constructed based on certain Euclidean tains concepts connexes, comme le cumulant distances between sample elements. We de la distance, la fonction caractéristique study the large sample properties of the es- de la distance, et la covariance de distance timators and propose a bootstrap procedure basée sur le rang. Des estimateurs em- to approximate their sampling distributions. piriques sont construits à partir de certaines The asymptotic validity of the bootstrap distances euclidiennes entre les éléments de procedure is justified under both the null l’échantillon. Nous étudions les propriétés and alternative hypotheses. The new metrics de ces estimateurs pour des échantillons are employed to perform model selection in de grande taille, et nous proposons une causal inference, which is based on the joint procédure bootstrap pour approximer leur independence testing of the residuals from distribution d’échantillonnage. La validité the fitted structural equation models. The asymptotique de la procédure bootstrap effectiveness of the method is illustrated via est justifiée sous les hypothèses nulle et both simulated and real datasets. alternative. Les nouvelles mesures sont utilisées pour sélectionner un modèle en inférence causale, celui-ci basé sur un test d’indépendance conjointe des résidus tiré de l’ajustement d’un modèle d’équations structurelles. L’efficacité de la méthode est illustrée à l’aide de données simulées et réelles. 30
You can also read