Le CRSH à « Canada 3.0 » à Toronto

Lire la transcription

Le 14 mai 2013 a eu lieu à Toronto le congrès Canada 3.0 auquel participait le panel du Conseil de recherches en sciences humaines sur les données massives. Dans le cadre de la présentation Adopter une infrastructure numérique efficace quant à l'excellence de la recherche et de la formation, les experts suivants ont exprimé leurs points de vue sur la question :

Wendy Cukier
Vice-rectrice, Recherche et innovation
Ryerson University

Ted Hewitt
Vice-président directeur
Conseil de recherches en sciences humaines

Patrick Horgan
Vice-président, Fabrication, développement et opérations
IBM Canada

Tom Jenkins
Président exécutif et stratège en chef, Open Text Corporation
Membre du conseil d’administration du Conseil de recherches en sciences humaines

Vincent Larivière
Professeur adjoint, Sciences de l’information
Université de Montréal

Ce qu’ils ont dit…

Tom Jenkins : Ce qui est intéressant, c’est que ce dont il est question ici concerne en grande partie les sciences humaines. Comme je le lance souvent à la blague, c’est la revanche des bibliothécaires… parce que c’est exactement ce que c’est, la revanche des bibliothécaires. Nous n’avons pas la capacité algorithmique de traiter une partie de la complexité [des données massives], tout ça, à mon avis, relève de l’intervention humaine.

Pat Horgan : On peut parler [des données massives] en faisant référence à trois « V », soit le volume, la variété et la vélocité. [Prenons l’aspect] « volume » : si vous regardez ce graphique, vous pouvez voir qu’on se situe au milieu de la section du centre, qui couvre la période de 2010 à 2015. Si on croit qu’il y a beaucoup de données aujourd’hui, on peut constater que ce n’est que la pointe de l’iceberg par rapport aux trois prochaines années. Et on ne parle même pas de ce à quoi ressembleront les dix prochaines années.

[Regardons l’aspect] « variété » : à l’heure actuelle, 80 p. 100 des données qui existent ne sont pas structurées. Ce serait bien qu’elles soient dans une base [de données] relationnelle et qu’on ait juste à les gérer, mais c’est inutile de penser fonctionner comme ça. Pensez‑y : 80 p. 100 des données ne sont pas structurées!

[Examinons maintenant l’aspect] « vélocité » : le fait d’être là juste à temps [dans un contexte où tout va vite]. Il y a tellement de données [qui sont produites] qu’il devient impossible de les emmagasiner et de les classer de manière à pouvoir les comprendre et s’en servir. Je parle ici du genre de moment que vous devez saisir au vol. Si vous ne le faites pas, si vous ne prenez pas une décision sur ce qui est en train de se passer, vous raterez le bateau.

Wendy Cukier : Présentement, certains des défis méthodologiques et fondamentaux auxquels on doit faire face lorsqu’on cherche des tendances dans les données – sans trop savoir ce qu’on y trouvera – permettent l’émergence de choses fort intéressantes. Un autre défi, bien sûr, c’est le fait que la corrélation n’explique pas la causalité. Disposer de toutes ces données et pouvoir les analyser ne signifie pas nécessairement qu’on sait tout sans qu’il soit nécessaire de faire un autre type de recherche permettant d’examiner le cadre explicatif.

Alors que dans les domaines du génie, de l’informatique et des sciences, les chercheurs ont toujours eu accès à des laboratoires et à des budgets pour l’assistance de techniciens de laboratoire et autre soutien, [on constate] qu’il n’y a rien de comparable lorsqu’il s’agit d’analyser de grands ensembles de données. Le financement de la recherche multidisciplinaire pose encore certains défis. La formule la plus prometteuse est celle qui permet de réunir un spécialiste en sciences humaines, un informaticien ainsi qu’un expert en administration et de les intégrer à un groupe afin qu’ils règlent certains problèmes. Il n’est pas facile d’obtenir du financement pour ce type de recherche.

Vincent Larivière : Il y a deux aspects ici qui me semblent très importants pour les sciences humaines. [Premier point :] l’ère numérique a modifié la manière de faire de la recherche. D’une part, on assiste à la naissance de nouveaux phénomènes tels que les médias sociaux, notamment Twitter et Facebook. On dispose de nouvelles sources de données et on peut les utiliser pour étudier ces nouveaux phénomènes. D’autre part, ça permet d’élargir la façon de faire de la recherche, soit sur une base collaborative.

[Deuxième point :] la formation est un élément très important. On ne doit pas oublier que les étudiants en sciences humaines craignent tout ce qui est « données » : ils se sont inscrits en sciences humaines en partie parce qu’ils ne veulent pas avoir à composer avec les mathématiques et ne veulent pas s’occuper de chiffres. J’enseigne à 120 futurs spécialistes de l’information. Si je leur montre ne serait-ce qu’une seule statistique, ils prennent leurs jambes à leur cou. C’est vraiment un énorme défi, pour [les professeurs] de sciences humaines, de former des étudiants qui excelleront dans l’analyse de données.

Tom Jenkins : Vous êtes‑vous déjà demandé pourquoi Google Maps est si efficace? Ou encore Flight Aware? D’où vient toute cette information [qui y est accessible]? Elle provient des données d’organisations fédérales. Au Canada, on peut penser à RNCan. Si Ressources naturelles Canada commençait à publier ses données – et ce ministère regroupe probablement les trois quarts des données du gouvernement canadien –, on peut dès lors imaginer la portée d’une telle externalisation ouverte pour les industries, les compagnies pétrolières et gazières, les compagnies minières, etc. Il y a [dans cette mise en commun] d’incroyables possibilités pour tout un chacun.

Ted Hewitt : Si on regarde ce que [le CSRH] peut faire en tant qu’organisme subventionnaire [dans le contexte des données massives], je pense qu’il dispose d’un potentiel énorme lorsqu’il s’agit de lier certains éléments de comportement et certains comportements de recherche au processus subventionnaire – en optant pour des façons de faire que la plupart des gens souhaitent et comprendront – afin de consolider le système [d’aide au financement pour les projets relatifs aux données massives].

[Le CSRH] se mettra à la tâche dans les prochaines semaines. Il commencera par consulter les intervenants, probablement au cours du mois de juin, puis la collectivité en général durant l’été, afin d’élaborer le type de politique et le cadre de réglementation qui aideront le Canada à bâtir le réseau et l’infrastructure dont il aura besoin pour gérer les flux de données, et la recherche qui en découle, pendant les décennies à venir.

Recherche

Au sujet du CRSH

Financement

Résultats des concours

En connexion avec la société

Salle de presse

Le CRSH à « Canada 3.0 » à Toronto

Ce qu’ils ont dit…