Murtagh, Fionn and Farid, Mohsen - Contextualizing Geometric Data Analysis and Related Data Analytics: A Virtual Microscope for Big Data Analytics

jimis:2570 - Journal of Interdisciplinary Methodologies and Issues in Sciences, 2 juin 2017, Contextualisation Numérique
Contextualizing Geometric Data Analysis and Related Data Analytics: A Virtual Microscope for Big Data Analytics

Auteurs : Murtagh, Fionn and Farid, Mohsen

An objective of this work is to contextualize the analysis of large and multi-faceted data sources. Consider for example, health research in the context of social characteristics. Also there may be social research in the context of health characteristics. Related to this can be requirements for contextualizing Big Data analytics. A major challenge in Big Data analytics is the bias due to self selection. In general, and in practical settings, the aim is to determine the most revealing coupling of mainstream data and context. This is technically processed in Correspondence Analysis through use of the main and the supplementary data elements, i.e., individuals or objects, attributes and modalities.


Source : oai:arXiv.org:1611.09948
Volume : Contextualisation Numérique
Publié le : 2 juin 2017
Déposé le : 2 décembre 2016
Mots-clés : Computer Science - Artificial Intelligence,62H30, 68P01, 6207,G.3,H.2.8,I.2.1


Evaluations

Relecteur 17 mai 2017

Conformité
Oui
Forme et lisibilité
5/5
Bibliographie
5/5
Qualité scientifique
7/10

geometric_data_analysis  

Soumission JIMIS: ContextualizingGeometric Data Analysis and Related Data Analytics: A VirtualMicroscope for Big Data Analytics  

Dans l'ensemble, les interprétations des analyses factorielles sont trop elliptiques, mais la vue desgraphiques seuls permet tout de même d'accepter pas mal de conclusions. * La gestion des non-réponses est abordée, et les justifications proposées semblent cohérentes.

Il serait utile de rappeler l'effectif de personnes interrogées (de la réf. [8]), pour mieux apprécier la validitédes interprétations de la MCA.

Figure 1 : L’interprétation à partir de la Figure 1 seule est plutôt elliptique mais, apparemment, juste :même si seules les modalités aux 6 plus fortes contributions sont affichées, les positions des modalitésPTSDcom (axe 1) et CISRFOU (axe 2) confirment leur participation principale à l'inertie de chaque axe.

Figure 2 : une confirmation/complétion par l'étude numérique des contributions à l'axe de chaquemodalité, validées par un cosinus-carré serait souhaitable.

Figure 5 : pourquoi les points "âges" sont-ils autant décentrés (n'ont-ils pas comme centre l'origine) ? Cefait est préoccupant, et mérite d'être justifié (mathématiquement, ou au moins par rapport à l'étude, lavariable âge étant illustrative).

p.12 : "For all the modalities of questions, their cosines with the very important and informative first factorwere looked at, and the top ten cosines listed." Les valeurs de ces cosinus mériteraient d'être précisées. En particulier, le choix du nombre de modalitésconservées doit être justifié par leurs valeurs. Des modalités de cosinus carré trop faibles (<0.5 ?) nepeuvent pas être interprétées. Les contributions doivent également être suffisantes pour retenir unemodalité. * p.13 "in all 303" : je ne comprends pas ce 303.

Plus généralement, l'utilisation de la MCA sur un trop grand nombre de variables (ou de modalités devariables) rend délicate les interprétations. Les auteurs ont fait l'effort d'éviter ce genre de cas. Toutefois, l'utilisation de la MCA comme simple technique intermédiaire de numérisation des données avantclassification (ou autre approche) fournirait peut être des éclairages supplémentaires sur les populationsobservées.

Spelling : - Mod-ififying p.10 (the rates of inertia) - modelities

Niveau d'expertise
Je suis un(e) expert(e) du domaine
Jugement d'ensemble
A publier avec prise en compte de modifications mineures

Exporter

Partager

Statistiques de consultation

Cette page a été consultée 23 fois.
Le PDF de cet article a été téléchargé 9 fois.