Vol. 3 - Contextualisation numérique

Le sociologue Pierre Bourdieu préconisait la nécessité d'une approche relationnelle de l'analyse des données: les statistiques et les réponses à un questionnaire devaient être considérées comme un simple moyen de relier les individus et de mettre en évidence des facteurs plus ou moins cachés. Ainsi les individus doivent être contextualisés relativement à un environnement social implicite ou encore à un contexte culturel plus général. L'Analyse des correspondances basée sur la décomposition en valeurs singulières (SVD) a réussi à contextualiser les données individuelles relativement à d'autres individus. L'analyse sémantique latente (LSD) également basée sur la SVD a réussi à contextualiser les mots en fonction de leur contexte d'utilisation. Ces méthodes ont ensuite été généralisées de multiples manières. L'analyse partielle par les moindre carrés avec modélisation des interactions (PLS-pm) permet aux analystes de tester des hypothèses en intégrant un processus de simulation. L'analyse par allocation latente de Dirichlet (LDA) a fourni une alternative probabiliste à l'approche vectorielle LSA. Parallèlement à ces approches numériques efficaces, les approches discrètes reposant sur la montée en puissance de l'ordinateur ont exploré des approches non fréquentistes. L'analyse formelles de concepts basée sur les treillis de Galois permet de mettre en évidence des facteurs complexes. La visualisation des graphes fondée sur des algorithmes tel que PathFinder et l'analyse de réseaux sociaux ont permis la génération de cartes thématiques à partir de textes bruts. Dernièrement, les approches par résumé automatique combinées à la recherche d'information ont conduit à des méthodes qui peuvent mettre en évidence le contexte implicite d'un court message à partir de larges ressources encyclopédiques comme le WikiPedia. Enfin l'apprentissage en profondeur sur la base des plongements syntaxiques (Word embedding) permet de réaliser des contextualisations sur de très larges sources de données. Pierre Bourdieu a été limité par deux obstacles: la puissance des ordinateurs qui à l'époque ne lui permettait pas d'explorer toutes les corrélations et le coût de la numérisation des données. La contextualisation par analyse de corrélations ne pouvait se faire qu'à l'initiative de l'analyste et selon ses choix. Le monde numérique du 21e siècle a renversé ce paradigme. Cependant la suppression de ces deux barrières techniques soulève finalement autant de questions méthodologiques qu'elle n'en résout, en particulier celles relatives aux droits des données et à l'éthique de leur exploitation. Ce numéro spécial inclura l'état de l'art des méthodes de contextualisation automatiques et les mettra en perspective sur la base de multiples études de cas. Chaque article sera examiné par un comité multidisciplinaire composé de sociologues, d'informaticiens et de mathématiciens.


1. Active learning in annotating micro-blogs dealing with e-reputation

Jean-Valère Cossu ; Alejandro Molina-Villegas ; Mariana Tello-Signoret.
Elections unleash strong political views on Twitter, but what do people really think about politics? Opinion and trend mining on micro blogs dealing with politics has recently attracted researchers in several fields including Information Retrieval and Machine Learning (ML). Since the performance of ML and Natural Language Processing (NLP) approaches are limited by the amount and quality of data available, one promising alternative for some tasks is the automatic propagation of expert annotations. This paper intends to develop a so-called active learning process for automatically annotating French language tweets that deal with the image (i.e., representation, web reputation) of politicians. Our main focus is on the methodology followed to build an original annotated dataset expressing opinion from two French politicians over time. We therefore review state of the art NLP-based ML algorithms to automatically annotate tweets using a manual initiation step as bootstrap. This paper focuses on key issues about active learning while building a large annotated data set from noise. This will be introduced by human annotators, abundance of data and the label distribution across data and entities. In turn, we show that Twitter characteristics such as the author's name or hashtags can be considered as the bearing point to not only improve automatic systems for Opinion Mining (OM) and Topic Classification but also to reduce noise in human annotations. However, a later thorough analysis […]

2. Contextualizing Geometric Data Analysis and Related Data Analytics: A Virtual Microscope for Big Data Analytics

Fionn Murtagh ; Mohsen Farid.
The relevance and importance of contextualizing data analytics is described. Qualitative characteristics might form the context of quantitative analysis. Topics that are at issue include: contrast, baselining, secondary data sources, supplementary data sources, dynamic and heterogeneous data. In geometric data analysis, especially with the Correspondence Analysis platform, various case studies are both experimented with, and are reviewed. In such aspects as paradigms followed, and technical implementation, implicitly and explicitly, an important point made is the major relevance of such work for both burgeoning analytical needs and for new analytical areas including Big Data analytics, and so on. For the general reader, it is aimed to display and describe, first of all, the analytical outcomes that are subject to analysis here, and then proceed to detail the more quantitative outcomes that fully support the analytics carried out.