COllaboration, CLassification, Incrémentalité et COnnaissances

COllaboration, CLassification, Incrémentalité et COnnaissances

Différences entre les versions de « Objectifs »

De COllaboration, CLassification, Incrémentalité et COnnaissances
Aller à la navigation Aller à la recherche
(Page créée avec « <h1> Objectifs et verrous scientifiques et techniques </h1> <p> Pour résoudre les défis présentés ci-dessus, le projet propose des objectifs et des verrous scientifi... »)
 
 
(13 versions intermédiaires par le même utilisateur non affichées)
Ligne 1 : Ligne 1 :
<h1> Objectifs et verrous scientifiques et techniques </h1>
+
[[Coclico| Présentation générale ]]
 +
[[Domaine | Domaines D'applications ]]
 +
[[Objectifs | Objectifs scientifiques et caractère ambitieux/novateur du projet ]]
 +
[[Programme | Programme scientifique et structuration du projet ]]
  
<p>
+
= Objectifs scientifiques et caractère ambitieux/novateur du projet =
Pour résoudre les défis présentés ci-dessus, le projet propose des objectifs et des verrous scientifiques plus spécifiques. Ils consistent entre autres : <br />
 
  
<ol>
 
<li>à concevoir un modèle de processus générique collaboratif multistratégie multi-échelle. Le projet Coclico se focalisera entre autres sur trois verrous scientifiques : </br>
 
<ul>
 
<li> le premier verrou scientifique porte sur la définition d’un ou plusieurs objectifs compatibles avec les différents paradigmes d’analyse (classification, clustering, segmentation, etc.) ainsi que d’un ou plusieurs critères de d’évaluation de la qualité des résultats (c’est-à-dire de la qualité finale de la collaboration) par rapport à ces objectifs ;</li>
 
<li> le deuxième verrou est lié aux mécanismes de collaboration à mettre en œuvre pour les améliorer, ainsi que sur la définition du résultat unifiant les différents résultats intermédiaires et finaux (vote simple, théorie des croyances…) ;</li>
 
<li> le troisième verrou porte sur les critères de comparaison et d’évaluation mutuelle de différents résultats intermédiaires. En effet, afin de d’évaluer et guider la collaboration, il sera nécessaire de comparer les différents résultats de classification élémentaire et donc de définir une mesure « multi points de vue »  afin estimer leur similarité.</li>
 
</ul>
 
</li> <!-- fin du 1 -->
 
  
<li>à proposer des mécanismes et méthodes permettant un apprentissage incrémental. Le projet Coclico se focalisera entre autres sur trois verrous scientifiques : <br />
+
Le projet COCLICO vise à développer des méthodes automatiques ou semi-automatiques adaptées à la complexité et à l’évolution rapide de grandes masses de données spatiotemporelles multisources, en s’appuyant sur des méthodes avancées issues de la fouille des données et de l’apprentissage artificiel pour l’analyse et le suivi de phénomènes complexes.
<ul>
+
Il se doit donc de répondre à nombreux défis dont entre autres :
<li>le premier verrou porte sur le contrôle de la mémoire du passé pour régler de manière optimale le compromis entre la réactivité aux changements potentiels et la précision de l’hypothèse courante. Ce compromis n’a pas, à l’heure actuelle, de solution générale. Mais il faudra de plus le réaliser dans le cadre de méthodes collaboratives mettant en jeu des « experts » de nature différente et utilisant des données variées ;</li>
+
* Les données constituent d’énormes volumes et le problème du passage à l’échelle des algorithmes est primordial notamment pour le développement des approches incrémentales permettant une mise à jour continue des modèles.
<li>le deuxième verrou concerne la gestion d’experts de types différents travaillant sur des données diverses et de qualité pouvant varier au cours du temps. L’objectif est de mesurer à chaque instant l’apport (ou la perte) en terme de qualité de prédiction et d’interprétabilité des résultats engendrée par la prise en compte d’un expert ou d’une source de données afin de configurer optimalement la collaboration entre experts. La prise en compte adaptative de critères de qualité multi-variés est un problème nouveau. Des mécanismes d’optimisation multi-objectifs devront être explorés ;</li>
+
* Les données peuvent contenir des aberrations ou des erreurs dont la détection et la prise en compte dans le processus d’analyse sont complexes.
<li>le troisième verrou lié au travail collaboratif et en-ligne entre experts porte sur les échanges d’information entre ces experts. Puisque ces experts sont différents, utilisent des données diverses et émettent des hypothèses de niveaux éventuellement différents, il est nécessaire d’adapter les informations qu’ils échangent pour collaborer. Il faudra en particulier s’appuyer sur les travaux récents d’apprentissage par transfert pour résoudre ce problème.</li>
+
* Les processus naturels  et anthropiques sont complexes et en constante évolution, les données utilisées sont dynamiques.
</ul>
+
* L’analyse se fait à plusieurs niveaux sémantiques : il faut en effet être en mesure de mener une analyse à un niveau global autant que local et d’articuler ces niveaux.  
</li> <!-- fin du 2 -->
+
* Les connaissances à la fois sur les phénomènes et processus à étudier et sur les méthodes à mettre en œuvre dans ce but sont complexes et peu formalisées.
  
<liproposer des mécanismes permettant d’intégrer la prise en compte de connaissances avant, pendant et après le processus d’apprentissage. Le projet Coclico se focalisera entre autres sur deux verrous scientifiques : <br />
+
<br>
<ul>
+
Dans ce contexte, notre projet se fixe l’objectif ambitieux de concevoir une ''' méthode globale ''' répondant au mieux à ces différents défis. Pour cela, nous proposons  ''' une approche innovante, basée sur la collaboration entre méthodes ''' d’analyse « classiques » monostratégies, présentant quatre facettes originales (qui seront reprises et développées dans la description des tâches associées) :
<li>le premier verrou scientifique réside dans la nécessité de définir des mécanismes générique de prise en compte de connaissances indépendamment des méthodes de classification élémentaires mises en œuvre. Cela nécessitera aussi la détermination des différents types de connaissances utilisables ou contraintes applicables lors du processus. Il porte aussi sur la définition de critères d’évaluation de la qualité de prise en compte de la connaissance et du respect des contraintes ;</li>
+
* Elle sera ''' multistratégie ''' et ''' multi-échelle'''. Classiquement, les méthodes collaboratives se basent sur un seul paradigme d’analyse, généralement soit la classification supervisée, soit la classification non supervisée. Nous proposons d’étendre ces méthodes collaboratives afin d’une part, de pourvoir utiliser  conjointement comme méthode monostratégie, toutes types de classification (supervisée ou non, mais aussi active, guidée, semi-supervisée ou autre) et d’autre part, d’autoriser l’utilisation de nouvelles familles d’algorithmes d’analyse telle que des algorithmes de segmentation, ou de rankingpar exemple. L’objectif est d’améliorer la qualité des résultats mais aussi de permettre une analyse multi-échelle des données.
<li>e deuxième verrou scientifique est lié la nécessité de normaliser et formaliser les connaissances de l’expert en tenant compte du fait que la base de connaissances à construire est à la croisée de deux domaines de connaissances : les connaissances sur le domaine applicatif et les connaissances sur les limitations et les possibilités des outils de reconnaissance et d’extraction des objets à partir des données. De plus, elle se doit d’être opérable dans le processus collaboratif de classification et s’enrichir des analyses effectuées, de l’utilisation du processus et de l’apport de nouvelles connaissances par l’expert.</li>
+
* Elle  sera ''' incrémentale'''. Lorsque les données sont fournies de façon continue par une multitude de sources, leur prise en compte (intégration) dans le domaine de l’analyste doit être elle même continue : devant la masse des données produites, il n’est plus envisageable de reconstruire ex nihilo la connaissance sur le phénomène étudié. Nous proposons d’étudier et mettre en œuvre une méthode incrémentale permettant  la confrontation de la connaissance extraite (« acquise ») à de nouveaux résultats d’expériences ou à de nouvelles hypothèses sur les données. L’objectif est de permettre la remise en question continue de ces connaissances extraites afin de répondre précisément aux besoins des scientifiques et thématiciens.
</ul>
+
* Elle sera ''' guidée par la connaissance'''. Pour réduire l’implication de l’utilisateur dans le processus,  il est nécessaire d’étudier, modéliser et utiliser ses connaissances sur le entités participantes au  phénomène étudié, et leur relations mutuelles,indépendamment de leurs représentations dans les données ; de définir leurs représentations possibles dans l’espace des données et de définir les mécanismes, utilisant cette connaissance, nécessaires à leur extraction  et de leur  reconnaissance. Nous proposons d’étudier et mettre en œuvre une base de connaissance opérable suffisamment formalisée pour que son utilisation dans des traitements informatiques soit directe. L’objectif est permettre de guider mais aussi de remettre en cause le processus collaboratif en fonction de cette connaissance.
 +
* Elle sera ''' guidée par la qualité des données et des connaissances ''' : Alors que la qualité des données et des connaissances du domaine influe fortement sur la qualité des résultats, aucune méthode actuelle ne permet de guider un processus collaboratif en fonction de celle-ci.  Nous proposons d’étudier et mettre en œuvre une méthode intégrant une base de connaissance sur le processus collaboratif lui-même et permettant de choisir au mieux les données à traiter en fonction de leurs qualités propres et relatives mais aussi de sélectionner les méthodes de prétraitement les plus adaptées ainsi que les « meilleures » méthodes monostratégies et la meilleure configuration de collaboration multistratégie en fonction de celles-ci.  L’objectif est de rendre la méthode robuste face au bruit dans les données et aux erreurs de formalisation dans les connaissances du domaine.
  
</li> <!-- fin du 3 -->
+
<br>
 
+
Par rapport à l’existant qui s’est souvent focalisé sur l’emploi de méthodes classiques de la fouille de données dans un cadre supervisé ou non supervisé, le projet COCLICO attaque le problème de la modélisation de données selon ces quatre axes dont l’étude conjointe nous permettra  des avancées significatives sur l’état de l’art de chacune des thématiques développées. Une autre originalité du projet est de tester d’emblée les méthodes sur des différents champs disciplinaires utilisant les mêmes types de sources de données. Ces tests seront aussi effectués comme préparation à une généralisation des techniques développées.
<li>à définir des moyens, d’une part d’évaluer la qualité des données considérées et de préconiser des stratégies de prétraitement devant satisfaire les contraintes imposées par les analyses collaboratives et, d’autre part, d’évaluer la qualité des résultats produits. Pour cela, il est nécessaire de s’intéresser aux différentes méthodes de détection de données aberrantes et à celles de dérive de concept, toutes rendues d’autant plus complexes qu’elles doivent se faire à différents niveaux de granularité temporelle et spatiale. Le projet Coclico se focalisera entre autres sur les deux verrous scientifiques: <br />
 
<ul>
 
<li>le premier verrou concerne la corroboration des résultats des méthodes d’évaluation de la qualité : en effet, plusieurs méthodes n’auront pas la même sensibilité dans leur détection des anomalies dans un jeu de données et il s’agira de proposer une approche permettant de réaliser un profilage automatique des jeux de données en entrée avec l’ensemble des méthodes de détection disponibles et de corroborer leurs résultats afin d’avoir une vue unifiée des problèmes de qualité dans les données utilisées. De façon similaire, pour l’évaluation des connaissances, une multiplicité de méthodes retournant des résultats parfois contradictoires est disponible pour évaluer des connaissances. Nous proposons une méthode pour unifier l’évaluation par la corroboration des méthodes ;</li>
 
<li>le deuxième verrou méthodologique concerne l’évaluation des connaissances en sortie des algorithmes de fouille : les approches actuelles n’intègre pas la qualité des données en entrée pour qualifier les connaissances en sortie. L’objectif étant de s’affranchir de la variabilité et des impacts du prétraitement. Dans notre approche au contraire, les stratégies de prétraitement, tout comme les stratégies de collaboration ont un impact direct à la fois sur la qualité des données analysées et bien évidemment sur la qualité des résultats en sortie. L’étude et l’optimisation de ces stratégies pour garantir la qualité en sortie sont au cœur de notre projet.</li>
 
</ul>
 
</li> <!-- fin du 4-->
 
 
 
<li>Un dernier objectif, plus applicatif (thématique), est d’adapter la méthodologie semi-automatique proposée à l’extraction des formes géographiques (urbaines, paysagères, etc.) à partir de données hétérogènes : <br />
 
<ul>
 
<li>Les travaux utilisant les images à différentes résolutions spatiales, spectrales et temporelles, se sont multipliés ces dernières années et sont principalement fondés sur une classification orientée-objet. En dépit de quelques solutions déjà proposées par des recherches antérieures [For08] l’extraction des objets, et leur mise à jour automatique à partir d’images satellites reste un premier verrou scientifique spécifique au domaine à dépasser. </li>
 
<li>Les données issues des BD ne sont pas encore suffisamment et réellement utilisées alors qu’elles détiennent des informations (géométrie, relations contextuelles entre objets) qui peuvent être exploitées pour créer des connaissances utilisables dans le processus d’analyse. Un deuxième verrou scientifique spécifique au domaine réside dans la nécessité de définir des mécanismes permettant de relier, unifier  et utiliser des sources de données hétérogènes lors de la production de connaissances mais aussi directement dans le processus de classification.</li>
 
</ul>
 
</li><!-- fin du 5 -->
 
 
 
</ol>
 
 
 
Enfin, un verrou technologique se pose afin de rendre la base de connaissances, les méthodologies, les méthodes et les indicateurs interopérables et compatibles avec les infrastructures existantes dans lesquelles ils pourraient être diffusés à l’issue de ce projet.
 
 
 
</p>
 

Version actuelle datée du 22 avril 2013 à 16:56

 Présentation générale 
 Domaines D'applications 
 Objectifs scientifiques et caractère ambitieux/novateur du projet 
 Programme scientifique et structuration du projet 

Objectifs scientifiques et caractère ambitieux/novateur du projet

Le projet COCLICO vise à développer des méthodes automatiques ou semi-automatiques adaptées à la complexité et à l’évolution rapide de grandes masses de données spatiotemporelles multisources, en s’appuyant sur des méthodes avancées issues de la fouille des données et de l’apprentissage artificiel pour l’analyse et le suivi de phénomènes complexes. Il se doit donc de répondre à nombreux défis dont entre autres :

  • Les données constituent d’énormes volumes et le problème du passage à l’échelle des algorithmes est primordial notamment pour le développement des approches incrémentales permettant une mise à jour continue des modèles.
  • Les données peuvent contenir des aberrations ou des erreurs dont la détection et la prise en compte dans le processus d’analyse sont complexes.
  • Les processus naturels et anthropiques sont complexes et en constante évolution, les données utilisées sont dynamiques.
  • L’analyse se fait à plusieurs niveaux sémantiques : il faut en effet être en mesure de mener une analyse à un niveau global autant que local et d’articuler ces niveaux.
  • Les connaissances à la fois sur les phénomènes et processus à étudier et sur les méthodes à mettre en œuvre dans ce but sont complexes et peu formalisées.


Dans ce contexte, notre projet se fixe l’objectif ambitieux de concevoir une méthode globale répondant au mieux à ces différents défis. Pour cela, nous proposons une approche innovante, basée sur la collaboration entre méthodes d’analyse « classiques » monostratégies, présentant quatre facettes originales (qui seront reprises et développées dans la description des tâches associées) :

  • Elle sera multistratégie et multi-échelle. Classiquement, les méthodes collaboratives se basent sur un seul paradigme d’analyse, généralement soit la classification supervisée, soit la classification non supervisée. Nous proposons d’étendre ces méthodes collaboratives afin d’une part, de pourvoir utiliser conjointement comme méthode monostratégie, toutes types de classification (supervisée ou non, mais aussi active, guidée, semi-supervisée ou autre) et d’autre part, d’autoriser l’utilisation de nouvelles familles d’algorithmes d’analyse telle que des algorithmes de segmentation, ou de rankingpar exemple. L’objectif est d’améliorer la qualité des résultats mais aussi de permettre une analyse multi-échelle des données.
  • Elle sera incrémentale. Lorsque les données sont fournies de façon continue par une multitude de sources, leur prise en compte (intégration) dans le domaine de l’analyste doit être elle même continue : devant la masse des données produites, il n’est plus envisageable de reconstruire ex nihilo la connaissance sur le phénomène étudié. Nous proposons d’étudier et mettre en œuvre une méthode incrémentale permettant la confrontation de la connaissance extraite (« acquise ») à de nouveaux résultats d’expériences ou à de nouvelles hypothèses sur les données. L’objectif est de permettre la remise en question continue de ces connaissances extraites afin de répondre précisément aux besoins des scientifiques et thématiciens.
  • Elle sera guidée par la connaissance. Pour réduire l’implication de l’utilisateur dans le processus, il est nécessaire d’étudier, modéliser et utiliser ses connaissances sur le entités participantes au phénomène étudié, et leur relations mutuelles,indépendamment de leurs représentations dans les données ; de définir leurs représentations possibles dans l’espace des données et de définir les mécanismes, utilisant cette connaissance, nécessaires à leur extraction et de leur reconnaissance. Nous proposons d’étudier et mettre en œuvre une base de connaissance opérable suffisamment formalisée pour que son utilisation dans des traitements informatiques soit directe. L’objectif est permettre de guider mais aussi de remettre en cause le processus collaboratif en fonction de cette connaissance.
  • Elle sera guidée par la qualité des données et des connaissances  : Alors que la qualité des données et des connaissances du domaine influe fortement sur la qualité des résultats, aucune méthode actuelle ne permet de guider un processus collaboratif en fonction de celle-ci. Nous proposons d’étudier et mettre en œuvre une méthode intégrant une base de connaissance sur le processus collaboratif lui-même et permettant de choisir au mieux les données à traiter en fonction de leurs qualités propres et relatives mais aussi de sélectionner les méthodes de prétraitement les plus adaptées ainsi que les « meilleures » méthodes monostratégies et la meilleure configuration de collaboration multistratégie en fonction de celles-ci. L’objectif est de rendre la méthode robuste face au bruit dans les données et aux erreurs de formalisation dans les connaissances du domaine.


Par rapport à l’existant qui s’est souvent focalisé sur l’emploi de méthodes classiques de la fouille de données dans un cadre supervisé ou non supervisé, le projet COCLICO attaque le problème de la modélisation de données selon ces quatre axes dont l’étude conjointe nous permettra des avancées significatives sur l’état de l’art de chacune des thématiques développées. Une autre originalité du projet est de tester d’emblée les méthodes sur des différents champs disciplinaires utilisant les mêmes types de sources de données. Ces tests seront aussi effectués comme préparation à une généralisation des techniques développées.