France
March 16, 2018
The Bibliome-MaIAGE team and INRA's Scientific and Technical Information Delegation (DIST) are contributing to the European OpenMinTeD infrastructure project, the objective of which is to set up an online IT platform, encouraging and facilitating the use of text and data mining technologies for research.
Faced with the upsurge in the quantities of published scientific knowledge, researchers have an increasing need of tools to help them quickly analyze texts and extract accurate data. Text mining technologies have been developed to meet this expectation. However, the devices have been designed by taking into account the specificities of the research fields, the types of text to be treated or the desired analysis, resulting in a fragmented landscape of incompatible text mining solutions.
The objective of the European OpenMinTeD project, funded under the Horizon 2020 programme, is to create a platform for collaboration and knowledge sharing on text mining for scientists in all fields. INRA, with the Bibliome-MaIAGE team and the DIST, is involved in the project along with 16 other academic partners whose contributions are coordinated by the Athena Research and Innovation Centre (ARC). The consortium is working on the integration of resources (scientific literature and annotation resources) and text mining software components, facilitating their reuse by making them interoperable. INRA's contribution to OpenMinTeD is to bring and integrate Alvis technologies developed by the Bibliome team over many years. The design of the platform being guided by use cases, this contribution fits more broadly into the design and implementation of innovative applications in the fields of agriculture and food.
With INRA units in food microbiology and the Migale bioinformatics platform, Bibliome-MaIAGE team and DIST have set up the Florilege application. Its objective is to bring together in a unified representation public information (from databases and scientific articles) on the positive flora of foods (useful for processing, biopreservation, probiotics).
Two other use cases have been developed by Bibliome-MaIAGE and DIST. The first was developed in collaboration with the Info Genomic Research Unit (URGI) within the WheatIS application, an integrated information system on wheat phenotypes and genotypes. The second, built with the Institute of Plant Sciences Paris-Saclay on the "SeeDev" application, integrates data from the "FLAGdb++" plant genome database, with the regulations involved in the development of Arabidopsis thaliana seed extracted from scientific publications. This allows researchers not only to obtain information on the activity of genes during seed development (their interactions or the proteins they produce, for example) but also to have access to the scientific texts describing this activity. Each of these innovative services integrates experimental data, expert data and data extracted en masse by OpenMinTeD from text, into a unified, easy-to-access package.
The last OpenMinTeD consortium meeting took place from 12 to 14 February 2018 at INRA research centre in Jouy-en-Josas. The partners, joined by Open Access communities providing content and text mining IT communities, are currently completing the integration of their applications and components into the platform, which will be officially launched next spring.
Bibliome group
Extraction and formalization of knowledge from text
Leader: Claire Nédellec
The Bibliome group's objective is the development of new methods and technologies for the extraction and formalisation of fine-grained information and knowledge from textual documents, e.g. scientific papers, patents, free-text fields of databases. The methods are mainly based on Natural Language Processing and Machine Learning algorithms.
The application to Life Science and Agriculture requires new integrative approaches that interlink textual data with other experimental data to be exploited together in analysis tools and bioinformatics platforms. It also requires a user-friendly interface for the training of the text-mining tools, the vizualisation and curation of their results.
Text-mining in a focused domain from small corpora uses external resources such as nomenclatures, vocabularies and ontologies. The Bibliome group also develops methods for designing vocabularies and ontologies. The use of such formal resources contributes to the linking with other data.
The Bibliome group has organized shared tasks on bacteria biotopes and on gene regulation in microorganisms and in plants since 2005 (e.g. LLL, BioNLP-ST).
Website
OpenMinTed : une plateforme d’outils informatiques pour extraire et exploiter les informations de la littérature scientifique
L’équipe Bibliome-MaIAGE et la Délégation Information Scientifique et Technique (DIST) de l’Inra contribuent au projet européen d’infrastructure OpenMinTeD dont l’objectif est de mettre en place une plateforme informatique en ligne, encourageant et facilitant l’utilisation des technologies de fouille de textes (text and data mining : TDM) pour la recherche.
Face au déluge de connaissances scientifiques publiées, les chercheurs ont de plus en plus besoin d’outils pour les aider à analyser rapidement les textes et en extraire des données précises. Les technologies de fouille de texte, outext-mining, ont été développées pour répondre à cette attente. Mais les dispositifs mis en place ont été conçus en prenant en compte les spécificités des domaines de recherche, des types de texte à traiter ou de l’analyse souhaitée, résultant en un paysage fragmenté de solutions de text-mining incompatibles.
L’objectif du projet européen OpenMinTeD, financé dans le cadre du programme Horizon 2020, est la création d’une plateforme de collaboration et de partage de connaissances sur le text-mining au service des scientifiques de tout domaine. L’Inra, avec l’équipe Bibliome-MaIAGE et la DIST, est impliqué dans le projet aux côtés de 16 autres partenaires académiques dont les contributions sont coordonnées par l’Athena Research and Innovation Centre (ARC). Le consortium travaille à l’intégration de ressources (littérature scientifique et ressources d’annotation) et de composants logiciels de text-mining, facilitant leur réutilisation, en les rendant interopérables. La contribution de l’Inra à OpenMinTeD consiste à apporter et intégrer les technologies Alvis développées par l’équipe Bibliome depuis de nombreuses années. La conception de la plateforme étant guidée par des cas d’usage, cette contribution s’inscrit plus largement dans la conception et la réalisation d’applications innovantes dans les domaines de l’agriculture et de l’alimentation.
Avec les unités Inra en microbiologie des aliments et la plateforme bioinformatique Migale,l’équipe Bibliome-MaIAGE et la DIST ont ainsi mis en place l’application "Florilège". Son objectif est de rassembler dans une représentation unifiée l’information publique (issue des bases de données et des articles scientifiques) qui concerne la flore positive des aliments (transformation, biopréservation, probiotique). Deux autres cas d’usage ont été développés par Bibliome-MaIAGE et la DIST. Le premier a été conçu en collaboration avec l’Unité de Recherche Génomique Info (URGI) au sein de l’application "WheatIS", un système d’information intégré sur les phénotypes et génotypes du blé. Le second, construit avec l’Institute of Plant Sciences Paris-Saclay sur l’application "SeeDev", intègre les données de la base de génomes de plantes « FLAGdb++ » avec les régulations impliquées dans le développement de la graine d’Arabidopsis thaliana,extraitesà partir de publications scientifiques. Cela permet aux chercheurs d’obtenir non seulement des informations sur l’activité des gènes pendant le développement de la graine (leurs interactions ou les protéines qu’ils produisent par exemple) mais aussi d’avoir accès aux textes scientifiques qui décrivent cette activité. Chacun de ces services innovants intègre dans un ensemble unifié et simple d’accès, des données expérimentales, des données expertes et les données extraites en masse par OpenMinTeD à partir des textes.
La dernière réunion du consortium OpenMinTeD s’est déroulée du 12 au 14 février 2018 au centre de recherche Inra Ile-de-France - Jouy-en-Josas. Les partenaires, rejoints par les communautés Open Access fournissant des contenus et les communautés informatiques de text-mining, achèvent l’intégration de leurs applications et leurs composants à la plateforme, qui sera officiellement lancée au printemps prochain.
L’équipe Bibliome de l'unité de recherche MaIAGE
La littérature scientifique constitue un gisement de connaissances scientifiques de grande valeur, mais largement inexploité parce qu’uniquement sous forme textuelle. La croissance très rapide du volume de publications sous forme d'articles ou de bases de données à un niveau mondial rend impossible une veille scientifique systématique. Il est nécessaire de doter les chercheurs d’outils semi-automatiques pour sélectionner, extraire et formaliser ces connaissances, qui seront ensuite confrontées et intégrées avec des connaissances d’autres sources et domaines dans un objectif de découverte et de modélisation de connaissance.
L’équipe de recherche Bibliome en collaboration avec d’autres laboratoires a pour objectif de développer de nouvelles méthodes et technologies, intégrées dans la Suite Alvis et appliquées à différentes questions en Sciences de la Vie. Ces méthodes identifient automatiquement des connaissances fines dans de larges corpus de documents de genres divers et les mettent en relation faisant appel à la linguistique computationnelle et à l’apprentissage automatique.
Site Web