[Asis-l] Fouille de textes et la recherche d¹information / Text mining and information retrieval
Dominic Forest
dominic.forest at umontreal.ca
Wed Oct 26 17:46:52 EDT 2011
Le volume 35, numéro 3 (septembre 2011) de la Revue canadienne des sciences
de l¹information et de bibliothéconomie sur le thème de la fouille de textes
et la recherche d¹information est maintenant disponible sur Project MUSE
http://muse.jhu.edu/journals/canadian_journal_of_information_and_library_sci
ence/toc/ils.35.3.html
Table des matières :
1-- Fouille de textes et recherche d¹information
http://muse.jhu.edu/journals/canadian_journal_of_information_and_library_sci
ence/summary/v035/35.3.forest.html
Introduction par Dominic Forest et Lyne Da Sylva
2-- Named Entity Normalization: Combining Normalization Rules, Endogenous
Resources and User-Oriented Process / Normalisation des entités nommées :
allier règles déclaratives, ressources endogènes et processus centré sur
l¹utilisateur
http://muse.jhu.edu/journals/canadian_journal_of_information_and_library_sci
ence/summary/v035/35.3.andreani.html
Vanessa Andréani, Thibault Roy et Thomas Lebarbé
Abstract: Normalization is involved in many fields of information
processing. It improves the performance of several applications, such as
information retrieval or information extraction, and makes the construction
of language resources more reliable. Normalization consists in standardizing
each variant of a term or named entity into a unique form, and in this way
restricts the impact of language variation. Our work applies to named entity
normalization, and aims at optimizing fine-grained corpus analyses carried
out by the TecKnowMetrix Company. Our approach mixes several methods, such
as pattern matching, similarity metrics and endogenous techniques. Moreover,
we place the user in the center of our normalization process, in order to
obtain fully reliable data that fit his or her needs.
Résumé : La normalisation intervient dans de nombreux champs du traitement
de l¹information. Elle permet d¹améliorer l¹efficacité d¹applications telles
que la recherche ou l¹extraction d¹information, et de rendre plus fiable la
constitution de ressources langagières. La normalisation consiste à ramener
toutes les variantes d¹un même terme ou d¹une entité nommée à une forme
standard, et permet de limiter les effets de la variation linguistique.
Notre travail porte sur la normalisation des entités nommées, et vise à
optimiser les analyses de corpus fines réalisées par la société
TecKnowMetrix. Notre approche combine plusieurs méthodes, telles que
l¹utilisation de formes, de calculs de similarité, ou encore de techniques
endogènes. De plus, nous plaçons l¹utilisateur au centre du processus de
normalisation, afin d¹obtenir des données parfaitement fiables et adaptées à
ses besoins.
3-- Bilingual Document Clustering: Evaluating Cognates as Features / Le
groupage de documents bilingues : l¹évaluation des cognats comme
caractéristiques
http://muse.jhu.edu/journals/canadian_journal_of_information_and_library_sci
ence/summary/v035/35.3.denicia-carral.html
Claudia Denicia-Carral, Manuel Montes-y-Gómez, Luis Villaseñor-Pineda et
David Pinto-Avendaño
Abstract: This paper focuses on the task of bilingual clustering, which
involves dividing a set of documents from two different languages into a set
of groups, so that documents with similar topics belong to the same group,
regardless of their source language. It mainly considers a clustering
approach that relies on the use of cognates as document features.
Particularly, it proposes two straightforward methods that extract cognates
from their own target document collection and do not require using any
external bilingual resource, like parallel corpora or a bilingual
dictionary. Experimental results in two bilingual collections that include
news reports in English and Spanish are encouraging. They indicate that
cognates are relevant features for the task of bilingual clustering,
outperforming by more than 10% the results achieved by other known
approaches.
Résumé : Cet article se consacre à la tâche du groupage bilingue, qui
comprend la répartition d¹une série de documents appartenant à deux langues
différentes en une série de groupes, de telle façon que les sujets
similaires apparaissent dans le même groupe, quelle que soit la langue
d¹origine. Il s¹intéresse surtout à une approche de groupage qui fait usage
des cognats considérés comme des traits distinctifs des documents. En
particulier, il propose deux méthodes directes permettant l¹extraction des
cognats à partir de leur propre collection de documents cibles, sans
recourir à l¹utilisation de ressources bilingues externes, telles que des
corpus parallèles ou un dictionnaire bilingue. Nous avons obtenu des
résultats expérimentaux encourageants avec deux collections bilingues
incluant des bulletins de nouvelles en anglais et en espagnol. Ces résultats
indiquent que les cognats sont des traits distinctifs valables pour le
groupage de documents bilingues, et qu¹ils permettent d¹obtenir des
résultats dépassant de 10 % ceux que l¹on obtient avec les autres approches
connues.
4-- Automatic Modeling of Logical Connectors by Statistical Analysis of
Context / Modélisation automatique de connecteurs logiques par analyse
statistique du contexte
http://muse.jhu.edu/journals/canadian_journal_of_information_and_library_sci
ence/summary/v035/35.3.charton.html
Eric Charton et Juan-Manuel Torres-Moreno
Abstract: In this paper we present an algorithm for the enrichment of the
language model by a model of logical connectors. Using seed connectors based
on a corpus, our algorithm is capable of grouping context-dependant logical
connectors of identical meaning into classes. This categorization of links
may then be employed to generate finite state machines (FSMs) capable of
identifying logical articulation of a phrase. In this capacity, it
constitutes a first step towards an automatic analysis of argumentative
texts. We use this device (FSMs), assisted by a language model, to rewrite
automatically sentences in a text processing system.
Résumé : Dans cet article, nous décrivons un algorithme d¹enrichissement de
modèle de langue par un modèle de connecteurs logiques. Notre algorithme est
capable, en partant de connecteurs amorces et en s¹appuyant sur un corpus,
de regrouper automatiquement des connecteurs logiques de sens identiques, en
fonction du contexte. Ce regroupement peut être ensuite utilisé pour générer
des automates à états finis capables d¹identifier une articulation logique
dans une phrase. À ce titre, il constitue un premier pas en direction de
l¹analyse automatique de textes argumentatifs. Nous utilisons ce dispositif
dans un système de réécriture automatique de phrases, assisté par modèle de
langue.
5-- A Sentiment-Based Digital Library of Movie Review Documents Using Fedora
/ Une bibliothèque numérique de documents critiques de films basée sur les
sentiments en utilisant Fedora
http://muse.jhu.edu/journals/canadian_journal_of_information_and_library_sci
ence/summary/v035/35.3.na.html
Jin-Cheon Na, Tun Thura Thet, Arie Hans Nasution et Fauzi Munif Hassan
Abstract: This study develops a digital library of movie review documents
that supports sentiment-based browsing and searching. Firstly, we develop an
automatic method for in-depth sentiment analysis and classification of movie
review documents to provide sentiment orientations toward multiple
perspectives of movies, such as overall opinion about the movie, director,
and cast. By utilizing information extraction techniques such as entity
extraction, co-referencing, and pronoun resolution, the review texts are
segmented into multiple sections where each section contains multiple
sentences and discusses a particular aspect of the reviewed movie. For each
aspect section, a machine-learning algorithm, Support Vector Machine (SVM),
is applied to determine sentiment orientation toward the target aspect.
Secondly a prototype digital library is developed with the automatically
analysed data to show the usefulness of sentiment-based browsing and
searching. Using the system, the user can browse and search movies by
sentiment polarity (positive, neutral, or negative) of multiple aspects in
the movie. Finally, a usability evaluation is conducted to observe the
effectiveness of the sentiment-based digital library.
Résumé : Cette étude examine le développement d¹une bibliothèque numérique
de documents critiques de films permettant l¹exploration et la recherche par
sentiments. Pour commencer, nous développons une méthode automatique pour
l¹analyse en profondeur des sentiments et la classification des documents
critiques de films propres à fournir des orientations à propos des
sentiments capables d¹offrir des perspectives multiples sur les films, comme
par exemple l¹opinion générale sur le film, sur le metteur en scène, et sur
les acteurs. Grâce à l¹utilisation de techniques d¹extraction d¹information
telles que l¹extraction d¹entités, le co-référencement, et la résolution de
pronoms, les comptes rendus sont segmentés en de multiples sections où
chacune contient plusieurs phrases et aborde un aspect particulier du film
en question. À chacune de ces sections on applique un algorithme
d¹apprentissage automatique, Support Vector Machine (SVM), qui détermine
l¹orientation du ou des sentiments pour cette section. Ensuite, nous
développons un prototype de bibliothèque numérique en utilisant les données
analysées automatiquement afin de montrer l¹utilité de l¹exploration et de
la recherche par sentiments. En utilisant ce système, l¹utilisateur peut
explorer et faire des recherches dans les films selon les polarités des
sentiments (positif, neutre, ou négatif) et ce, sur de nombreux aspects des
films. Pour finir, nous avons effectué une évaluation d¹utilisabilité afin
de vérifier l¹efficacité d¹une bibliothèque numérique basée sur les
sentiments.
A respected source of the most up-to-date research on library and
information science, The Canadian Journal of Information and Library Science
is recognized internationally for its authoritative bilingual contributions
to the field of information science. Established in 1976, the journal is
dedicated to the publication of research findings, both in full-length and
in brief format; reviews of books; software and technology; and letters to
the editor.
Pour en savoir plus : www.utpjournals.com/cjils
Suivez les Presses de l¹université de Toronto sur Facebook :
www.facebook.com/utpjournals
____________________________________________________________
Dominic Forest, Ph. D.
Professeur adjoint
Adresse postale :
École de bibliothéconomie et des sciences de l'information
Université de Montréal
C.P. 6128, succursale Centre-ville
Montréal (Québec) H3C 3J7
Adresse géographique :
École de bibliothéconomie et des sciences de l'information
Université de Montréal
Pavillon Lionel-Groulx
3150, rue Jean-Brillant, bureau C-2046
Montréal (Québec) H3T 1N8
Téléphone : (514) 343-6119
Télécopieur : (514) 343-5753
Courrier électronique : dominic.forest at umontreal.ca
Sites Internet : www.dominicforest.name et www.ebsi.umontreal.ca
____________________________________________________________
More information about the Asis-l
mailing list