Repository landing page

We are not able to resolve this OAI Identifier to the repository landing page. If you are the repository manager for this record, please head to the Dashboard and adjust the settings.

Coherent Keyphrase Extraction via Web Mining

Abstract

Keyphrases are useful for a variety of purposes, including summarizing, indexing, labeling, categorizing, clustering, highlighting, browsing, and searching. The task of automatic keyphrase extraction is to select keyphrases from within the text of a given document. Automatic keyphrase extraction makes it feasible to generate keyphrases for the huge number of documents that do not have manually assigned keyphrases. A limitation of previous keyphrase extraction algorithms is that the selected keyphrases are occasionally incoherent. That is, the majority of the output keyphrases may fit together well, but there may be a minority that appear to be outliers, with no clear semantic relation to the majority or to each other. This paper presents enhancements to the Kea keyphrase extraction algorithm that are designed to increase the coherence of the extracted keyphrases. The approach is to use the degree of statistical association among candidate keyphrases as evidence that they may be semantically related. The statistical association is measured using web mining. Experiments demonstrate that the enhancements improve the quality of the extracted keyphrases. Furthermore, the enhancements are not domain-specific: the algorithm generalizes well when it is trained on one domain (computer science documents) and tested on another (physics documents).Les expressions-cl\ue9s sont utiles pour diverses raisons, y compris l'\ue9tablissement d'un r\ue9sum\ue9, l'indexation, l'\ue9tiquetage, la d\ue9finition de cat\ue9gories, le regroupement, la mise en \ue9vidence, la navigation et la recherche. L'extraction automatique d'expressions-cl\ue9s consiste \ue0 s\ue9lectionner des expressions-cl\ue9s dans le texte d'un document donn\ue9. Gr\ue2ce \ue0 cette extraction, on peut produire des expressions-cl\ue9s pour les innombrables documents pour lesquels il n'existe aucune expression-cl\ue9 attribu\ue9e \ue0 la main. Les algorithmes d'extraction d'expressions-cl\ue9s existants pr\ue9sentent une limitation : l'incoh\ue9rence occasionnelle des expressions-cl\ue9s s\ue9lectionn\ue9es. C'est-\ue0-dire que la majorit\ue9 des expressions-cl\ue9s extraites peuvent former un tout coh\ue9rent, mais il peut y avoir une minorit\ue9 d'expressions qui semblent \ueatre aberrantes et ne pr\ue9sentent pas de relation s\ue9mantique \ue9vidente avec la majorit\ue9 des expressions-cl\ue9 ou entre elles. Le pr\ue9sent document d\ue9crit les am\ue9liorations apport\ue9es \ue0 l'algorithme d'extraction d'expressions-cl\ue9s KEA, qui ont pour but d'augmenter la coh\ue9rence des expressions-cl\ue9s extraites. L'approche consiste \ue0 utiliser le degr\ue9 d'association statistique parmi les expressions-cl\ue9s candidates pour prouver qu'elles peuvent \ueatre reli\ue9es s\ue9mantiquement. L'association statistique est mesur\ue9e \ue0 l'aide de l'exploration du Web. Les exp\ue9riences d\ue9montrent que les am\ue9liorations apport\ue9es accroissent la qualit\ue9 des expressions-cl\ue9s extraites. De plus, les am\ue9liorations ne sont pas propres \ue0 un domaine\ua0: l'algorithme se g\ue9n\ue9ralise efficacement lorsque l'apprentissage se fait dans un domaine donn\ue9 (documents sur l'informatique) et qu'il r\ue9ussit l'essai dans un autre domaine (documents sur la physique).NRC publication: Ye

Similar works

Full text

thumbnail-image

NRC Publications Archive

redirect
Last time updated on 08/06/2016

This paper was published in NRC Publications Archive.

Having an issue?

Is data on this page outdated, violates copyrights or anything else? Report the problem now and we will take corresponding actions after reviewing your request.