Learn More
Multilingual aspects have been gaining more and more attention in recent years. This trend has been accentuated by the global integration of European states and the vanishing cultural and social boundaries. Multilingual text processing has become an important field bringing a lot of new and interesting problems. This paper describes a novel approach to(More)
Internet is one of the richest encyclopaedias in the world. Students can easily download various free documents and then plagiarize their content. This paper describes the current state of copy detection methods and proposes some new trends. New approaches, closer to nature language processing, can essentially improve identification of hardly-detectable(More)
In natural language processing (NLP) mainly single words are utilized to represent text documents. Recent studies have shown that this approach can be often improved by employing other, more sophisticated, features. Among them, mainly N-grams have been successfully used for this purpose and many algorithms and procedures for their extraction have been(More)
Metoda založená na relativních frekvencích [3] vychází z tradičního vektorového modelu, který byl upraven pro nalezení podobnosti dvou dokumentů R a S. Do výpočtu jsou zahrnuta pouze slova, která splní stano-venou podmínku kde je konfigurovatelný parametr v intervalu (2, ∞) a F i (D) je frekvence termu i pro dokument D. Pokud frekvence F i (R) nebo F i (S)(More)
Abstrakt. Tento článek se zabývá technikami předzpracování textu a jejich vli-vem na detekci plagiátů v psaném textu. V našich experimentech zkoumáme stop-slova, lemmatizaci, nahrazování synonym a jejich vzájemné kombinace. Dále navrhujeme pokročilou normalizaci slov s využitím hyperonym z WordNet tezauru. Testy jsme provedli na českém korpusu plagiátů(More)
Normalizace podobností mezi dokumenty 1) 2) 6) 7) Analýza a redukce frází 3) Vytvoření zjednodušeného modelu 4) 5) Komprese modelu Přehled plagiovaných dokumentů Obrázek 1. Vrstvy zpracování SVDPLAG metody. 2.1 Komprese modelu metodou náhodného indexování Navržený model fráze x dokument v č lánku [2] se při zpracování rozsáhlých kolekcí potýká s velkými(More)
  • 1