Learn More
Internet is one of the richest encyclopaedias in the world. Students can easily download various free documents and then plagiarize their content. This paper describes the current state of copy detection methods and proposes some new trends. New approaches, closer to nature language processing, can essentially improve identification of hardly-detectable(More)
In natural language processing (NLP) mainly single words are utilized to represent text documents. Recent studies have shown that this approach can be often improved by employing other, more sophisticated, features. Among them, mainly N-grams have been successfully used for this purpose and many algorithms and procedures for their extraction have been(More)
Metoda založená na relativních frekvencích [3] vychází z tradičního vektorového modelu, který byl upraven pro nalezení podobnosti dvou dokumentů R a S. Do výpočtu jsou zahrnuta pouze slova, která splní stano-venou podmínku kde je konfigurovatelný parametr v intervalu (2, ∞) a F i (D) je frekvence termu i pro dokument D. Pokud frekvence F i (R) nebo F i (S)(More)
Normalizace podobností mezi dokumenty 1) 2) 6) 7) Analýza a redukce frází 3) Vytvoření zjednodušeného modelu 4) 5) Komprese modelu Přehled plagiovaných dokumentů Obrázek 1. Vrstvy zpracování SVDPLAG metody. 2.1 Komprese modelu metodou náhodného indexování Navržený model fráze x dokument v č lánku [2] se při zpracování rozsáhlých kolekcí potýká s velkými(More)
Abstrakt. Tento článek se zabývá technikami předzpracování textu a jejich vli-vem na detekci plagiátů v psaném textu. V našich experimentech zkoumáme stop-slova, lemmatizaci, nahrazování synonym a jejich vzájemné kombinace. Dále navrhujeme pokročilou normalizaci slov s využitím hyperonym z WordNet tezauru. Testy jsme provedli na českém korpusu plagiátů(More)
  • 1