Zdenek Ceska

Learn More
Internet is one of the richest encyclopaedias in the world. Students can easily download various free documents and then plagiarize their content. This paper describes the current state of copy detection methods and proposes some new trends. New approaches, closer to nature language processing, can essentially improve identification of hardly-detectable(More)
Metoda založená na relativních frekvencích [3] vychází z tradičního vektorového modelu, který byl upraven pro nalezení podobnosti dvou dokumentů R a S. Do výpočtu jsou zahrnuta pouze slova, která splní stano-venou podmínku kde je konfigurovatelný parametr v intervalu (2, ∞) a F i (D) je frekvence termu i pro dokument D. Pokud frekvence F i (R) nebo F i (S)(More)
Normalizace podobností mezi dokumenty 1) 2) 6) 7) Analýza a redukce frází 3) Vytvoření zjednodušeného modelu 4) 5) Komprese modelu Přehled plagiovaných dokumentů Obrázek 1. Vrstvy zpracování SVDPLAG metody. 2.1 Komprese modelu metodou náhodného indexování Navržený model fráze x dokument v č lánku [2] se při zpracování rozsáhlých kolekcí potýká s velkými(More)
Abstrakt. Tento článek se zabývá technikami předzpracování textu a jejich vli-vem na detekci plagiátů v psaném textu. V našich experimentech zkoumáme stop-slova, lemmatizaci, nahrazování synonym a jejich vzájemné kombinace. Dále navrhujeme pokročilou normalizaci slov s využitím hyperonym z WordNet tezauru. Testy jsme provedli na českém korpusu plagiátů(More)
  • 1