Learn More
摘要 中國大陸與台灣的文字同屬於華文字體,但字體上卻分為簡體字與繁體字。中國大 陸與台灣近年來在中文書籍及網路上皆有大量的資訊交流。基於閱讀習慣,文字勢必需 要執行簡繁轉換後才利於雙方的讀者閱讀。傳統的簡繁轉換擁有簡體一字對繁體多字的 歧異問題以及兩岸用語不同的問題。因此,本研究設計一個具有擴展性的簡繁轉換系 統,透過擷取維基百科新增對照表內容來改善兩岸用語不同的問題,以及使用語言模型 改善簡體字一個字對繁體字多個字的歧異問題。此系統可以降低各種中文電子書籍執行 簡繁轉換後人工校正的成本。具有彈性的架構使得系統可以持續擴充改進。 關鍵詞:簡繁轉換,語言模型,維基百科,對照表 Abstract The character sets used in China and Taiwan are both(More)
  • 1