Skip to search formSkip to main content
You are currently offline. Some features of the site may not work correctly.

Byte pair encoding

Known as: Byte pair compression, Digram coding, Dual tile encoding 
Byte pair encoding or digram coding is a simple form of data compression in which the most common pair of consecutive bytes of data is replaced with… Expand
Wikipedia

Papers overview

Semantic Scholar uses AI to extract papers important to this topic.
2020
2020
The success of pretrained transformer language models in natural language processing has led to a wide range of different… Expand
  • figure 1
  • figure 2
  • table 1
  • table 2
  • table 3
Is this relevant?
2019
2019
Neural sequence-to-sequence models provide a competitive approach to the task of mapping a question in natural language to an SQL… Expand
  • figure 1
  • figure 2
  • figure 3
  • table 1
  • table 3
Is this relevant?
2018
2018
한국어는 교착어적 특성이 강한 언어로, 교착어적 특성이 없는 영어 등의 언어와 달리 형태소의 수에 따 라 조합 가능한 어절의 수가 매우 많으므로 어절 단위의 처리가 매우 어렵다. 따라서 어절을 더 작은 단 위로 분해하는 전처리 단계가 요구되는데, 형태소 분석이 이를 위해 주로 사용되었다. 하지만 지도학습 방 법을 이용한 형태소 분석 시스템은 다량의 학습 데이터가 요구되고, 비지도학습 방법을 이용한 형태소 분 석은 성능에 큰 하락을 보인다. Byte Pair Encoding은 데이터를 압축하는 알고리즘으로, 이를 자연어처리 분야에 응용하면 비지도학습 방 법으로 어절을 더 작은 단위로 분해할 수 있다. 본 연구에서는 한국어에 Byte Pair Encoding을 적용하는 두 가지 방법인 음절 단위 처리와 자모 단위 처리의 성능 및 특성을 정량적, 정성적으로 분석하는 방법을 제안하였다. 또한, 이 방법을 세종 말뭉치에 적용하여 각각의 알고리즘을 이용한 어절 분해를 실험하고, 그 결과를 어절 분해 정확도, 편향, 편차를 바탕으로 비교, 분석하였다. 
Is this relevant?
2018
2018
Neural Machine Translation (NMT) is the current state-of-the-art machine translation technique. However, applicability of NMT for… Expand
  • table II
  • table IV
  • table V
  • table VI
Is this relevant?
2017
2017
Byte pair encoding(BPE) is an approach that segments the corpus in such a way that frequent sequence of characters are combined… Expand
  • table I
Is this relevant?
2017
2017
We classify the ergodic invariant random subgroups of block-diagonal limits of symmetric groups in the cases when the groups are… Expand
  • figure 1
Is this relevant?
2017
2017
We explore the use of segments learnt using Byte Pair Encoding (referred to as BPE units) as basic units for statistical machine… Expand
  • table 1
  • table 3
  • table 4
  • table 5
  • table 6
Is this relevant?
2017
2017
Recent many password guessing algorithms based on the Probabilistic Context-Free Grammars (PCFGs) model brought significant… Expand
Is this relevant?
Highly Cited
2016
Highly Cited
2016
Neural machine translation (NMT) models typically operate with a fixed vocabulary, but translation is an open-vocabulary problem… Expand
  • figure 1
  • table 2
  • table 1
  • table 3
  • table 4
Is this relevant?
Highly Cited
1999
Highly Cited
1999
Byte pair encoding (BPE) is a simple universal text compression scheme. Decompression is very fast and requires small work space… Expand
  • table 1
  • table 2
  • table 3
  • table 4
  • table 5
Is this relevant?