1.0.0 • Published 2 years ago

tokenizes v1.0.0

Weekly downloads
166
License
MIT
Repository
github
Last release
2 years ago

elasticsearch tokenizers

Using tokenizers

Install tokenizers from npm

With yarn

yarn add tokenizes

or alternatively using npm:

npm install --save tokenizes

const {
  asciiFolding,
  standardTokenizer,
  asciiFoldingTokenizer,
  nGramTokenizerCreator,
  edgeNGramTokenizerCreator,
} = require('tokenizes');


asciiFolding('Iлtèrnåtïonɑlíƶatï߀ԉO')
// ~ Iлternationɑlizati߀ԉO


standardTokenizer("Düsseldorf Köln, Москва 北京市 !@#$");
// ~ [ 'düsseldorf', 'köln', 'москва', '北', '京', '市' ];


asciiFoldingTokenizer("Düsseldorf Köln, Москва 北京市 !@#$");
// ~ [ 'dusseldorf', 'koln', 'москва', '北', '京', '市' ];


const standardNGramTokenizer = nGramTokenizerCreator({
  min: 3,
  max: 4,
  tokenChars: ['letter', 'digit'],
});
standardNGramTokenizer('Nam quốc sơn hà nam đế cư');
// ~ ['nam', 'quố', 'quốc', 'uốc', 'sơn', 'nam']


const asciifoldingEdgeNGramTokenizer = edgeNGramTokenizerCreator({
  min: 2,
  max: 10,
  filters: ['asciifolding'],
  tokenChars: ['letter', 'digit'],
});
asciifoldingEdgeNGramTokenizer('Tiệt nhiên phận định tại thiên thư')
// ~ ['ti', 'tie', 'tiet', 'nh', 'nhi', 'nhie', 'nhien', 'ph', 'pha', 'phan', 'di', 'din', 'dinh', 'ta', 'tai', 'th', 'thi', 'thie', 'thien', 'th', 'thu']
1.0.0

2 years ago

0.1.15

4 years ago

0.1.14

4 years ago