Cjk-tokenizer NPM | npm.io

0.1.0 • Published 10 years ago

Install

Weekly downloads

2

License

MIT

Repository

Last release

10 years ago

cjk-tokenizer

Extract terms from CJK text. The origin idea is stolen from timdream/wordfreq.

Why?

A CJK text tokenizer that works as expected is missing in the javascript magic world. So I decided to build one with these features:

Chinese, Japanese and Korean support
Terms extracted would contain score, position in origin text, etc.
A more common stop words collection

Install

Use in project:

npm i cjk-tokenizer --save

Cli:

npm i cjk-tokenizer -g

Demo

Contribute

CJK tokenizer CJK tokenizer n-gram porter-stemmer text corpus Chinese Japanese Korean English

commander japanese porter-stemmer zero-lang

@everything-registry/sub-chunk-1328 @infinitebrahmanuniverse/nolb-cj

10 years ago

10 years ago