Ngram tokenizer for sqlite3 fts5

This tokenizer works behind another tokenizer like unicode61 (default).

Example:

const sqlite = require('better-sqlite3');
const tokenizer = require('sqlite3-ngram-tokenizer');

const db = sqlite(':memory:');
db.loadExtension(tokenizer.pluginPath); // pluginPath does not contain extension

db.exec(`
CREATE VIRTUAL TABLE t1 USING fts5(x, tokenize = 'ngram');
`);

It tokenizes latin words by 2-gram with seperate first letter: "letter" => [l le et tt te er], so it will match "let" but not "etter".

For non-latin words, it tokenizes them by 1-gram. It performs like String.includes() on non-latin words.

You can specify other tokenizers like

-- porter tokenizer also works behind another tokenizer
CREATE VIRTUAL TABLE t1 USING fts5(x, tokenize = 'ngram porter unicode61 remove_diacritics 1');

NOTICE

highlight() may not work as expected behind a porter tokenizer.

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
src		src
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
binding.gyp		binding.gyp
index.d.ts		index.d.ts
index.js		index.js
package-lock.json		package-lock.json
package.json		package.json

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Ngram tokenizer for sqlite3 fts5

About

Releases

Packages

Languages

License

K024/sqlite3-ngram-tokenizer

Folders and files

Latest commit

History

Repository files navigation

Ngram tokenizer for sqlite3 fts5

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages