Georgian Python toolkit for NLP, Transliteration and more. Partially based on anbani.js.
pip install anbani
Transliteration example:
from anbani.core.converter import convert, interpret
interpret("გამარჯობა", "asomtavruli")
# 'ႢႠႫႠႰႿႭႡႠ'
Georgianisation example:
from anbani.nlp.georgianisation import georgianise
georgianise("gamarjoba - rogor xar - rasa iqm - kaia kata - kai erti")
# 'გამარჯობა - როგორ ხარ - რასა იქმ - კაია კატა - კაი ერთი'
Convert ebooks with qwerty encoding to unicode Mkhedruli:
from anbani.nlp.utils import ebook2text
from anbani.core.converter import classify_text
from anbani.core.converter import convert
text = ebook2text("/home/george/Dev/georgian-text-corpus/sources/mylibrary/raw/files/ჩარლზ დიკენსი - დევიდ კოპერფილდი.pdf")
print(text[:300])
print(classify_text(text))
print(convert(text, "qwerty", "mkhedruli")[:300])
# Carlz dikensi daviT koperfildi Tavi pirveli dabadeba me viqnebi gmiri Cemive sakuTari Tavgadasavlisa Tu sxva...
# latin
# ჩარლზ დიკენსი დავით კოპერფილდი თავი პირველი დაბადება მე ვიქნები გმირი ჩემივე საკუთარი თავგადასავლისა თუ სხვა...
Expand contractions:
from anbani.nlp.contractions import expand_text
text = "ილია ჭავჭავაძე (დ. 8 ნოემბერი, 1837, სოფელი ყვარელი — გ. 12 სექტემბერი, 1907, წიწამური)"
print(text)
print(expand_text(text))
# ილია ჭავჭავაძე (დ. 8 ნოემბერი, 1837, სოფელი ყვარელი — გ. 12 სექტემბერი, 1907, წიწამური)
# ილია ჭავჭავაძე (დაბადება 8 ნოემბერი, 1837, სოფელი ყვარელი — გარდაცვალება 12 სექტემბერი, 1907, წიწამური)
Feel free to fork this repo!
- Tokenizer
- Transliteration
- Expand contractions
- ebook2pdf converter
- Stemmer
- Lemmatizer
- Stopwords