Adds tokenization task for embeddings #365

flaviabeo · 2024-06-27T14:43:19Z

This implements the TokenizeTask for the Embeddings module. Works for all the models of type SentenceTransformer.

gkumbhat · 2024-06-27T18:06:20Z

caikit_nlp/modules/text_embedding/embedding.py

+            TokenizationResults
+                The token count
+        """
+        result = self.model.tokenizer.encode_plus(text, return_offsets_mapping=True)


encode_plus is deprecated: https://huggingface.co/docs/transformers/v4.41.3/en/internal/tokenization_utils#transformers.PreTrainedTokenizerBase.encode_plus

Can we use __call__ instead?

evaline-ju

Changes themselves mainly LGTM, but let's add a small unit test to make sure we have expected results/prevent possible future breakages?

caikit_nlp/modules/text_embedding/embedding.py

tests/modules/text_embedding/test_embedding.py

markstur

merge caused an indexing miss. See inline

markstur · 2024-07-24T20:51:57Z

caikit_nlp/modules/text_embedding/embedding.py

+        ]
+        tokens = [Token(start=i[0], end=i[1], text=text[i[0] : i[1]]) for i in mapping]
+
+        return TokenizationResults(token_count=len(result.input_ids), results=tokens)


This needs index zero because we wrapped the text in a list for _get_tokenized().

Suggested change

return TokenizationResults(token_count=len(result.input_ids), results=tokens)

return TokenizationResults(token_count=len(result.input_ids[0), results=tokens)

tests/modules/text_embedding/test_embedding.py

Signed-off-by: Flavia Beo <flavia.beo@ibm.com>

Co-authored-by: Evaline Ju <69598118+evaline-ju@users.noreply.github.com> Signed-off-by: Flávia Béo <119421251+flaviabeo@users.noreply.github.com>

evaline-ju

LGTM!

Dismissing on maintainer availability, the requested change appears addressed.

flaviabeo requested review from alex-jw-brooks, gkumbhat, evaline-ju, gabe-l-hart, tharapalanivel and Ssukriti as code owners June 27, 2024 14:43

gkumbhat previously requested changes Jun 27, 2024

View reviewed changes

flaviabeo force-pushed the tokenize branch from b78aafa to 665d3fe Compare July 23, 2024 00:09

flaviabeo requested a review from gkumbhat July 23, 2024 00:10

flaviabeo force-pushed the tokenize branch from 665d3fe to 821c40d Compare July 23, 2024 00:28

evaline-ju reviewed Jul 24, 2024

View reviewed changes

caikit_nlp/modules/text_embedding/embedding.py Outdated Show resolved Hide resolved

flaviabeo force-pushed the tokenize branch 4 times, most recently from 5fd8f44 to 0822f3f Compare July 24, 2024 19:25

flaviabeo requested a review from evaline-ju July 24, 2024 19:38

evaline-ju reviewed Jul 24, 2024

View reviewed changes

tests/modules/text_embedding/test_embedding.py Outdated Show resolved Hide resolved

markstur suggested changes Jul 24, 2024

View reviewed changes

flaviabeo and others added 2 commits July 24, 2024 17:58

Adds tokenization task

e49c298

Signed-off-by: Flavia Beo <flavia.beo@ibm.com>

Update caikit_nlp/modules/text_embedding/embedding.py

2a8321e

Co-authored-by: Evaline Ju <69598118+evaline-ju@users.noreply.github.com> Signed-off-by: Flávia Béo <119421251+flaviabeo@users.noreply.github.com>

flaviabeo force-pushed the tokenize branch from 0822f3f to 2a8321e Compare July 24, 2024 20:58

evaline-ju approved these changes Jul 24, 2024

View reviewed changes

evaline-ju merged commit 1499cab into caikit:main Jul 24, 2024
5 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Adds tokenization task for embeddings #365

Adds tokenization task for embeddings #365

flaviabeo commented Jun 27, 2024 •

edited

Loading

gkumbhat Jun 27, 2024

evaline-ju left a comment

markstur left a comment

markstur Jul 24, 2024

evaline-ju left a comment

	return TokenizationResults(token_count=len(result.input_ids), results=tokens)
	return TokenizationResults(token_count=len(result.input_ids[0), results=tokens)

Adds tokenization task for embeddings #365

Adds tokenization task for embeddings #365

Conversation

flaviabeo commented Jun 27, 2024 • edited Loading

gkumbhat Jun 27, 2024

Choose a reason for hiding this comment

evaline-ju left a comment

Choose a reason for hiding this comment

markstur left a comment

Choose a reason for hiding this comment

markstur Jul 24, 2024

Choose a reason for hiding this comment

evaline-ju left a comment

Choose a reason for hiding this comment

flaviabeo commented Jun 27, 2024 •

edited

Loading