-
Notifications
You must be signed in to change notification settings - Fork 4
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
temos casos de formas sem plural? #68
Comments
@arademaker e @lucasrct, como já sugeri antes, precisamos elaborar um script que faça essa checagem para os substantivos e adjetivos. Defendo que todo substantivo e todo adjetivo da língua portuguesa deve ter um plural, mesmo nomes próprios, porque, eventualmente, essas palavras podem vir a ser usadas no plural. Em muitos casos, a forma do plural vai ser igual à do singular. Por exemplo, todo nome de lugar pode ser usado na seguinte estrutura: Não há apenas uma Alemanha, mas várias Alemanhas, pois cada região do país tem suas especificidades; por exemplo, a Alemanha do Norte é bem diferente da Alemanha do Sul. Exemplos desse tipo não são incomuns em corpora. Curiosamente, o corretor ortográfico do iPhone não reconhece a palavra Alemanha no plural, sublinhando-a de vermelho… Uma limitação que o nosso recurso permite superar. No atual desenho do conjunto de etiquetas que utilizamos, seguindo o principal recurso do qual partimos, só temos etiquetas de singular e plural, o que implica que mesmo formas repetidas devem ser listadas. Exemplos disso: o substantivo lápis e o adjetivo simples. O mesmo problema de repetição é muito frequente no caso do gênero, ver dentista e inteligente. Particularmente, não consideraria uma prioridade agora a revisão das etiquetas, para incluir uma terceira etiqueta de número e uma terceira etiqueta de gênero, para os casos de formas idênticas. Podemos abrir uma questão de longo prazo pra pensar sobre isso no futuro, quando tivermos claramente definida a aplicação sintática do recurso. É claro que as repetições aumentam o tamanho do recurso em arquivo de texto, mas essa repetição é em grande parte eliminada quando convertemos a lista para autômato de estados finitos. ~/MorphoBr$ grep -E "^óculos?" nouns/*.dict Ao meu ver, essa modelagem está correta: as duas primeiras entradas representam o singular e o plural do lema óculo, a terceira entrada constitui a única forma existente na língua culta do lema óculos, e a última entrada é a forma do singular de óculos na língua coloquial. |
@arademaker e @lucasrct, se o script referido acima apontar formas de substantivos ou adjetivos sem plural, precisamos corrigir isso, porque senão vou continuar obtendo erros na derivação de diminutivos. |
Acima vc disse |
Na forma atual do recurso, depois do issue #67 os exemplos que @leoalenc, na discussão de duplicidates, foram tratados e ficaram:
Para simples como Para
Para inteligente não temos agora repetição de gênero nos substantivos nem nos adjetivos:
|
@arademaker, na linguagem coloquial, costumamos ouvir ou ler coisas como preciso de um óculos novo, o que é contemplado pela seguinte entrada, a ultima das mencionadas naquele comentário meu:
|
Claro agora, achei que a forma óculo era a que vc considerava coloquial. |
@arademaker e @leoalenc, neste commit implementei uma função que lista casos em que o número de formas no plural é diferente do número de formas no singular para um mesmo lema, portanto aponta formas sem plural e formas sem singular. Essa função compara a lista de lema+tags sem duplicações, isso para evitar listar casos como
Alguns dos casos listados parecem ser de erro no lema como |
Vide comentário no issue #61.
Será que teremos casos de palavras que não tem plural? Neste caso como sinalizar?
The text was updated successfully, but these errors were encountered: