-
Notifications
You must be signed in to change notification settings - Fork 4
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
palavras compostas #37
Comments
@odanoburu Sim, com certeza, isso é muito importante! No caso de abaixa-luz , o dicionário de São Carlos faz uma confusão: A etiqueta de classe de palavras deve ser substantivo, como no recurso europeu. É isso que interessa para o processamento sintático posterior. A informação de que se trata de um palavra composta de um substantivo e um verbo não é relevante para a sintaxe. De fato, no modelo da gramática léxico-funcional, as palavras são consideradas átomos na sintaxe, esse componente não tem acesso à estrutura interna das palavras compostas ou derivadas. A respeito desse tipo de exemplo , creio que há consenso entre os diferentes modelos teóricos linguísticos. No entanto, pensando em outros tipos de aplicações, eu acharia interessante preservar a informação que o dicionário de São Carlos traz a respeito da natureza da composição. Teremos que pensar então numa etiqueta que possa ser desprezada pela sintaxe . |
Embora não tenhamos incorporado o DELACF, considerando apenas adjs e substantivos, já temos 8739 formas com hífen.
No arquivo DEFALCF, que depois de discompactado tive que trocar encoding de UTF-16 para UTF-8, tems penas 4K formas:
|
O que queremos fazer com estas formas compostas com hífen? Queremos mante-las separadas das palavras simples com faz o Unitex-PB? |
no DELACF (ainda não incorporado ao MorphoBr) me parece que há análises (ou pelo menos tags) diferentes:
enquanto no GFL (já no formato morphoBR):
talvez fosse interessante incorporar o DELACF, harmonizando as tags.
The text was updated successfully, but these errors were encountered: