Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

palavras compostas #37

Open
odanoburu opened this issue Apr 19, 2018 · 4 comments
Open

palavras compostas #37

odanoburu opened this issue Apr 19, 2018 · 4 comments
Labels
longrun Will take a long term effort to solve.

Comments

@odanoburu
Copy link
Contributor

no DELACF (ainda não incorporado ao MorphoBr) me parece que há análises (ou pelo menos tags) diferentes:

abaixa-luz,abaixa-luz.N+VN:ms

enquanto no GFL (já no formato morphoBR):

antero-posteriores,antero-posterior.A+NA:mp:fp
abaixa-luz      abaixa-luz+N+M+SG

talvez fosse interessante incorporar o DELACF, harmonizando as tags.

@odanoburu odanoburu changed the title palavras flexionadas palavras compostas Apr 19, 2018
@leoalenc
Copy link
Contributor

@odanoburu Sim, com certeza, isso é muito importante! No caso de abaixa-luz , o dicionário de São Carlos faz uma confusão: A etiqueta de classe de palavras deve ser substantivo, como no recurso europeu. É isso que interessa para o processamento sintático posterior. A informação de que se trata de um palavra composta de um substantivo e um verbo não é relevante para a sintaxe. De fato, no modelo da gramática léxico-funcional, as palavras são consideradas átomos na sintaxe, esse componente não tem acesso à estrutura interna das palavras compostas ou derivadas. A respeito desse tipo de exemplo , creio que há consenso entre os diferentes modelos teóricos linguísticos. No entanto, pensando em outros tipos de aplicações, eu acharia interessante preservar a informação que o dicionário de São Carlos traz a respeito da natureza da composição. Teremos que pensar então numa etiqueta que possa ser desprezada pela sintaxe .
No outro exemplo, o recurso europeu faz a mesma confusão de níveis de análise. O exemplo apresentado constitui um adjetivo. A etiqueta NA eu não sei o que significa. Eu nunca trabalhei com esse dicionário de palavras compostas de São Carlos exatamente por conta desse problema: será sempre possível extrair automaticamente, sem revisão humana, das etiquetas compostas aquela etiqueta que indica a classe de palavras do composto? Mais uma tarefa para os bolsistas linguistas executarem!

@odanoburu odanoburu added the longrun Will take a long term effort to solve. label Apr 24, 2018
@arademaker
Copy link
Contributor

@leoalenc este issue pode estar relacionado ao #65. Veja que a informação extra poderia ajudar na verificação de regras para plurais?

@arademaker
Copy link
Contributor

arademaker commented Feb 11, 2020

Embora não tenhamos incorporado o DELACF, considerando apenas adjs e substantivos, já temos 8739 formas com hífen.

% awk '$1 ~ /-/ {print}' nouns/* adjectives/* | wc -l
    8739

No arquivo DEFALCF, que depois de discompactado tive que trocar encoding de UTF-16 para UTF-8, tems penas 4K formas:

% recode utf-16..utf-8 ~/Downloads/DELACF_PB.dic
% wc -l ~/Downloads/DELACF_PB.dic
    4077 /Users/ar/Downloads/DELACF_PB.dic

@arademaker
Copy link
Contributor

O que queremos fazer com estas formas compostas com hífen? Queremos mante-las separadas das palavras simples com faz o Unitex-PB?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
longrun Will take a long term effort to solve.
Projects
None yet
Development

No branches or pull requests

3 participants