Fontes dos dicionários e licenças
Esta página explica que dicionários usamos, de onde vêm os dados linguísticos, como são processados e que avisos de licença preservamos.
Objetivo
O nosso objetivo é simples: disponibilizar uma ferramenta útil para encontrar palavras em português, respeitando as fontes originais e os termos das respetivas licenças. A Tools Nest separa português europeu e português do Brasil para evitar misturar variantes ortográficas ou lexicais de forma pouco clara.
Dicionário de português europeu
Para o português europeu, usamos como base os ficheiros Hunspell pt_PT.dic e pt_PT.aff do repositório de dicionários do LibreOffice, associados ao Projecto Natura e à Universidade do Minho. A versão usada é a variante pt_PT AO 1990.
Estes dicionários são usados em ferramentas de correção ortográfica como LibreOffice, OpenOffice e outros programas compatíveis com Hunspell.
Fonte principal:
- Dicionário Hunspell de português de Portugal
pt_PT - Projecto Natura / Universidade do Minho
- Repositório de dicionários do LibreOffice
Dicionário de português do Brasil
Para o português do Brasil, usamos como base os ficheiros Hunspell pt_BR.dic e pt_BR.aff do repositório de dicionários do LibreOffice, incluindo recursos associados ao projeto Vero.
Estes dicionários são usados em ferramentas de correção ortográfica e de apoio à escrita em português do Brasil.
Fonte principal:
- Dicionário Hunspell de português do Brasil
pt_BR - Vero, Verificador Ortográfico em Português do Brasil
- Repositório de dicionários do LibreOffice
Como usamos os dicionários
Os dicionários originais são disponibilizados em formato Hunspell, normalmente através de ficheiros .dic e .aff. Estes ficheiros podem incluir palavras-base, regras de flexão, variantes ortográficas, formas derivadas e outros dados linguísticos.
No projeto atual, processamos estes ficheiros com o builder local src/build/build_portuguese_dictionaries.py. Ele expande regras de afixos, remove duplicados técnicos e gera listas pesquisáveis em JSON para o Anagramador.
Esse processamento inclui:
- expansão de formas a partir de regras Hunspell;
- remoção de duplicados;
- normalização técnica dos dados para pesquisa rápida;
- separação entre português europeu e português do Brasil;
- exclusão de entradas incompatíveis com a funcionalidade da ferramenta;
- organização das palavras por tamanho, letras e padrões pesquisáveis.
Os ficheiros gerados ficam separados em /word-unscrambler/assets/data/wordlists/pt/ e /word-unscrambler/assets/data/wordlists/br/.
Modo Ambos
A opção Ambos não junta os dicionários numa lista única e silenciosa. Carrega as bases PT e BR separadamente e mostra os resultados em grupos distintos.
Quando o utilizador está em português de Portugal, os resultados PT aparecem primeiro e os resultados BR aparecem abaixo. Quando o utilizador está em português do Brasil, a ordem é invertida.
Limitações
Apesar de usarmos fontes reconhecidas, nenhuma lista de palavras é perfeita. Uma palavra pode estar ausente, uma variante pode ser discutível, ou uma forma flexionada pode depender do contexto. A língua portuguesa é rica, viva e, por vezes, inconvenientemente complicada.
Esta ferramenta deve ser vista como uma ajuda prática para encontrar palavras, não como uma autoridade oficial sobre a língua portuguesa.
Licenças
Os avisos upstream preservados neste projeto estão em data/dictionaries/licenses/, com um resumo em THIRD_PARTY_NOTICES.md.
Avisos preservados:
- README do dicionário LibreOffice
pt_PT - Licenças do dicionário LibreOffice
pt_PT - README em inglês do dicionário LibreOffice/Vero
pt_BR - README em português do dicionário LibreOffice/Vero
pt_BR
Com base nos avisos incluídos nas versões que usamos:
- O dicionário
pt_PTindica GPL v2, LGPL 2.1 e MPL 1.1. - O dicionário
pt_BRindica LGPLv3 e Mozilla Public License. O README copiado não especifica a versão exata da MPL.
Para esta ferramenta, a intenção de uso e distribuição é seguir os caminhos MPL/LGPL disponíveis, não tratar os dicionários portugueses como material GPL-only. Mantemos os avisos de licença e atribuição das fontes originais juntamente com os dados derivados.
Esta página é um resumo operacional do projeto e não substitui aconselhamento jurídico formal.
Atribuição
Agradecemos aos autores, equipas e comunidades que criaram e mantêm estes dicionários, incluindo os contribuidores do Projecto Natura, Universidade do Minho, LibreOffice, Vero e demais projetos associados.
Sem este trabalho aberto, ferramentas como esta seriam muito mais difíceis de criar.
Erros, sugestões e pedidos de remoção
Se encontrar uma palavra incorreta, uma ausência importante, uma atribuição incompleta ou qualquer problema relacionado com licenças, contacte-nos.
Teremos todo o gosto em rever o caso e corrigir a informação quando necessário.
Contacto: tools.nest.web@gmail.com