Fontes dos dicionários e licenças
Esta página explica quais dicionários usamos, de onde vêm os dados linguísticos, como eles são processados e quais avisos de licença preservamos.
Objetivo
Nosso objetivo é oferecer uma ferramenta útil para encontrar palavras em português, respeitando as fontes originais e os termos das respectivas licenças. A Tools Nest separa português do Brasil e português europeu para evitar misturar variantes ortográficas ou lexicais de forma pouco clara.
Dicionário de português europeu
Para o português europeu, usamos como base os arquivos Hunspell pt_PT.dic e pt_PT.aff do repositório de dicionários do LibreOffice, associados ao Projecto Natura e à Universidade do Minho. A versão usada é a variante pt_PT AO 1990.
Esses dicionários são usados em ferramentas de correção ortográfica como LibreOffice, OpenOffice e outros programas compatíveis com Hunspell.
Fonte principal:
- Dicionário Hunspell de português de Portugal
pt_PT - Projecto Natura / Universidade do Minho
- Repositório de dicionários do LibreOffice
Dicionário de português do Brasil
Para o português do Brasil, usamos como base os arquivos Hunspell pt_BR.dic e pt_BR.aff do repositório de dicionários do LibreOffice, incluindo recursos associados ao projeto Vero.
Esses dicionários são usados em ferramentas de correção ortográfica e de apoio à escrita em português do Brasil.
Fonte principal:
- Dicionário Hunspell de português do Brasil
pt_BR - Vero, Verificador Ortográfico em Português do Brasil
- Repositório de dicionários do LibreOffice
Como usamos os dicionários
Os dicionários originais são disponibilizados em formato Hunspell, normalmente por meio de arquivos .dic e .aff. Esses arquivos podem incluir palavras-base, regras de flexão, variantes ortográficas, formas derivadas e outros dados linguísticos.
No projeto atual, processamos esses arquivos com o builder local src/build/build_portuguese_dictionaries.py. Ele expande regras de afixos, remove duplicatas técnicas e gera listas pesquisáveis em JSON para o Anagramador.
Esse processamento inclui:
- expansão de formas a partir de regras Hunspell;
- remoção de duplicatas;
- normalização técnica dos dados para busca rápida;
- separação entre português europeu e português do Brasil;
- exclusão de entradas incompatíveis com a funcionalidade da ferramenta;
- organização das palavras por tamanho, letras e padrões pesquisáveis.
Os arquivos gerados ficam separados em /word-unscrambler/assets/data/wordlists/br/ e /word-unscrambler/assets/data/wordlists/pt/.
Modo Ambos
A opção Ambos não junta os dicionários em uma lista única e silenciosa. Ela carrega as bases BR e PT separadamente e mostra os resultados em grupos distintos.
Quando o usuário está em português do Brasil, os resultados BR aparecem primeiro e os resultados PT aparecem abaixo. Quando o usuário está em português de Portugal, a ordem é invertida.
Limitações
Apesar de usarmos fontes reconhecidas, nenhuma lista de palavras é perfeita. Uma palavra pode estar ausente, uma variante pode ser discutível, ou uma forma flexionada pode depender do contexto. A língua portuguesa é rica, viva e, às vezes, desnecessariamente complicada.
Esta ferramenta deve ser vista como uma ajuda prática para encontrar palavras, não como uma autoridade oficial sobre a língua portuguesa.
Licenças
Os avisos upstream preservados neste projeto estão em data/dictionaries/licenses/, com um resumo em THIRD_PARTY_NOTICES.md.
Avisos preservados:
- README do dicionário LibreOffice
pt_PT - Licenças do dicionário LibreOffice
pt_PT - README em inglês do dicionário LibreOffice/Vero
pt_BR - README em português do dicionário LibreOffice/Vero
pt_BR
Com base nos avisos incluídos nas versões que usamos:
- O dicionário
pt_PTinforma GPL v2, LGPL 2.1 e MPL 1.1. - O dicionário
pt_BRinforma LGPLv3 e Mozilla Public License. O README copiado não especifica a versão exata da MPL.
Para esta ferramenta, a intenção de uso e distribuição é seguir os caminhos MPL/LGPL disponíveis, não tratar os dicionários portugueses como material GPL-only. Mantemos os avisos de licença e atribuição das fontes originais junto com os dados derivados.
Esta página é um resumo operacional do projeto e não substitui aconselhamento jurídico formal.
Atribuição
Agradecemos aos autores, equipes e comunidades que criaram e mantêm esses dicionários, incluindo os contribuidores do Projecto Natura, Universidade do Minho, LibreOffice, Vero e demais projetos associados.
Sem esse trabalho aberto, ferramentas como esta seriam muito mais difíceis de criar.
Erros, sugestões e pedidos de remoção
Se você encontrar uma palavra incorreta, uma ausência importante, uma atribuição incompleta ou qualquer problema relacionado a licenças, entre em contato conosco.
Teremos prazer em revisar o caso e corrigir a informação quando necessário.
Contato: tools.nest.web@gmail.com