Słownik open source języka polskiego

Założenia

Słownik jest tworzony zgodnie z zasadami "open source". Oznacza to, że:
- jest on dostępny bez żadnych opłat - i to zarówno zbiór słów, algorytmy i programy go przetwarzające (w wersji binarnej i źródłowej)
- słownik może być używany zarówno w produktach darmowych jak i komercyjnych - bez jakichkolwiek opłat licencyjnych
- każdy może uczestniczyć w tworzeniu słownika na równych zasadach
- prawa autorskie należą do osób współtworzących słownik, jednak na podstawie tych praw nie mogą być wprowadzane ograniczenia w korzystaniu ze słownika - poza niniejsze ustalenia.
UWAGA! Osoby tworzące słownik zobowiązane są do przestrzegania praw autorskich innych osób. W szczególności niedopuszczalne jest dołączanie innych słowników bez zgody ich autorów.
Słownik składa się z:
- Zbioru słów
  Słowa pochodzą ze współczesnej polszczyzny. Słownik obejmuje również wszelkie używane skróty, nazwy własne, określenia techniczne (w tym zapożyczenia z języków obcych) itp.
- Zbioru fraz
  Są to cytaty, idiomy, wypowiedzi obrazujące kontekst itd...
- Definicji
  Mogą to być zarówno definicje językowe, jak i encyklopedyczne.
- Systemu zarządzania słownikiem
  Słownik jest przechowywany w sieci WWW. System zarządzania nim zapewnia swobodny dostęp, oraz stałą aktualizację.
- Algorytmów
  - związanych z aktualizacją słownika
  - zawartych w programach korzystajcych ze słownika - na przykład algorytm kompresji zbioru słownika.
- Programów korzystających ze słownika (korektory tekstów, leksykony, itd...)
- Zbioru autorów (osób współtworzących słownik).
Podstawowe zasady zarządzania słownikiem:
- Wraz z każdym elementem słownika pamietane jest źródło (skąd pochodzi, autorzy), poziom ufności (wiarygodność) oraz jednoznaczny kod identyfikujący.
- Autorzy są rejestrowani - każdy z nich uzyskuje kod, na podstawie którego są ustalane kody dodawanych przez nich słów. Zakres informacji ujawnianych przez autorów na swój temat zależy tylko od nich (może być pseudonim, adres e-mail, lub pełne dane).
- Dane w słowniku podlegają ustawicznej aktualizacji. Na podstawie ilości wystąpień, opinii poszczególnych autorów oraz oceny ich wiarygodności wyliczany jest poziom ufności tych danych.

Źródła danych w słowniku

Pierwotnym źródłem jest zbiór słów ze słowników produktów firm LexiLab i Tenar (dawniej Certus Software).
Słownik jest uzupełniany przez program skanujący zawartość internetu. Automatycznie dodawane słowa mają poziom ufności zero. Liczona jest jednak ilość ich wystąpień, od której zależy poziom ufności po zaakceptowaniu go przez któregoś z autorów.
Słownik jest uaktualniany i weryfikowany przez autorów interakcyjnie, lub poprzez przesyłanie zestawów aktualizujących (słów).

strona domowa

Tenar Open Source

poczta