Čitajemo slovnik medžuslovjanskogo jezyka v Python

Pozdrav, myslim že tuta programistična pouka bude koristna mnogym ljudam, ktori by htěli porabotati so slovnikom medžuslovjanskogo jezyka. Někogda jesm velmi dolgo mučil se so specialnoju bibliotekoju, s Google Aplikacijami i jih ključami, ale akoli ty hčeš prosto čitati tabelu... To jest mnogo vyše prosto.

Hvala vladateljam lista v Google Sheet, imamo svobodno opublikovany v Web fajl slovnika, i toj link možno uživati za različne cělje.

Jedinova věč ktora jest potrěbna za čitanje togo lista, jest pandas.

pip install pandas, ako li ne imajete jego

i pip install openpyxl, da by pandas mogl rabotati s xlsx

Kod za dostavanje togo lista:


x
from pandas import read_excel

dfs = read_excel(io='https://docs.google.com/spreadsheets/d/e/2PACX-1vRsEDDBEt3VXESqAgoQLUYHvsA5yMyujzGViXiamY7-yYrcORhrkEl5g6JZPorvJrgMk6sjUlFNT4Km/pub?output=xlsx',
                    engine='openpyxl',
                    sheet_name=['words', 'suggestions'])

words = dfs['words']
suggestions = dfs['suggestions']

I zaměniti puste města na někaky drugy string, da by ne bylo problemov za značenjami NAN.


xxxxxxxxxx
for name in words.columns:
    words[name] = words[name].fillna("_").astype(str)

Ravne instrukcije za list "suggestions". Samorazumno, to ne jest vam potrěbno, ako li ne hčete rabotati s njim:


xxxxxxxxxx
#Popravjajemo vsaky NAN
for name in dfs['suggestions'].columns:
    suggestions[name] = suggestions[name].fillna("_").astype(str)
        
# Nemnogo magije, da by list "suggestions" imal ravne indeksy s listom "words":
suggestions.columns = suggestions.iloc[0]
suggestions.reindex(suggestions.index.drop(0))
suggestions.rename(columns={'ids': 'id'}, inplace=True)

Nu i dobro, možno pokojno rabotati:


xxxxxxxxxx
>>> words
            id            isv  ... frequency using_example
0       5101.0       a takože  ...       1.0             _
1       1855.0              a  ...         _             _
2      24020.0           abak  ...         _             _
3       6114.0         abažur  ...         _             _
4      35658.0     abdikacija  ...         _             _
...        ...            ...  ...       ...           ...
17902  34067.0        žuvačka  ...         _             _
17903  34068.0  žuvaľna gumka  ...         _             _
17904   2627.0         žuvati  ...         _             _
17905  19473.0         žužati  ...         _             _
17906  19475.0        žuželka  ...       2.0             _

[17907 rows x 25 columns]


>>> words['isv'][10] 
'ablativ'

>>> suggestio['hr'][12101] 
'!propijati (pare), trošiti pare na piće'


>>> def slovo(i):
...     for col in words.columns[8:19]: #diapazon kolon može bytu razny
...         #print(col)
...         print( f"{col} {words[col][i]}" )
>>> slovo(55)
ru адреналин
be адрэналін
uk адреналін
pl adrenalina
cs adrenalin
sk adrenalín
bg адреналин
mk адреналин
sr адреналин
hr adrenalin
sl adrenalin


>>> words.index 
RangeIndex(start=0, stop=17907, step=1) 

>>> for i in suggestions.index[8:12]:
...     print( suggestions["isv"][i] ) 
...
sjeti (snjeti?)
snimanje
kinosnimanje
snimati

Možete stvoriti bota za iskanje slov, možete sgenerovati knižku-slovnik, može tvoriti pomočne instrumenty za ortografiju ili někako analizovati podobnost jezykov. Mnogo zajmlivyh možnostij ;)