Nowak, Kowalski, a może ... - EKOlogicznie, Racjonalnie, DOświadczalnie

Na początku sierpnia przeprowadziłem analizę imion, które to najczęściej nadawane są naszym pociechom. Aby domknąć ten temat postanowiłem przyjrzeć się drugiemu członowi identyfikacyjnemu czyli nazwisku. Na początek należy stwierdzić, że z nazwiskiem sprawa jest nieco bardziej skomplikowana. Choćby z uwagi na to, że w przypadku kobiet nazwisko może mieć typowy męski oddźwięk. Nie ma chyba też idealnego algorytmu, który pozwoliłby na bezbłędne przekształcenie kobiecego nazwiska na męski odpowiednik. Stąd w przedstawionej poniżej analizie zostały uwzględnione jedynie męskie odmiany nazwisk. Dane do analizy, tak jak w przypadku analizy imion zostały pobrane ze strony Ministerstwa Cyfryzacji i za pomocą funkcji read.table() z pakietu utlis wczytane do środowiska R.

nazwiska.df <- read.table(textfile, quote = "", header = TRUE, fill = TRUE, sep = ",", stringsAsFactors = FALSE, encoding="UTF-8")
colnames(nazwiska.df) <- c('Wojewodztwo','Kod_TERYT','Nazwisko','Liczba_wystapien')

Sprawdźmy zatem na początek, które z nazwisk są najbardziej popularne. Dokonujemy grupowania danych według nazwiska, a następnie wyznaczamy procentowy udział nazwiska w męskiej części populacji.

nazwiska.df.pl <- nazwiska.df %>% 
  group_by(Nazwisko) %>% 
  summarise(
    Liczba = sum(Liczba_wystapien)
  )
nazwiska.df.pl.all <- as.integer(sum(nazwiska.df.pl$Liczba, na.rm = TRUE))
nazwiska.df.pl['procent'] <- nazwiska.df.pl['Liczba']/nazwiska.df.pl.all * 100

I cóż takiego możemy się dowiedzieć z powyższego wykresu. A to, że najpopularniejsze nazwisko w Polsce to Nowak. Nosi go jednak niewiele więcej niż 0,5% męskiej populacji. Zresztą nazwiska są znacznie bardziej rozrzedzone niż imiona, bo najpopularniejsze imiona są nadawne z blisko 5%-owym udziałem w populacji. Drugim w kolejności nazwiskiem typowym dla męskiej części populacji Polski jest Kowalski. Potem Wiśniewski, Wójcik itd. W gronie 10 najbardziej popularnych nazwisk, aż sześć kończy się na „ski”.

Aby dowiedzieć się jak sytuacja przedstawia się w każdym z województw z osobna obliczymy procent udziału dla każdego nazwiska.

nazwiska.df %>% 
  group_by(Kod_TERYT) %>% 
  summarise(
   all = sum(Liczba_wystapien, na.rm = TRUE)
  ) -> nazwiska.df.woj

nazwiska.df <- left_join(nazwiska.df,nazwiska.df.woj,by = c('Kod_TERYT'))
nazwiska.df['procent'] <- nazwiska.df['Liczba_wystapien']/nazwiska.df['all']*100

Graficznie wygląda to tak:

ggplot() + geom_polygon(data=wojewodztwa_df.x, aes(long, lat, group = group, fill=Nazwisko), color="grey") + scale_fill_brewer(palette = "YlGnBu") + geom_text(data=nazwisko.df.woj.top1,aes(long,lat,label=napis),size=4,color="orange") +  theme_void()

Podział jest widoczny. Pół Polski, a nawet więcej Nowakami „stoi” (praktycznie cała południowa i zachodnia Polska jest pod dominacją tego nazwiska). Na północy Polski (województwo pomorskie oraz warmińsko-mazurskie) dominuje klan Wiśniewskich. Z kolei część wschodnia ma swoje topowe nazwisko Dąbrowski w wojewódzwie podlaskim, oraz Wójcik w województwie lubelskim. W województwie mazowieckim dominuje Kowalski, a w kujawsko-pomorskim nazwisko Lewandowski.

A czy w poszczególnych województwach występują nazwiska, które są charakterystyczne tylko dla niego. Sprawdzamy.

library(knitr)

nazwisko.woj.single <- nazwiska.df %>% group_by(Nazwisko) %>% filter(n()==1)
nazwisko.woj.single %>% 
  group_by(Wojewodztwo) %>% 
  summarise(
    ile = n()
  ) %>% 
  ungroup() %>% kable()

Jak się okazuje oczywiście występują typowe regionalizmy. Zaskoczeniem dla mnie była jednak dość spora ilość nazwisk, które występują tylko na terenie pojedynczego województwa. Zresztą spójrzmy na wynik.

I tak np. w województwie śląskim mamy 10620 nazwisk, z którymi nie spotkamy się w żadnym innym województwie. Sprawdźmy jakie wśród tych nazwisk jest najpopularniejsze.

Podobnie jak wyżej również i tu podano procentowy udział danego nazwiska w populacji męskiej danego województwa. Najpopularniejsze nazwiska wśród regionalizmów charakteryzują się występowaniem na poziomie dziesięciotysięcznych procenta. Nazwisko Wiczling w województwie pomorskim oraz nazwisko Sprancel w województwie opolskim występuje w 1 na 5882 przypadku. Nazwisko Fajkis w województwie śląskim oraz Bukłaho w podlaskim z kolei pojawia się w 1 na 8333 przypadków.

Często też zastanawiamy się skąd pochodzi nasze nazwisko. Trzeba znowu przyznać, że sytuacja dla nazwisk jest dużo bardziej skomplikowana niż dla imion. Pochodzenie nazwisk nie jest zagadnieniem genealogicznym lecz antroponimicznym, związanym z językoznawstwem. Jak można przeczytać na blogu Przodek poznanie pochodzenia nazwisk jest trudniejsze niż odnalezienie przodków czy zbudowanie olbrzymiego drzewa genealogicznego, i w wielu przypadkach wymaga wielu godzin wręcz śledczego dochodzenia. Można o tym przeczytać tutaj. Autorowi bloga Przodek udało się odnaleźć pochodzenie dla określonej liczby nazwisk, ale sposób ich podania nie jest zbytnio uporządkowany. Stąd za pomocą poniższego kodu trochę to uporządkowałem. Wpisy zostały przesortowane w kolejności alfabetycznej, więc teraz łatwiej można odszukać potencjalne znaczenie swojego nazwiska. Tabela z linkami pod kodem:

library(rvest)
library(knitr)

GetLinksFromPage <- function(numer) {
  page <- read_html(paste0("https://przodek.pl/genealogia/nazwiska/page/",numer))
  
  #szukamy okreslonych wezłów i odczytujemy adres oraz tytuł z atrybutu
  href <- page %>% 
    html_nodes("h3") %>% html_nodes("a") %>% html_attr("href")
  title <- page %>% 
    html_nodes("h3") %>% html_nodes("a") %>% html_attr("title")

  # pakujemy wszystkie linki w jedna ramke danych
  nazwiska.df <- data.frame(nazwisko=title,link=href)
  # przekazujemy ramkę danych do funkcji wywołującej
  return(nazwiska.df)
}
  
links_list <- data.frame()
for (p in 1:13) {
  links_list <- rbind(links_list,GetLinksFromPage(p))
}

Alfabetyczna tabela genealogii nazwisk:

Nazwisko	Link
Anioł	link
Budny	link
Bartoszewski	link
Barcz, Bartel, Bartelik	link
Blok	link
Bigus, Bigos	link
Bęben, Bębenek, Bambenek	link
Bytów, Bytowski	link
Blumberg, Blumenberg	link
Begrow, Beggerow	link
Celejowski v. Celejewski h. Rawa	link
Czochra	link
Celejewski v. Celejowski	link
Czachorowski	link
Czachorowski	link
Czaja	link
Działoszyn	link
Dzianott de Castellati	link
Dymarek	link
Dułak	link
Damerau, Damerow	link
Früböse	link
Frankenstein	link
Gałązka (Galonska)	link
Gawliński	link
Grzenia, Grzenkowicz	link
Gruchała	link
Ginter, Gintrowski	link
Gosz, Gusz	link
Gustkow, Gostkowski	link
Hirsz/Hirsch	link
Hom(m)el, Czmiel, Trzmiel	link
Jeziorski/Jezierski h. Rogala	link
Jakubowski	link
Jarowicki	link
Jędernal, Jędernalik, Jędrnal, Jędrnalik	link
Jank, Janke, Janka	link
Jutrzenka, Morgenstern	link
Jażdżewski	link
Korosteński/Korostyński	link
Kania	link
Kądziela	link
Karwatka	link
Koniński	link
Kowalkowski	link
Klin	link
Knitter, Knetter	link
Klepin, Klepiński	link
Kosznik, Kośnik	link
Kusow, Kusowski, Kuszow, Kuszowski	link
Kolberg	link
Kukowski	link
Lipnicki	link
Leciej	link
Leszczyński	link
Lipowicz	link
Lepak	link
Lubenau, Lubow	link
Lilwic, Lilwitz, Lüllewitze	link
Lok, Loka	link
Laska, Laski	link
Leczkow, Leczkowski, Leszkowski	link
Lietzau	link
Loll	link
Lic, Lica	link
Łangowski	link
Łag, Łaga	link
Mączka	link
Mastelarz	link
Maziarski	link
Metzger	link
Mikulski	link
Maciejewski	link
Matejewicz	link
Masa, Massow, Massowa	link
Mielewczyk, Młyński, Muński	link
Myszk, Myszka	link
Netreba	link
Naturalny	link
Obst	link
Ołpiński	link
Połupanówka	link
Poluchowicz	link
Połubiński	link
Putkowski	link
Page, Paga, Pagel	link
Pepliński, Pelpliński	link
Palberg, Palbach	link
Pomyski, Pomyjski	link
Piritz	link
Pomezański, Pomes, Pomazany	link
Polcyn, Polzin	link
Reszka	link
Romer	link
Rusiecki	link
Rudnik	link
Rostan, Rostanek, Rostank, Rostankowski	link
Szomański h. Jastrzębiec	link
Sarzyński	link
Sułów	link
Surchów	link
Susiec	link
Salutryński	link
Sieniawski	link
Skąpski	link
Skrzymowski	link
Sobisz, Sabisz	link
Steinhoff, Steinhofer, Steinow	link
Schaldach, Szaldach, Przybysz, Przybycień	link
Stojek, Stojke, Stojka	link
Suchy, Suchorz	link
Tomiński	link
Wojno h. Trąby	link
Wasylkowce	link
Wielącza	link
Wessel	link
Wiesiełowski/Wiesiołowski	link
Wysocki	link
Weiher, Wejher, Weier, Wajer	link
Witemberg	link
Zadarnowski	link
Zawada	link
Zbijewski	link
Ziegert, Cygert, Cygiert	link

Nowak, Kowalski, a może …

Dodatkowe materiały

About Jurand Bień

Leave a Reply Cancel reply

Dodatkowe materiały

About Jurand Bień

You Might Also Like

Leave a Reply Cancel reply