Close

Nowak, Kowalski, a może …

Na początku sierpnia przeprowadziłem analizę imion, które to najczęściej nadawane są naszym pociechom. Aby domknąć ten temat postanowiłem przyjrzeć się drugiemu członowi identyfikacyjnemu czyli nazwisku. Na początek należy stwierdzić, że z nazwiskiem sprawa jest nieco bardziej skomplikowana. Choćby z uwagi na to, że w przypadku kobiet nazwisko może mieć typowy męski oddźwięk. Nie ma chyba też idealnego algorytmu, który pozwoliłby na bezbłędne przekształcenie kobiecego nazwiska na męski odpowiednik. Stąd w przedstawionej poniżej analizie zostały uwzględnione jedynie męskie odmiany nazwisk. Dane do analizy, tak jak w przypadku analizy imion zostały pobrane ze strony Ministerstwa Cyfryzacji i za pomocą funkcji read.table() z pakietu utlis wczytane do środowiska R.

nazwiska.df <- read.table(textfile, quote = "", header = TRUE, fill = TRUE, sep = ",", stringsAsFactors = FALSE, encoding="UTF-8")
colnames(nazwiska.df) <- c('Wojewodztwo','Kod_TERYT','Nazwisko','Liczba_wystapien')

Sprawdźmy zatem na początek, które z nazwisk są najbardziej popularne. Dokonujemy grupowania danych według nazwiska, a następnie wyznaczamy procentowy udział nazwiska w męskiej części populacji.

nazwiska.df.pl <- nazwiska.df %>% 
  group_by(Nazwisko) %>% 
  summarise(
    Liczba = sum(Liczba_wystapien)
  )
nazwiska.df.pl.all <- as.integer(sum(nazwiska.df.pl$Liczba, na.rm = TRUE))
nazwiska.df.pl['procent'] <- nazwiska.df.pl['Liczba']/nazwiska.df.pl.all * 100
Źródło danych: Ministerstwo Cyfryzacji

I cóż takiego możemy się dowiedzieć z powyższego wykresu. A to, że najpopularniejsze nazwisko w Polsce to Nowak. Nosi go jednak niewiele więcej niż 0,5% męskiej populacji. Zresztą nazwiska są znacznie bardziej rozrzedzone niż imiona, bo najpopularniejsze imiona są nadawne z blisko 5%-owym udziałem w populacji. Drugim w kolejności nazwiskiem typowym dla męskiej części populacji Polski jest Kowalski. Potem Wiśniewski, Wójcik itd. W gronie 10 najbardziej popularnych nazwisk, aż sześć kończy się na „ski”.

Aby dowiedzieć się jak sytuacja przedstawia się w każdym z województw z osobna obliczymy procent udziału dla każdego nazwiska.

nazwiska.df %>% 
  group_by(Kod_TERYT) %>% 
  summarise(
   all = sum(Liczba_wystapien, na.rm = TRUE)
  ) -> nazwiska.df.woj

nazwiska.df <- left_join(nazwiska.df,nazwiska.df.woj,by = c('Kod_TERYT'))
nazwiska.df['procent'] <- nazwiska.df['Liczba_wystapien']/nazwiska.df['all']*100

Graficznie wygląda to tak:

ggplot() + geom_polygon(data=wojewodztwa_df.x, aes(long, lat, group = group, fill=Nazwisko), color="grey") + scale_fill_brewer(palette = "YlGnBu") + geom_text(data=nazwisko.df.woj.top1,aes(long,lat,label=napis),size=4,color="orange") +  theme_void() 
Źródło danych: Ministerstwo Cyfryzacji

Podział jest widoczny. Pół Polski, a nawet więcej Nowakami „stoi” (praktycznie cała południowa i zachodnia Polska jest pod dominacją tego nazwiska). Na północy Polski (województwo pomorskie oraz warmińsko-mazurskie) dominuje klan Wiśniewskich. Z kolei część wschodnia ma swoje topowe nazwisko Dąbrowski w wojewódzwie podlaskim, oraz Wójcik w województwie lubelskim. W województwie mazowieckim dominuje Kowalski, a w kujawsko-pomorskim nazwisko Lewandowski.

A czy w poszczególnych województwach występują nazwiska, które są charakterystyczne tylko dla niego. Sprawdzamy.

library(knitr)

nazwisko.woj.single <- nazwiska.df %>% group_by(Nazwisko) %>% filter(n()==1)
nazwisko.woj.single %>% 
  group_by(Wojewodztwo) %>% 
  summarise(
    ile = n()
  ) %>% 
  ungroup() %>% kable()

Jak się okazuje oczywiście występują typowe regionalizmy. Zaskoczeniem dla mnie była jednak dość spora ilość nazwisk, które występują tylko na terenie pojedynczego województwa. Zresztą spójrzmy na wynik.

I tak np. w województwie śląskim mamy 10620 nazwisk, z którymi nie spotkamy się w żadnym innym województwie. Sprawdźmy jakie wśród tych nazwisk jest najpopularniejsze.

Źródło danych: Ministerstwo Cyfryzacji

Podobnie jak wyżej również i tu podano procentowy udział danego nazwiska w populacji męskiej danego województwa. Najpopularniejsze nazwiska wśród regionalizmów charakteryzują się występowaniem na poziomie dziesięciotysięcznych procenta. Nazwisko Wiczling w województwie pomorskim oraz nazwisko Sprancel w województwie opolskim występuje w 1 na 5882 przypadku. Nazwisko Fajkis w województwie śląskim oraz Bukłaho w podlaskim z kolei pojawia się w 1 na 8333 przypadków.

Często też zastanawiamy się skąd pochodzi nasze nazwisko. Trzeba znowu przyznać, że sytuacja dla nazwisk jest dużo bardziej skomplikowana niż dla imion. Pochodzenie nazwisk nie jest zagadnieniem genealogicznym lecz antroponimicznym, związanym z językoznawstwem. Jak można przeczytać na blogu Przodek poznanie pochodzenia nazwisk jest trudniejsze niż odnalezienie przodków czy zbudowanie olbrzymiego drzewa genealogicznego, i w wielu przypadkach wymaga wielu godzin wręcz śledczego dochodzenia. Można o tym przeczytać tutaj. Autorowi bloga Przodek udało się odnaleźć pochodzenie dla określonej liczby nazwisk, ale sposób ich podania nie jest zbytnio uporządkowany. Stąd za pomocą poniższego kodu trochę to uporządkowałem. Wpisy zostały przesortowane w kolejności alfabetycznej, więc teraz łatwiej można odszukać potencjalne znaczenie swojego nazwiska. Tabela z linkami pod kodem:

library(rvest)
library(knitr)

GetLinksFromPage <- function(numer) {
  page <- read_html(paste0("https://przodek.pl/genealogia/nazwiska/page/",numer))
  
  #szukamy okreslonych wezłów i odczytujemy adres oraz tytuł z atrybutu
  href <- page %>% 
    html_nodes("h3") %>% html_nodes("a") %>% html_attr("href")
  title <- page %>% 
    html_nodes("h3") %>% html_nodes("a") %>% html_attr("title")

  # pakujemy wszystkie linki w jedna ramke danych
  nazwiska.df <- data.frame(nazwisko=title,link=href)
  # przekazujemy ramkę danych do funkcji wywołującej
  return(nazwiska.df)
}
  
links_list <- data.frame()
for (p in 1:13) {
  links_list <- rbind(links_list,GetLinksFromPage(p))
}

Alfabetyczna tabela genealogii nazwisk:

Nazwisko Link
Anioł link
Budny link
Bartoszewski link
Barcz, Bartel, Bartelik link
Blok link
Bigus, Bigos link
Bęben, Bębenek, Bambenek link
Bytów, Bytowski link
Blumberg, Blumenberg link
Begrow, Beggerow link
Celejowski v. Celejewski h. Rawa link
Czochra link
Celejewski v. Celejowski link
Czachorowski link
Czachorowski link
Czaja link
Działoszyn link
Dzianott de Castellati link
Dymarek link
Dułak link
Damerau, Damerow link
Früböse link
Frankenstein link
Gałązka (Galonska) link
Gawliński link
Grzenia, Grzenkowicz link
Gruchała link
Ginter, Gintrowski link
Gosz, Gusz link
Gustkow, Gostkowski link
Hirsz/Hirsch link
Hom(m)el, Czmiel, Trzmiel link
Jeziorski/Jezierski h. Rogala link
Jakubowski link
Jarowicki link
Jędernal, Jędernalik, Jędrnal, Jędrnalik link
Jank, Janke, Janka link
Jutrzenka, Morgenstern link
Jażdżewski link
Korosteński/Korostyński link
Kania link
Kądziela link
Karwatka link
Koniński link
Kowalkowski link
Klin link
Knitter, Knetter link
Klepin, Klepiński link
Kosznik, Kośnik link
Kusow, Kusowski, Kuszow, Kuszowski link
Kolberg link
Kukowski link
Lipnicki link
Leciej link
Leszczyński link
Lipowicz link
Lepak link
Lubenau, Lubow link
Lilwic, Lilwitz, Lüllewitze link
Lok, Loka link
Laska, Laski link
Leczkow, Leczkowski, Leszkowski link
Lietzau link
Loll link
Lic, Lica link
Łangowski link
Łag, Łaga link
Mączka link
Mastelarz link
Maziarski link
Metzger link
Mikulski link
Maciejewski link
Matejewicz link
Masa, Massow, Massowa link
Mielewczyk, Młyński, Muński link
Myszk, Myszka link
Netreba link
Naturalny link
Obst link
Ołpiński link
Połupanówka link
Poluchowicz link
Połubiński link
Putkowski link
Page, Paga, Pagel link
Pepliński, Pelpliński link
Palberg, Palbach link
Pomyski, Pomyjski link
Piritz link
Pomezański, Pomes, Pomazany link
Polcyn, Polzin link
Reszka link
Romer link
Rusiecki link
Rudnik link
Rostan, Rostanek, Rostank, Rostankowski link
Szomański h. Jastrzębiec link
Sarzyński link
Sułów link
Surchów link
Susiec link
Salutryński link
Sieniawski link
Skąpski link
Skrzymowski link
Sobisz, Sabisz link
Steinhoff, Steinhofer, Steinow link
Schaldach, Szaldach, Przybysz, Przybycień link
Stojek, Stojke, Stojka link
Suchy, Suchorz link
Tomiński link
Wojno h. Trąby link
Wasylkowce link
Wielącza link
Wessel link
Wiesiełowski/Wiesiołowski link
Wysocki link
Weiher, Wejher, Weier, Wajer link
Witemberg link
Zadarnowski link
Zawada link
Zbijewski link
Ziegert, Cygert, Cygiert link

Dodatkowe materiały

dr hab. inż., prof. PCz (Politechniki Częstochowskiej); zainteresowania: gospodarowanie odpadami (praktyczne), danologia, analiza danych (hobbystycznie)

Leave a Reply

Your email address will not be published. Required fields are marked *