9.09.2014

菜市場名的流行--用字篇







先前讀了一篇在講美國的人名資料,從人名裡可以猜測一個人的年齡,因為名字被使用,是有其流行性質的,而流行通常只會持續一段時間,所以一個名字可能只在時代理的一小段中突然爆紅,像原文提到的Brittany,幾乎就只集中在現今約20~30歲的世代中,但是Anna卻是個歷久彌新的名字,20到60歲的Anna也只佔了全部Anna的一半而已。


他們的資料來自政府的調查資料,跨時一百多年,不過以我國政府的落後程度以及超越國際標準的個資法來說,這種資料大概也只能是衛福部的禁臠,他們可以每年來公布一下新生兒的菜市場名,不過我們想要玩玩看這樣的資料是絕對沒機會。幸好,過去大學榜單都會一次全部公布所有上榜學生的姓名,2012年後才取消,我得到了1994年至2012的聯考/指考榜單資料,去除掉非漢人姓名,以及因為亂碼造成的闕漏字,共計有140萬1784人的姓名可供分析之用。


因為是聯考榜單,所以就假設考生在當年都是18歲,那麼出現在1994年榜單上的人,今年就是38歲,或許這假設不夠完美,不過以分析趨勢來說應該相當夠用。跟歐美的姓名相比,中文方塊字下的姓名,可以以好幾個方式來分析:讀音、用字、名字。什麼意思呢?讀作xinyi的名字,可能在這近20年間都相當流行,但是,一樣是xinyi卻有各種不同的寫法:欣宜、馨儀、歆怡都是可能的組合,那這些組合用法,是不是也有其時代特性?直覺來想,「欣宜」感覺上就比其他兩個老上一些。而用字與名字就比較好懂,看到一個人叫做「淑芬」的時候(或是名字裡有用到淑、芬二字),腦子裡浮現的可能是個已經當媽的女性,而「語彤」這種偶像劇感滿點的名字,就像是個剛上國中的小妹妹。


先從用字來看,我先篩選出所有用字中最流行的前200個,然後分別計算這些字使用者的平均年齡,分別列出「最老」與「最年輕」的20個字。每根棒子的中央黑線,代表「使用這個字人們的平均年齡」,以「貞」字為例,平均年齡約為30.5歲,而上界在35歲代表「有25%的「貞」字使用者比35歲老」,下界在27歲就是「有25%的使用者比27歲年輕」,這根棒子的長度越長,代表它像Anna那樣跨越比較長的世代,反之則更像Brittany,只出現在一小段時間。








最老與最年輕的20個字,已經能看出兩代的用字品味大不相同,平均年紀最大的「淑」字,居然有25%的使用者卡在36歲以上,而在較老的用字中,「龍」字算是分布較廣的,因為資料的限制,其實可以推測「淑」字應該在40歲以上的世代更加流行,在這份資料裡的20~38歲範圍內,其實已經是進入了衰退期。的確,「淑」從每10000人中有約250人使用的榮景,掉到現在僅約20人的情況。下圖的最老15字中,沒有一個能夠逃過過氣的命運。








而在衛福部公布的新聞稿中,在2013年新生兒的流行名字中,男女各10個名字,共有22個不重複的用字,雖然我的資料只涵蓋到1994的新生兒,但是,這些用字在20年後的流行,是否是能夠預測的?從下圖可以發現,這些在2013年的流行用字,其實從1976年至1994年,其盛行率就不斷的在攀升,









報導中提到,在11~20歲世代中曾經盛行的「冠廷、雅婷、家豪、怡君」,在新生兒中已經難以見到蹤影,這個現象是否能從資料中看到端倪?從資料上看來,除了「冠廷」二字之外,其他六個用字其實大都在30~35歲這個世代過了他們的高峰期,然後開始下降,在20歲時,多數用字都來到了約10000人中有200人使用的規模,對照上面最老15字的命運,一旦開始下跌的用字,20年後(現今的新生兒)幾乎無人使用,好像也是可想而知的。



那麼,從手上這份資料,是否能夠推出未來11~20歲世代、甚至是10歲以下世代會流行什麼用字呢?如果一個字在「38至30歲世代使用率」與「30至20歲世代使用率」都增加,而使用率增加最多的,就最有可能是在接下來的世代也繼續流行的,根據計算,用增加最多的前30個用字來組合,「子瑄」、「昱璇」、「宇晴」、「品涵」、「庭瑜」,像不像你10來歲甚至更小的侄子、姪女的名字呢?


下集待續:讀音篇~

沒有留言:

張貼留言