9.26.2014

菜市場名的流行--我要上台大

0 Comments



你的父母為你取名時,並不是隨機湊一兩個字出來的,取名有時代的特色,同時也會顯示出家長的文化背景。根據台大經濟系駱明慶教授的研究<<怡君比較會考試?--- 名字、成績與家庭背景>>,若是你的名字越「菜市場」,聯考分數就傾向越低,而這其實就是家庭背景使然,越高教育程度的家庭,越不可能幫孩子取個隨處可見的名字。

而根據蘋果橘子經濟學一書中所提到的的研究內容,名字的流行,是由高至低的。也就是說,通常都是地位較高的人間,開始幫孩子取些新潮的名字,比方說"Evelyn",所以一開始,叫Evelyn的孩子平均背景都很好,隨著「有錢的Evelyn」漸漸長大, Evelyn這個名字就會開始「向下流動」,會出現「中產階級的 Evelyn」 ,漸漸的一般人、甚至窮人也開始使用Evelyn這個名字。到了這個時候,那些有錢人家也就不會再幫他們的孩子取為Evelyn了,而是找尋新的名字。

綜合這兩個事實,如果今天看到Evelyn很常見,很有可能20年前,它是個專屬於上流階層的名字,那麼在20年前的Evelyn,不論是相對於和他同時代的孩子們,或是相對於後來的那些Evelyn,他都更有可能考出好的成績。

為了驗證這個假說,我抽取了在1989到1994間出生孩子的「特有盛行用字」,什麼是「特色盛行用字」?

打個比方:1989~1994出生的小孩最常的幾個字是「婷 文 雅 佳 怡 宇 庭 家 柏 瑋」,但是全體樣本1976~1994的常用字是「 怡 文 婷 雅 佳 君 志 家 嘉 俊」,有相當部分都重複了,雖然這些年輕的孩子也會用「婷、文、雅」這些字,但不管什麼年代的人都愛用這些字,不太像是具有「年代特色」,相對的來說「柏、瑋」比較具有1989~1994的味道。

然後,我計算這些名字裡有「柏、瑋」的孩子,考上台大或國立大學的機率,也計算其他剩下的孩子的機率,然後將這兩個機率相除,如果說「柏、瑋」組考上台大的機率是3%,而其 他孩子是2%,那麼這個數值就是1.5,大於1的情況顯示出他們相對於同時代的孩子更有優勢,小於1則是居於劣勢。

結果就如同上圖,若是有孩子在1970年代就使用了1989~1994 才盛行的那些字,他們相對其他同時代的孩子,考上台大的機率多出了30%,同時他們考上國立大學的機率也略高(所以考上私立大學的機率就低了)。70年代的「柏瑋」就是一開始的"Evelyn",但是這個優勢,隨著時間慢慢的縮小,因為越來越多非天龍人也開始叫做「柏瑋」,拉低了優勢。

這張圖則是以1982~1988年之間出生孩子的「特色用字」來計算的結果,一樣在70年代,如果有孩子用了這個80才盛行的字,就有優勢,在80年代,則變成一般人(因為這些人就隨處可見了),到了90年代後還取這些「老字」的人,反而還變成了弱勢族群,考上台大或國立大學的機率都明顯較低。

那麼,哪些是我計算中的特色用字呢?
1976~1981:宏 惠 慧 明 建 惠 淑 玲 芳 世 仁 國 政 正 瑞 秀 美 華 賢 靜 中 士 娟 峰 弘 忠 慶 昌 曉 永 真 祥 良 芬 菁 萍 貞 青 麗 龍 健 光 勝 啟 富 憲 昇 昭 民 源 燕 珍 瓊 益 秋 純 耀 英 莉 蕙 貞 青 鳳 龍 一 千 吉 坤 強 彬 斌 旭 東 梅 欽 泰 清 漢 燕 玫 瓊 義 興 蘭 輝 金 鈴 錦 隆 雄 雲 鳳 麟 勇 卿 吉 和 小 嵐 幸 彬 彰 昆 春 月 朝 松 桂 淵 瑛 生 男 碧 祺 福 素 聰 蘭 超 進 邦 鋒 錦 長 雪 順 香 鵬 齡 亨 克 凌 利 南 友 嫻 寶 屏 川 州 康 懷 月 杏 林 棋 森 權 洲 炳 煌 珠 琮 琴 瑤 百 章 翠 耿 聰 茂 蓮 蘋 貴 賓 進 霞 音 佐 儷 基 堂 堅 妃 媚 守 山 川 彩 恒 斐 杏 村 楓 樹 武 海 照 熙 珠 發 聲 能 苑 訓 谷 賓 錚 錫 鐘 震 霞 鳴
1982~1988:瑋 佩 思 政 翰 依 士 筱 茹 亭 吟 昇 祐 純 耀 韻 亞 伊 堯 帆 泰 琬 致 芝 姵 尹 嵐 淵 瑾 函 妏 岑 延 恬 懷 曜 瑤 璟 茜 佐 孜 曄 耕 航 芃 菀 薏 錚
1989~1994:宇 庭 柏 瑋 冠 凱 安 庭 廷 柏 翔 儒 思 昱 翰 萱 軒 于 博 品 均 妤 恩 柔 瑄 璇 皓 緯 羽 芸 辰 韋 丞 亭 揚 昀 晴 柔 浩 睿 祐 秉 筑 綺 羽 翊 臻 芷 蓁 薇 詠 丞 亞 伊 喬 堯 婕 宣 巧 敬 方 昕 映 晉 晏 沛 泓 筑 筠 紹 致 臻 芷 融 諭 諺 謙 雨 之 亦 以 卉 叡 姵 季 宥 宸 尹 彤 念 恆 惟 愷 捷 晨 暐 楷 為 煒 瑀 瑾 禹 程 竣 綸 羿 誼 采 齊 上 予 亨 允 函 劭 妏 少 岑 崴 彤 懷 暄 曜 曼 梓 棋 榆 渝 玄 珈 瑀 璟 璿 紫 苡 茜 葳 語 錡 霆 霈 麒 乙 倢 則 加 勁 含 唯 定 崴 悅 暄 歆 沂 澄 珺 甯 登 硯 耕 耘 聿 胤 芃 芊 芯 苡 葦 薏 藝 衡 評 語 資 郡 陞 韶 騏 驊

菜市場名系列,我們下次見~

9.09.2014

菜市場名的流行--用字篇

0 Comments






先前讀了一篇在講美國的人名資料,從人名裡可以猜測一個人的年齡,因為名字被使用,是有其流行性質的,而流行通常只會持續一段時間,所以一個名字可能只在時代理的一小段中突然爆紅,像原文提到的Brittany,幾乎就只集中在現今約20~30歲的世代中,但是Anna卻是個歷久彌新的名字,20到60歲的Anna也只佔了全部Anna的一半而已。


他們的資料來自政府的調查資料,跨時一百多年,不過以我國政府的落後程度以及超越國際標準的個資法來說,這種資料大概也只能是衛福部的禁臠,他們可以每年來公布一下新生兒的菜市場名,不過我們想要玩玩看這樣的資料是絕對沒機會。幸好,過去大學榜單都會一次全部公布所有上榜學生的姓名,2012年後才取消,我得到了1994年至2012的聯考/指考榜單資料,去除掉非漢人姓名,以及因為亂碼造成的闕漏字,共計有140萬1784人的姓名可供分析之用。


因為是聯考榜單,所以就假設考生在當年都是18歲,那麼出現在1994年榜單上的人,今年就是38歲,或許這假設不夠完美,不過以分析趨勢來說應該相當夠用。跟歐美的姓名相比,中文方塊字下的姓名,可以以好幾個方式來分析:讀音、用字、名字。什麼意思呢?讀作xinyi的名字,可能在這近20年間都相當流行,但是,一樣是xinyi卻有各種不同的寫法:欣宜、馨儀、歆怡都是可能的組合,那這些組合用法,是不是也有其時代特性?直覺來想,「欣宜」感覺上就比其他兩個老上一些。而用字與名字就比較好懂,看到一個人叫做「淑芬」的時候(或是名字裡有用到淑、芬二字),腦子裡浮現的可能是個已經當媽的女性,而「語彤」這種偶像劇感滿點的名字,就像是個剛上國中的小妹妹。


先從用字來看,我先篩選出所有用字中最流行的前200個,然後分別計算這些字使用者的平均年齡,分別列出「最老」與「最年輕」的20個字。每根棒子的中央黑線,代表「使用這個字人們的平均年齡」,以「貞」字為例,平均年齡約為30.5歲,而上界在35歲代表「有25%的「貞」字使用者比35歲老」,下界在27歲就是「有25%的使用者比27歲年輕」,這根棒子的長度越長,代表它像Anna那樣跨越比較長的世代,反之則更像Brittany,只出現在一小段時間。








最老與最年輕的20個字,已經能看出兩代的用字品味大不相同,平均年紀最大的「淑」字,居然有25%的使用者卡在36歲以上,而在較老的用字中,「龍」字算是分布較廣的,因為資料的限制,其實可以推測「淑」字應該在40歲以上的世代更加流行,在這份資料裡的20~38歲範圍內,其實已經是進入了衰退期。的確,「淑」從每10000人中有約250人使用的榮景,掉到現在僅約20人的情況。下圖的最老15字中,沒有一個能夠逃過過氣的命運。








而在衛福部公布的新聞稿中,在2013年新生兒的流行名字中,男女各10個名字,共有22個不重複的用字,雖然我的資料只涵蓋到1994的新生兒,但是,這些用字在20年後的流行,是否是能夠預測的?從下圖可以發現,這些在2013年的流行用字,其實從1976年至1994年,其盛行率就不斷的在攀升,









報導中提到,在11~20歲世代中曾經盛行的「冠廷、雅婷、家豪、怡君」,在新生兒中已經難以見到蹤影,這個現象是否能從資料中看到端倪?從資料上看來,除了「冠廷」二字之外,其他六個用字其實大都在30~35歲這個世代過了他們的高峰期,然後開始下降,在20歲時,多數用字都來到了約10000人中有200人使用的規模,對照上面最老15字的命運,一旦開始下跌的用字,20年後(現今的新生兒)幾乎無人使用,好像也是可想而知的。



那麼,從手上這份資料,是否能夠推出未來11~20歲世代、甚至是10歲以下世代會流行什麼用字呢?如果一個字在「38至30歲世代使用率」與「30至20歲世代使用率」都增加,而使用率增加最多的,就最有可能是在接下來的世代也繼續流行的,根據計算,用增加最多的前30個用字來組合,「子瑄」、「昱璇」、「宇晴」、「品涵」、「庭瑜」,像不像你10來歲甚至更小的侄子、姪女的名字呢?


下集待續:讀音篇~