當前位置:首頁 > 教育部司局機構(gòu)

2009年中國語言生活狀況報告

一、總貌

2009年的中國語言生活,呈現(xiàn)出和諧有序、健康穩(wěn)健、生機勃勃的發(fā)展態(tài)勢。語言文字工作亮點突出,成效顯著,引起社會廣泛關注。民族語文工作多方面開展,新聞出版、廣播電視領域進一步加強了對語言使用的管理,漢語國際傳播規(guī)模穩(wěn)步擴大,海外華文教育迎來難得的發(fā)展機遇。年度語言熱點不斷涌現(xiàn),語言生活出現(xiàn)新領域和新動向。

 

二、領域語言

(一)語言文字工作

語言文字應用管理工作不斷拓展 截至2009年年底,城市語言文字工作評估通過認定而達到標準的二類城市有32個,一二類城市全部達標的省份1個,三類城市88個。已認定的省、市級語言文字規(guī)范化示范學校累計近1.3萬所,教育部、國家語委認定的國家級語言文字規(guī)范化示范學校426所。開展公務員普通話水平測試的城市173個,開展窗口行業(yè)普通話測試的城市達176個、219 607人次,參加漢字應用水平試點測試的達25 577人,參加“中華誦·經(jīng)典誦讀”大賽的超過840余萬人。教育部語言文字應用管理司在全國8個?。ㄗ灾螀^(qū))共舉辦少數(shù)民族教師普通話培班11期,培訓教師964。

據(jù)國家語委組織的全國16個城市的外文使用情況調(diào)查數(shù)據(jù)顯示:全國外文平均使用率達31%,英語使用占全部外語語種的82.77%

語言文字信息管理工作深入推進  2009發(fā)布了《漢字部首表》《GB13000.1字符集漢字部首歸部規(guī)范》《現(xiàn)代常用字部件及部件名稱規(guī)范》和《現(xiàn)代常用獨體字規(guī)范》4項國家語委規(guī)范;以《中國語言生活綠皮書》的形式,發(fā)布了6項規(guī)范草案。天津市語言文字培訓測試中心受國家語委委托研制的“漢語口語水平測試(母語非漢語)標準研究”項目,通過專家鑒定。

教育部、國家語委發(fā)布了2008年度中國語言生活狀況報告。與相關單位聯(lián)合發(fā)布了“2008年度中國主流媒體十大流行語”“2009年度中國主流媒體十大流行語”。國家語言資源監(jiān)測與研究中心少數(shù)民族語言分中心的維吾爾語文研究基地和藏語文研究基地分別在西北民族大學和新疆師范大學成立。中國語言資源有聲數(shù)據(jù)庫建設江蘇省首批試點通過驗收,第二批試點工作啟動;少數(shù)民族語言有聲數(shù)據(jù)庫建設試點工作在云南啟動。中國語言資源有聲數(shù)據(jù)庫建設的技術(shù)規(guī)范、工作規(guī)范研制完成。

民族語文工作多方面開展 20097月國務院發(fā)布了《國務院關于進一步繁榮發(fā)展少數(shù)民族文化事業(yè)的若干意見》,其中四條與少數(shù)民族語言文字工作有關。在教育部語信司支持下,“全國彝語術(shù)語標準化工作委員會”11月在西南民族大學成立?!安?、維、彝民語語音參數(shù)數(shù)據(jù)庫”“漢藏語系語言詞匯語音數(shù)據(jù)庫”等多項教育部、國家語委民族語言文字規(guī)范標準建設及信息化項目結(jié)項。文化部全國文化信息資源建設管理中心2009年啟動了康巴藏語節(jié)目的譯制工作。

新聞出版語文工作取得實效 據(jù)2009年的報告顯示,2008年度全國教育教學輔助類報紙編校質(zhì)量穩(wěn)步上升,全國行業(yè)報(部分)編校質(zhì)量普遍提高。

地方語言文字工作 為了迎接2010年上海世界博覽會,上海市語言文字工作委員會、教育委員會、質(zhì)量技術(shù)監(jiān)督局于2009年制定了上海地方標準《公共場所英文譯寫規(guī)范》。上海市語委采取多種形式,在全市開展公共場所英文使用規(guī)范化專項整治行動,取得了階段性成果。2009年,天津市語言文字培訓測試中心受國家語委委托,在馬來西亞成功舉行了兩場普通話水平測試,引起了強烈反響。中華經(jīng)典誦讀基地在蘇州建立。朗誦水平等級考試在上海開展。

(二)廣播電影電視及網(wǎng)絡語言

廣電總局出臺嚴格控制電視劇使用方言的新措施  針對我國電視劇大量使用方言的問題,國家廣播電影電視總局辦公廳20097月下發(fā)了《關于嚴格控制電視劇使用方言的通知》。

網(wǎng)絡語言使用狀況調(diào)查  據(jù)2009年進行的一項問卷調(diào)查,經(jīng)常使用網(wǎng)絡語言的占樣本總數(shù)的31.3%,有時使用的占50.0%,很少使用的占15.6%,從來不用的占3.1%。

(三)語言教育與語言傳播

漢語國際傳播規(guī)模穩(wěn)步擴大  2009年在全球金融危機背景下,漢語國際傳播仍穩(wěn)步發(fā)展。截至200912月,在88個國家開設孔子學院282所、孔子課堂272個,孔子學院專職兼職教職工約3 100人。中國向109個國家派出教師2 060名,向71個國家派出漢語志愿者教師2 740名,向104個國家2 500多所主流學校贈送教材、圖書和音像資料315萬冊。2009年中外雙方對孔子學院共投入資金1.19億美元。

海外華文教育的新機遇  隨著中國的崛起,華人在國際上的地位提高,許多國家政府部門開始理解并支持華文教育。華人社會捐資助學、興辦華文教育的熱情空前高漲。2009年國務院僑務辦公室和中國海外交流協(xié)會,將原來不定期召開的國際華文教育研討會改為兩年一屆的世界華文教育大會。

 

三、新領域和新動向

法庭審判中少數(shù)民族語言使用問題 據(jù)內(nèi)蒙古自治區(qū)高級人民法院統(tǒng)計,該自治區(qū)現(xiàn)有19個沿邊法院,25個牧區(qū)法院,轄區(qū)總?cè)丝?SPAN>608.3萬人,占全區(qū)總?cè)丝诘?SPAN>26%,這些法院普遍缺少能夠使用少數(shù)民族語言主持訴訟活動的審判人員。全區(qū)現(xiàn)有法官5600多人,蒙漢雙語兼通的法官僅有421人,占全部法官數(shù)的7.5%。雙語兼通的法官數(shù)量遠遠不能滿足民族地區(qū)雙語訴訟審判的需要。

語言信息產(chǎn)業(yè)中的喜與憂  喜:機器翻譯的發(fā)展推動了多語言信息服務產(chǎn)業(yè)的發(fā)展。“面向奧運的多語言智能信息服務網(wǎng)絡系統(tǒng)”成功為北京奧運會提供了奧運信息和城市信息的多語言服務,還將在2010年上海世界博覽會以及今后各類大型國際體育文化商業(yè)交流活動中提供多語言信息服務。憂:最近五六年,中國字庫產(chǎn)業(yè)急劇萎縮,字庫行業(yè)的很多優(yōu)秀人才紛紛改行。究其原因是為盜版所累。

手語使用及相關問題  在文化、醫(yī)療、社會保障、體育、商業(yè)、社會服務等各個行業(yè),由于缺乏手語翻譯人員,聽障人士難以與外界進行有效溝通。我國現(xiàn)有的手語翻譯基本都是由聾校老師和殘聯(lián)工作人員兼職承擔,遠遠滿足不了2 000多萬聾人的需求。

 

、報紙、廣播電視、網(wǎng)絡(新聞)語言文字使用的若干數(shù)據(jù)

報紙、廣播電視、網(wǎng)絡(新聞)的年度用字用語狀況,可以反映媒體年度的語言使用實態(tài),也可以透過這些字詞語的使用狀況看到年度的社會熱點、重大事件等。2009年度的用字用語調(diào)查是在國家語言資源監(jiān)測語料庫2009年度的語料上進行的,語料涵蓋平面媒體、有聲媒體、網(wǎng)絡媒體(新聞)三種,共計1 249 387個文本文件, 1 007 019 960字次。

今年適逢年度《中國語言生活狀況報告》發(fā)布五周年,國家語言資源監(jiān)測與研究中心特意對2005-2009年度的用字用語進行了比較。歷時五年的語料積累,既可以用來反映五年共時的語言生活,也可以通過對比分析來反映五年歷時的語言變化。今年發(fā)布的報告,對2005-2009年的字詞語調(diào)查數(shù)據(jù)進行了比較,從共時、歷時兩個角度對五年的字詞語使用狀況進行了分析。

(一)漢字使用情況

1. 年度高頻字數(shù)量穩(wěn)定,字種數(shù)量有所增加

2009年度語料中共出現(xiàn)10 204個字種,高頻漢字數(shù)量穩(wěn)定,覆蓋率達到80%、90%、99%的字種數(shù)分別為602970、2 400個。

體現(xiàn)2009年度生活的漢字使用頻率有所增加,比如“汶、嬰、杭、飆、碳、迪、拓、旱、悍、蒜”等,在年度用字總表中的排序較往年有較大幅度的前提。

2009年度使用的字種數(shù)量是歷年調(diào)查中最多的。這與當年語言生活中的漢字“繁簡之爭”,“《通用規(guī)范漢字表》(征求意見稿)公開征求意見”,以及網(wǎng)絡中漢字使用追求標新立異有關。低頻字數(shù)量多,漢字總表中覆蓋率達到99.99%的漢字共計5336個,若將覆蓋率達到99.99%之后所有漢字看作低頻字,則2009年度的低頻字占漢字總數(shù)的47.71%。

2009年度用字總表中,包括了繁體字、異體字、不規(guī)范的類推簡化字、舊計量單位用字、日本漢字等共計1804個,占全部年度用字的17.68%。

2. 五年用字總表的高頻字穩(wěn)定,年度特色用字使用頻率變化較大

五年的用字調(diào)查顯示,覆蓋率達到80%、90%、99%的漢字個數(shù)分別在581602、934971、23142400之間,其占漢字總數(shù)的比例分別沒有超過7.15%、11.49%、28.47%,也就是說每一年不超過用字總量30%的高頻漢字覆蓋了全部語料的99%。因此高頻字的使用數(shù)量相對穩(wěn)定。同時,每年前3500個漢字中,有3358個漢字是相同的,使用的字種也具有穩(wěn)定性。

對比每一年的用字總表,高頻用字使用頻率變化最大的漢字往往體現(xiàn)了年度的語言生活特點,低頻用字使用偶發(fā)性較強,多用于專名。

3. 年度用字總表與現(xiàn)行規(guī)范字表之間的差異大于年度字表之間的差異

五個年度的用字調(diào)查表明,年度用字表前2500字與一級常用字之間的差異字種數(shù)在342357個之間,前3500字與《現(xiàn)代漢語常用字表》之間的差異字種數(shù)在388401個之間,前7000字與《現(xiàn)代漢語通用字表》差異字數(shù)在506725個之間,而每一年度《現(xiàn)代漢語通用字表》中未出現(xiàn)在語料中的漢字個數(shù)在160244個之間,有47個漢字在五年全部字表中均未出現(xiàn)。

比較年度的用字總表與現(xiàn)行規(guī)范字表,媒體語料用字的相同性要大于媒體用字與現(xiàn)行規(guī)范字表之間的相同性。在媒體語料五年都出現(xiàn)的漢字中,有661個漢字沒有在《現(xiàn)代漢語通用字表》出現(xiàn)。

(二)詞語使用情況

1. 年度詞語使用總體相同性小,高頻詞語的變化體現(xiàn)年度特色

調(diào)查中由分詞軟件對語料切分得到的總詞語數(shù)共計592 414 821詞次,詞種數(shù)計2 348 100個。其中在報紙、廣播電視、網(wǎng)絡(新聞)三類媒體都出現(xiàn)的詞種數(shù)共計193 416個。

覆蓋率達到90%的高頻詞語共計12 517個,剔除其中的一些專名、時間表達式等,在高頻詞語表中列出了11 635個詞語。

高頻詞語表的變化體現(xiàn)了年度特色。2009年度,新進入到高頻詞語表中的包括“閱兵、世博、假幣、抗旱、哥本哈根、低俗、日全食、貝盧斯科尼、水價、獻禮”等;與往年高頻詞語相比,2009年度使用頻率變化較大的詞語包括“流感、世博、復蘇、60年、經(jīng)濟危機、全運會、購置稅、奧巴馬、下鄉(xiāng)、回暖”等,這些詞語如實記錄了2009年度社會生活。

語料中使用的成語種數(shù)是3 736個,總次數(shù)為1 680 701次,占全部語料總詞次數(shù)的0.28%。成語的詞長分布在3-8字之間,其中4字詞占全部成語種數(shù)的98.47%。高頻詞語中的成語共有27個,占高頻詞語詞種數(shù)的0.22%

2.五年詞語比較,總體變化大,高頻詞語使用穩(wěn)定,高頻詞語的微變體現(xiàn)年度特色

2005-2009年度的詞語調(diào)查中,每年的詞種數(shù)在165235萬之間,其中五年都使用的詞種個數(shù)為330 422個,占全部詞種數(shù)的比例在14%20%之間。三類媒體五年都使用的詞種數(shù)共計72 641個,占全部詞種數(shù)的比例在3.09%4.4%之間。反映出不同媒體、不同年度詞語使用的共性小,年度詞語使用變化較大。

高頻詞語的使用具有較強的穩(wěn)定性。2005-2009年度覆蓋率達到90%的高頻詞語穩(wěn)定在12 000個左右,其中五年都使用的詞種數(shù)共計9 933個,約占高頻詞語的80%。高頻詞語的用字穩(wěn)定在2 600個左右,詞長分布在19字之間,其中詞長為2字、3字的詞語占全部高頻詞語的80%左右,長詞多為專名或時間表達式。

年度之間高頻詞語的差別體現(xiàn)了年度生活,這些差別體現(xiàn)在詞語使用的頻率變化上,使得一些原本不很高頻的詞語進入到高頻范圍,一些原本就在高頻詞語中的詞語排序前提。

3. 流行語

2009年度中國媒體十大流行語”分8個常規(guī)類目和5個特色專題。8個常規(guī)類目是綜合類、國際時政類、國內(nèi)時政類、經(jīng)濟類、科技類、社會生活類、文化教育類和體育娛樂類;5個特色專題包括“新中國成立60周年專題”“兩岸及港澳專題”“環(huán)保專題”“甲型H1N1流感專題”和“社會問題專題”。

4.新詞語

2009年度語料中共提取出新詞語396條。

就詞語長度看,具有優(yōu)勢的依次是三字、二字、四字詞,其中三字詞語占51.01%就詞語構(gòu)成材料看,完全由漢字構(gòu)成的新詞語有390條,占98.48%。就結(jié)構(gòu)方式看,有兩點值得注意:一是除傳統(tǒng)的偏正式能產(chǎn)性最高、占總詞數(shù)的53.54%外,后附加式合成詞比例較大,占26.77%;類后綴構(gòu)詞仍以這幾年居高不下的“~門、~族、~客、~奴、~友”等為主;二是2009年新詞語中疊音方式構(gòu)成的詞明顯增多,如“樓歪歪、橋粘粘、墻脆脆”等。就使用頻次分布看,2009年度新詞語出現(xiàn)頻次分布狀況仍是兩頭小、中間大,即特別高頻和特別低頻的詞語都不多。

從社會語言學角度進行分析,2009年度新詞語有如下三個明顯特點。一是反映社會問題的詞語以某些格式為標志形成詞語群,如“被××”詞語群、“樓××”詞語群、“執(zhí)法”詞語群等。二是體現(xiàn)“以人為本”理念,反映多元人群的詞語增多。僅以“族、客、友、男、女、派、黨、二代”為標記的就有80條,加上其他表人群分類的,共有116條,占新詞語總數(shù)的28.86%。三是網(wǎng)絡詞語與社會生活詞語的迅速融合。2009年,所有能夠產(chǎn)生社會性傳播效果的事件幾乎都源自互聯(lián)網(wǎng)的揭示和推動,而后迅速被各種傳統(tǒng)媒體引用、傳播,網(wǎng)絡和傳統(tǒng)媒體相互作用,相互借力,這些詞語甚至成為描述2009年社會生活的流行語。

 

五、中文博客用字用語專項調(diào)查數(shù)據(jù)

今年,以2009年度的博客語料為基礎,專門對中文博客進行了多角度的分析和調(diào)查,調(diào)查內(nèi)容包括博客用戶發(fā)帖情況、博客用字用語情況以及博客標簽使用情況。

博客語料采自新浪博客和搜狐博客,包括171 160個博客用戶全年發(fā)布的共計12 158 037個博客帖,平均每個用戶71個博客帖,共12 362 687 048字符次,其中漢字9 889 496 758字次。

(一)發(fā)帖量

統(tǒng)計結(jié)果表明,年發(fā)帖量小于或等于50的用戶占總用戶數(shù)的58.56%,發(fā)帖量小于或等于100的用戶占總用戶數(shù)的84.74%。

(二)機構(gòu)名、地名、人名使用情況

從機構(gòu)名類型所分布的情況發(fā)現(xiàn),博客作者關注更多的是與時事、政治、軍事等相關的領域,其次是與傳媒、金融、教育等相關的話題。

在前50個高分布率地名中,中國國內(nèi)地名34個,國外地名16個,國外地名多為國家名,城市名中僅 “紐約” 1個。中國國內(nèi)地名中,省、自治區(qū)名16個,其中“臺灣”、“四川”、“廣東”居前三位;城市名16個,“北京”、“上?!本铀谐鞘忻陌袷?,“香港”名列第三位。

分析前50個高分布率人名:(1)從國別上看,國內(nèi)人名占絕大多數(shù),有39個,國外人名有11個。比較國內(nèi)外人名可以發(fā)現(xiàn):第一、國內(nèi)沒有經(jīng)濟界人名進入前50個高分布率人名中,而國外人名居首的是經(jīng)濟界名人“巴菲特”,其次才是政治界名人“布什”。第二、國外沒有影視娛樂界人名進入前50,而國內(nèi)影視娛樂界人名卻占很大優(yōu)勢,共11個。第三、在11個國外人名中,有2個是宗教人名,國內(nèi)人名中則為先秦諸子,如“孔子”“孟子”“莊子”等。(2)從人物身份所屬類別上看,居前幾位的都是近現(xiàn)代政治人物,其中“毛澤東”“胡錦濤”“溫家寶”“鄧小平”“蔣介石”“周恩來”6位進入了人名前10位。分析類別可以發(fā)現(xiàn),博客作者在人名的關注上存在一個傾向,即政治人物>歷史人物>娛樂界人物>文學界人物>體育界人物。

(三)博客標簽調(diào)查

博客標簽體現(xiàn)了博客所關注的主題,博客用戶可以為發(fā)布的每篇日志添加一個或多個標簽。

出現(xiàn)頻次最高的十個單字標簽是:愛、詩、我、性、夢、家、雪、雨、詞、花。

出現(xiàn)頻次最高的十個雙字標簽是:雜談、情感、文化、股票、娛樂、財經(jīng)、教育、育兒、休閑、健康。

出現(xiàn)頻次最高的十個三字標簽是:互聯(lián)網(wǎng)、小沈陽、情人節(jié)、我記錄、章子怡、毛澤東、劉德華、張柏芝、奧巴馬、鄧玉嬌。

出現(xiàn)頻次最高的十個四字標簽是:生活記錄、感悟隨筆、金融危機、親情友情、東方神起、人體藝術(shù)、招標文件、文學原創(chuàng)、操作策略、非誠勿擾。

 

六、基礎教育階段小學語文教材漢字使用調(diào)查

調(diào)查涉及8套小學語文教材。其中中國大陸6套、中國臺灣1套、中國香港1套。中國大陸教材中屬新課標版的3套,義務教育版的3套。

調(diào)查采用的是位序調(diào)查法,即統(tǒng)計首次出現(xiàn)的生字,先按冊序,次按課文序,再按一篇課文內(nèi)的生字先后排序。8套教材的生字位序之和除以教材總套數(shù),即可得到每個漢字的位序值。

(一)字量調(diào)查

8套教材共出現(xiàn)不同的漢字字種3855個。生字出現(xiàn)最多的是人教社的新課標版,為2997個;最少的是臺灣的康軒版,為2328個。8套教材皆有的生字為1397個,占總生字數(shù)的36.24%;只在一套教材中出現(xiàn)的生字有505個,占總生字數(shù)的13.1%。顯示各教材生字總量相差不大,但在選取哪些漢字上差異則相當大。

只出現(xiàn)在一套教材的有505個獨用字,其中28個屬于《現(xiàn)代漢語常用字表》2500個“常用字”范圍,有169個屬于1000個“次常用字”范圍,296個在“常用字”和“次常用字”范圍之外。

通過對總字次、總字種數(shù)、共用、部分共用、獨用情況的調(diào)查,可以發(fā)現(xiàn)生字教學用字的兩個特點:(1)每套教材的生字總字種數(shù)相差不大;(2)教材之間的生字字種差異大。

(二)首現(xiàn)生字調(diào)查

一個漢字首次出現(xiàn)在生字教學用字中,即為“首現(xiàn)生字”。首現(xiàn)生字的調(diào)查結(jié)果顯示:

1.漢字教學的高峰集中在第23、4學期,即小學一年級下學期與二年級全年。第1112學期即六年級,漢字教學的份量明顯下降。有的是到高年級沒有再安排生字教學,有的是只有漢字復現(xiàn)式教學。

2.第1學期生字占的份量不算最多,是因為第1學期前半期都安排了拼音教學。

3.人教新課標版的生字教學字量起伏最大。在第2學期安排的漢字教學量明顯高出其他教材。

4.康軒版的首現(xiàn)漢字分布最為平緩。在12個學期基本上是均勻地進行漢字教學,最少的102字,最多的253字,呈現(xiàn)出中間略微突起、兩端稍稍下傾的平緩延伸線。

1冊的首現(xiàn)生字,反映的是整個小學漢字教學起始階段學習的漢字。8套教材第1冊的首現(xiàn)生字共有773個,在8套教材都出現(xiàn)的有33個,在7套教材出現(xiàn)的有38個,只在1套教材出現(xiàn)的為299個。第1冊共用生字的比例遠遠低于整個小學階段共用生字的比例,為4.27%36.24%;第1獨用字的比例遠遠高于整個小學教材獨用字的比例,為38.68%13.10%。表現(xiàn)出漢字學習初始階段的差異大于整個小學階段的生字學習差異的特點。

 

七、少數(shù)民族語言(藏語、維吾爾語)用詞狀況調(diào)查

本次調(diào)查涉及藏文及維吾爾文兩個文種,由國家語言資源監(jiān)測與研究中心少數(shù)民族語言分中心(中央民族大學)及藏語文基地(西北民族大學)、維吾爾語文基地(新疆師范大學)共同完成。

(一)小學藏語文新課標教材用詞調(diào)查

本次調(diào)查以青海民族出版社20095月出版的五?。▍^(qū))藏《語文》實驗教科書為對象,主要包括課文生詞和課文用詞兩方面調(diào)查內(nèi)容。

1. 課文生詞

課文生詞指課后生詞表中出現(xiàn)的詞。調(diào)查顯示:教材中第112冊共有2 255個課文生詞。

調(diào)查結(jié)果顯示,藏語文教材各冊課文生詞中雙音節(jié)詞均占優(yōu)勢。將各詞長按所占比例排序,順序依次為:雙音節(jié)詞、單音節(jié)詞、三音節(jié)詞、四音節(jié)詞。其中單音節(jié)和雙音節(jié)詞共計2164個,占生詞總數(shù)的95.96%。這體現(xiàn)了基礎教育階段的詞匯學習以常用和較簡單的詞匯為主。

在對課文生詞在課文中出現(xiàn)的頻次進行統(tǒng)計時發(fā)現(xiàn):從詞長1到詞長4,生詞長度越長,使用頻次越低。

2. 課文用詞

課文用詞是指在課文中出現(xiàn)的所有詞種。調(diào)查顯示:全部12冊教材共出現(xiàn)詞種9 224條,詞次總數(shù)97 366。由于動詞存在“三時一式”的形態(tài)變化,前后綴形成的派生詞大量存在,使得課文用詞種數(shù)遠大于課文生詞種數(shù)。課文詞種數(shù)的分布整體呈上升趨勢,隨著年級的升高,學習的詞種數(shù)逐漸增加,這種循環(huán)漸進的教學模式有利于學生的學習。

調(diào)查項目還包括各課文體裁詞種數(shù)、各冊詞種數(shù)、詞總數(shù)及各冊獨用詞統(tǒng)計、詞頻統(tǒng)計,以及前500高頻詞調(diào)查等。

本次調(diào)查是我國首次就少數(shù)民族語言教育教材的使用狀況進行調(diào)查,為教材的客觀評價提供了定量參考,為藏文量化字詞教學目標的制定提供了依據(jù),也為今后更好地提高藏語文教材的編寫質(zhì)量奠定了一定的基礎。

(二)維吾爾文網(wǎng)站用詞調(diào)查

本次調(diào)查涉及“新疆政府網(wǎng)”、“昆侖網(wǎng)”、“天山網(wǎng)”、“新疆信息網(wǎng)”、“新疆友通電子科技”、“新疆哲學社會科學網(wǎng)”、“教師網(wǎng)”、“莎車教育網(wǎng)”及“維吾爾醫(yī)學”等9家維吾爾文網(wǎng)站,語料采集的時間跨度為20064月至200912月,語料內(nèi)容為與大眾日常生活密切相關的政治、經(jīng)濟、科學研究、教育、健康等多個領域??傉Z料詞符種數(shù)197 687條、詞符頻次5 473 792、文本數(shù)15 878個。具體調(diào)查結(jié)果如下:

1. 符號調(diào)查

本次調(diào)查的維吾爾文符號包括標點、數(shù)字和其他符號(不含不可顯示的字符、空格符等)。調(diào)查中共出現(xiàn)38種符號,占詞符總數(shù)的0.02%;出現(xiàn)頻次為1 368 520頻次,占詞符總頻次的25.00%。

2. 詞尾調(diào)查

現(xiàn)代維吾爾文的詞形變化豐富,通過綴接不同的詞尾表示詞與詞之間各種不同的語法關系。如?????(你們)加詞尾-??后,原詞語變成???????(你們認為)。本次調(diào)查詞尾頻次總數(shù)為118 848條,詞尾種數(shù)為4 448種,其中頻次超過萬次以上詞尾種數(shù)為32種,如具有雙重功能附加成分的詞尾-??”; 同時體現(xiàn)一個以上的語法功能的詞尾-???”等。

3. 詞干調(diào)查

維吾爾語詞干可分為純詞干和去尾詞干。由詞根或詞根綴接詞綴直接形成詞語的詞干稱為純詞干;而將去除詞尾的詞干稱為去尾詞干。這種去尾詞干的存在是由黏著語的特點所決定的。本次調(diào)查對去尾詞干的統(tǒng)計是在對維吾爾語詞的詞形還原后進行的,例如:????????(工人的)一詞,去掉詞尾???后的詞干是?????(工人)。本次調(diào)查統(tǒng)計得到純詞干24 149種,去尾詞干20 111種。然而,純詞干和去尾詞干有部分詞形相同,總詞干是指濾除純詞干和帶尾詞干重疊部分后的所有純詞干和帶尾詞干,統(tǒng)計得到的總詞干31 452種。

4. 用詞調(diào)查

用詞調(diào)查項目包括詞在語料中出現(xiàn)的頻次、頻率、詞語長度、文本數(shù)等。在用詞調(diào)查項目中共得到詞種數(shù)197 649條、詞頻410 5267。具體可從以下幾個方面來分析維吾爾語的網(wǎng)絡用詞情況:

1)詞語分頻段使用情況:統(tǒng)計結(jié)果顯示,維吾爾語中的低頻詞種數(shù)量龐大,其中頻次為1的詞占總詞種數(shù)的50.58%,頻次不超過10的詞語占總詞語種數(shù)的86.48%。

2)詞語中首字母與詞種數(shù)分布情況:以 、、??、?、、?、??8個字母開始的詞種數(shù)量達萬種以上,以  ??、?、?、 等字母開始的詞種數(shù)量在千條以下,而以其他字母開始的詞種數(shù)量都在2 252條至8 097條之間。

3)詞種使用情況:統(tǒng)計結(jié)果顯示了維吾爾語用詞相對集中的特點。詞頻累加覆蓋率為10%時使用詞種僅27種,占全部用詞種數(shù)的0.02%;而詞頻累加覆蓋率為90%時的詞種數(shù)量為21 607,僅占全部語料詞種數(shù)的10.93%。

4)高頻詞使用情況:高頻詞指在調(diào)查語料中詞頻累加覆蓋率達到90%的全部用詞。統(tǒng)計結(jié)果顯示高頻詞的詞種數(shù)為21 607條,占全部詞種數(shù)的10.93%。

5)詞長分布情況:詞長為1-4個字母的詞只占全部詞種數(shù)的2.55%,占全部詞頻的14.76%,說明在實際應用中,維吾爾文詞長為1-4個字母的詞使用較少,日常使用主要以4字母以上詞為主;另一方面,詞長超過20個字母的長詞數(shù)量為812個,僅占全部詞種數(shù)的0.40%,這類詞的使用頻度也很低,僅占全部語料詞頻總數(shù)的0.02%。

6)詞語的文本分布情況:本次調(diào)查的語料文本總數(shù)為15 878篇,其中只在1篇文本中出現(xiàn)的詞種數(shù)為107 144個,占全部詞種數(shù)的54.15%,而出現(xiàn)文本數(shù)小于6篇的用詞占全部詞種數(shù)的81.66%。由此可看出,大多數(shù)詞并非常用詞匯,出現(xiàn)的文本數(shù)量很低,這也體現(xiàn)了維吾爾文網(wǎng)絡用詞豐富的特點。

調(diào)查還公布了維文網(wǎng)站前1000個高頻詞干。

 

(《中國語言生活狀況報告(2009)》已由商務印書館出版發(fā)行。)

收藏
(責任編輯:王朋)

版權(quán)所有:中華人民共和國教育部 中文域名:教育部.政務

京ICP備10028400號-1 京公網(wǎng)安備11010202007625號 網(wǎng)站標識碼:bm05000001