大數(shù)據(jù)語言學研究形勢探究

時間:2022-04-10 04:27:42

導(dǎo)語:大數(shù)據(jù)語言學研究形勢探究一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

大數(shù)據(jù)語言學研究形勢探究

摘要:近年來隨著科學技術(shù)的發(fā)展,大數(shù)據(jù)、數(shù)據(jù)庫等概念頻繁地出現(xiàn)在人們視野。其中,大數(shù)據(jù)以及構(gòu)建外文語料庫在學術(shù)研究領(lǐng)域蔚然成風。通過查閱相關(guān)的期刊、論文和書籍對其有一定的了解。本文從大數(shù)據(jù)是什么,構(gòu)建語料庫對于語言學研究的意義是什么,以及在大數(shù)據(jù)背景下語言學研究的形勢變化入手,對當今大數(shù)據(jù)背景下數(shù)據(jù)和語言學研究的現(xiàn)狀進行簡要的解釋和討論,同時希望對數(shù)據(jù)庫有一個比較整體的認識和了解。

關(guān)鍵詞:大數(shù)據(jù);語言學研究;語料庫

一、前言

隨著計算機科學技術(shù)的快速發(fā)展人們迎來了信息時代。信息時代的一個重要特點就是大量的數(shù)據(jù)的涌現(xiàn)。這使得人們的生活方式和思維方式發(fā)生改變,也對語言學研究產(chǎn)生重大的影響。語言學研究離不開對語言資料搜集、處理、整合。傳統(tǒng)的語言研究在搜集語料方面是十分低效的,需要大量的人力去翻閱典籍、做記錄?,F(xiàn)在通過大數(shù)據(jù)與語言研究的結(jié)合,使得這些問題都迎刃而解。根據(jù)不同的語言研究目的,學者們將會構(gòu)建不同內(nèi)容的語料庫,從而完成對語料的處理、加工等事宜。可以說,大數(shù)據(jù)開啟語言研究的一個新的天地。

二、大數(shù)據(jù)

近年來在計算機科學領(lǐng)域最火的一個詞就是“大數(shù)據(jù)”。對于“大數(shù)據(jù)”,人們起初是一個朦朧的認識狀態(tài),但是,隨著科技發(fā)展以及對大數(shù)據(jù)的運用,人們開始認識到大數(shù)據(jù)的巨大作用和意義。大數(shù)據(jù)不僅改變著人們的日常生活方式,而且對人們的思維方式也有了潛移默化的影響。與此同時,它也拉近不同領(lǐng)域之間的距離,從而對交叉學科發(fā)展具有重要的意義。它帶動著各個領(lǐng)域的發(fā)展,使人們更加清晰地認識我們所生活的世界。大數(shù)據(jù)不僅僅是體現(xiàn)在它數(shù)據(jù)的龐大上,更重要的是透過這些龐大的數(shù)據(jù)背后所隱藏的信息價值——人類認知、行為的模式以及人和社會、自然交互的規(guī)律。在過去的科學研究中,我們能利用的資源是有限的,或者說很難搜集到比較全面的信息內(nèi)容,很多時候人們都是通過有限的事例來總結(jié)普遍的規(guī)律。這樣往往會使人忽略掉一些重要的規(guī)律,甚至走向錯誤的方向。大數(shù)據(jù)卻可以快速高效為我們提供相應(yīng)的數(shù)據(jù)信息,同時也會提供相關(guān)信息,這是在傳統(tǒng)研究方式中不曾有的操作。身處在這個大數(shù)據(jù)的時代,我們不可避免要受到它的影響。通過網(wǎng)絡(luò),我們可以快速便捷的找到需要的信息,也能通過編輯、搜索等產(chǎn)生各種數(shù)據(jù)。我們總是接收、檢索新信息和處理現(xiàn)有信息。通過不同地區(qū)、不同領(lǐng)域、不同國家,在某一時段內(nèi)信息的檢索和處理,我們可以對其在該時間段的狀況有一個初步了解和預(yù)判。例如:2018年的春運,我們通過大數(shù)據(jù)獲取各地間往返的客流量以及他們所選取的交通方式,進而在飛機航班、高鐵發(fā)車次數(shù)、火車列次上作出相應(yīng)的調(diào)整,減輕了客運樞紐的壓力,減輕了春運的壓力。語言作為人類的交際工具,廣泛應(yīng)用于各個領(lǐng)域。古往今來,人們不斷開拓新事物、新領(lǐng)域,隨之相應(yīng)地語言體系也逐漸形成并壯大。因此大數(shù)據(jù)為語言學研究提供了大量的事實語料。同時,也在影響著語言研究的方法。面對大量的事實語料,我們要對其進行科學地分析、處理以及整理,這需要一個完整的系統(tǒng)工具來完成這項任務(wù)。

三、語料庫——語言學研究工具

20世紀60年代開始語料庫語言學逐漸建立。語料庫語言學是以經(jīng)驗主義和科學理性主義為哲學基礎(chǔ),自下而上的歸納法為其方法論。從建立起,就一直以真實語料為研究的基礎(chǔ),以大量的日常用語為依據(jù),以概率為特征,通過統(tǒng)計量化的手段建立模型。語言學研究應(yīng)該以語言事實為依據(jù),廣泛地、細致地搜索語言資料。隨著計算機的發(fā)展,通過構(gòu)建語料庫來進行語言研究已經(jīng)成為一個趨勢。語料庫是儲存了很多事實語料的庫房。語言學要重視對自然真實語料的意義研究,所以,語料庫的數(shù)據(jù)不僅要追求“量”,也要重視其“質(zhì)”。語料庫作為語言研究的工具,需要收錄大量的真實語料。在構(gòu)建語料庫時,文本采集要有一定的標準,采集的文本量也要達到電腦可以處理的規(guī)模。其中,需要對采集來的文本進行標注、賦碼等過程的加工。語料庫在語言研究的各個領(lǐng)域都有重要的作用。在語言教育的領(lǐng)域,對語料詞頻、讀音、句型、搭配等進行分析統(tǒng)計,可對語料有十分清晰的把握。在應(yīng)用語言學領(lǐng)域也運用廣泛。如:利用相關(guān)的系統(tǒng)軟件,對語料庫可以進行句法、詞匯、口語、語義、語言變異、話語分析等的研究。除此之外,還能通過運用語料庫技術(shù)進行語音合成、識別的任務(wù)等。在社會語言學領(lǐng)域,依據(jù)大規(guī)模真實語料進行社會語言現(xiàn)象、語言變異等分析,可以得到更加客觀的準確的數(shù)據(jù)和結(jié)論。在文學領(lǐng)域,開拓文學研究同語料庫相結(jié)合的新型研究模式。通過構(gòu)建文學典籍及作品評論的語料庫,并對其進行標注和檢索等處理和加工。分別研究當中的人物形象、作品風格、主題、意象等進行分析,可以為觀點提供更加客觀的數(shù)據(jù)支撐。在翻譯領(lǐng)域,為了提高翻譯的效率和準確性會利用建成的雙語平行語料庫。同時,雙語平行語料庫還能為翻譯研究和實踐,提供實證材料的支持。在語言定量分析領(lǐng)域,通過利用大規(guī)模的真實語料,設(shè)計出要進行定量分析的知識點和所使用的各種題型,可以提高定量分析結(jié)果的效率和認可度。在大數(shù)據(jù)的背景下,我們能更加方便、快捷地實現(xiàn)資源共享,語料庫亦是如此。如:日本構(gòu)建的免費文庫“青空文庫”,它收錄了大量的日本著名作家的文學作品。這對很多日本文學的研究者提供一個高效地收集一手資料的途徑。在語言研究方面起到了很大作用。我們可以通過語料庫檢索到所需的語言信息,然后通過相應(yīng)的軟件進行分析、研究。由此可見,語料庫是語言研究的重要工具。通過利用日文語料庫檢索信息的時候,我無意間發(fā)現(xiàn),他們不止建立了自己本民族語言的語料庫,而且對其他語言也構(gòu)建了相對完整的語料庫。如:中文的方言語庫、讀音語庫、同義詞語庫等。通過對這些語料庫的利用和觀察,我們可以認識到日本人對中國文字的理解程度,同時,這對兩中語言在翻譯和習得等方面有很大幫助。語料庫不僅處在雙方語言的立場,它應(yīng)該是多方的。如:中國和日本都會建立自己的相應(yīng)的英語、法語等的語料庫,對這些語料庫的考察我們可以看到作為第二語言習得的國家,對這一第二語言的認識和發(fā)展的程度。實際上,語料庫中有太多我們要檢索的未知。

四、語言學研究形勢

在大數(shù)據(jù)的背景下,語言研究煥發(fā)出新的生命力。語言作為信息交流的工具,與各個領(lǐng)域都關(guān)系密切。而大數(shù)據(jù)又縮短了各個領(lǐng)域間的距離,這使得語言研究不再是一個孤立的課題,我們要重視其相關(guān)學科的研究與發(fā)展,為語言學研究注入新的活力。布里斯南對于大數(shù)據(jù)時代的語言研究體會是從“花園”走向“灌木叢”。她認為“花園里的語言學”主要是分析語言學家們根據(jù)內(nèi)省或者精挑細選得到的語言現(xiàn)象,且通過句法樹等符號來進行定性的概括和總結(jié)?!肮嗄緟仓械恼Z言學”研究的是人們在現(xiàn)實生活所用的真實語言,往往借助條件概率、信息量等來進行定量分析。在這過程中,語言學研究形勢會有顯著的變化。語言學的研究形勢在大數(shù)據(jù)背景下呈現(xiàn)出以下幾個特點:第一,由曾經(jīng)尋找語言事實內(nèi)部的因果關(guān)系轉(zhuǎn)向?qū)で笳Z言事實間的相關(guān)關(guān)系。第二,不再過度追求微觀層面上的精確性會讓我們在語言宏觀層面擁有更好的洞察力。第三,語言研究由尋找因果關(guān)系和構(gòu)建各種語言解釋模型轉(zhuǎn)變?yōu)檠芯空Z言事實的相關(guān)關(guān)系上??偠灾?,每一次的時代變革,都會在語言中留下痕跡,我們要追尋、探究這些痕跡,不斷促進對語言的認識。我們要注重語言學的研究也要關(guān)注其相關(guān)學科的研究。在大數(shù)據(jù)的背景下,語言研究有著新的機遇和挑戰(zhàn)。

五、結(jié)語

語言學從花園到灌木叢,這是信息時代的大數(shù)據(jù)給予我們的認識。未來,我們是否會從灌木叢走向森林,這取決科技和語言學的發(fā)展程度。就目前初進灌木叢的語言學者來說,面臨著無限的新奇和挑戰(zhàn)。一方面語言學家享受的大數(shù)據(jù)帶來的便利,另一方面也認識大數(shù)據(jù)本身這個事物。如何更好地利用它進行語言學研究已成為一個重要課題。

【參考文獻】

[1]劉海濤,林燕妮.大數(shù)據(jù)時代語言研究的方法和趨向[J].新疆師范大學報,2018(1):72-83.

[2]林海倫,王元卓,賈巖濤等.面向網(wǎng)絡(luò)大數(shù)據(jù)的知識融合方法綜述[J].計算機學報,2017(1):1-27.

[3]袁昌萬,劉承宇,常淑麗.系統(tǒng)功能語言學與語料庫的契合[J].外國語文,2016(1):104-109.

[4]李華勇.大數(shù)據(jù)視野下的語言研究新觀[J].重慶交通大學學報,2015(4):134-137.

[5]詹衛(wèi)東.大數(shù)據(jù)時代的漢語語言研究[J].山西大學學報(哲學社會科版).2013(5):70-77.

作者:田春媛 單位:黑龍江大學