WWW網(wǎng)絡(luò)信息搜索技術(shù)敘述

時(shí)間:2022-05-04 03:39:00

導(dǎo)語(yǔ):WWW網(wǎng)絡(luò)信息搜索技術(shù)敘述一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

WWW網(wǎng)絡(luò)信息搜索技術(shù)敘述

摘要:本文針對(duì)網(wǎng)絡(luò)搜索引擎工作中的重點(diǎn)技術(shù)作出詳盡的闡述,它包括Robot程序、索引數(shù)據(jù)庫(kù)、檢索程序三個(gè)方面。通過(guò)他們來(lái)概述www網(wǎng)絡(luò)信息檢索技術(shù)的發(fā)展?fàn)顩r。

關(guān)鍵詞:Robot程序、數(shù)據(jù)索引、遍歷算法、相關(guān)性

Theabstractsofinformationretrievalsontheworldwideweb

Abstract:Thisschedualsdecribethedetailsoffataltechniquesabouttheinformationontheworldwidewebsite,includingthreeaspects:Robottechniques,Indexingdatabaseandsearchingprogrammes.Wecanlearnthedevelopingstatesofinformationretrivalsthroughthem.

Keywords:Robot,Indces,Revelance,arithmetic

隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)信息不斷爆炸式的擴(kuò)張,網(wǎng)民怎么才能從這樣海量的信息中找到他們所需要的信息呢?搜索引擎,這是目前為止,世界上最流行的一種準(zhǔn)確獲得信息的一種工具。象Google、Altavista、Infoseek、Hotbot、Yahoo、網(wǎng)絡(luò)指南針、北大天網(wǎng)和華好網(wǎng)景的ChinaOK等等。這些都是世界上非常著名的搜索引擎。他們都是通過(guò)網(wǎng)絡(luò)機(jī)器人搜集網(wǎng)絡(luò)信息,建立索引數(shù)據(jù)庫(kù),并且不但的更新,通過(guò)一定的相關(guān)性算法,對(duì)用戶提供的請(qǐng)求作出響應(yīng),并按一定的次序輸出高質(zhì)量的信息。它的主要由下面三個(gè)部分組成:蜘蛛程序、索引數(shù)據(jù)庫(kù)、檢索程序。三個(gè)部分協(xié)調(diào)一致,其工作原理(圖1)如下:

1Robot技術(shù)程序

Robot是一種計(jì)算機(jī)的程序,可以自動(dòng)地在網(wǎng)絡(luò)中穿梭,該程序最重要的功能是使用索引策略,也就是查找網(wǎng)站和網(wǎng)頁(yè)的次序??梢杂妙}目、URL、關(guān)鍵詞進(jìn)行索引,也可以是以上幾項(xiàng)的某種組合。由于Internet的數(shù)據(jù)量大,在現(xiàn)有的機(jī)器和網(wǎng)絡(luò)條件下,搜索引擎只能對(duì)部分Internet上的資料進(jìn)行采集;加上搜索的索引策略不同,所以對(duì)相同關(guān)鍵詞的搜索在不同的搜索器上可以有截然不同的結(jié)果。如果把整個(gè)Internet看作是一個(gè)圖或一棵樹(shù)的話,可以發(fā)現(xiàn)Robot技術(shù)的基本工作原理和人工智能中的搜索樹(shù)一樣,這在計(jì)算機(jī)中可以方便地使用遞歸方法實(shí)現(xiàn),具體如下:

(1)根據(jù)首頁(yè)進(jìn)行搜索,相當(dāng)于搜索樹(shù)的根;

(2)根據(jù)首頁(yè)的第1個(gè)鏈接到下一個(gè)頁(yè)面;

(3)重復(fù)(1)和(2);(4)到某頁(yè)已經(jīng)沒(méi)有鏈接,回退上一級(jí)頁(yè)面的下一個(gè)鏈接,如此循環(huán)往復(fù)。

但若要建立全面的索引數(shù)據(jù)庫(kù),必須對(duì)WWW系統(tǒng)進(jìn)行遍歷。我們可以進(jìn)行這樣假設(shè):將WWW作為一個(gè)有向圖處理,將頁(yè)面看作圖中的節(jié)點(diǎn),頁(yè)面中的超鏈看作圖中的有向邊。因此可以使用有向圖遍歷算法(深度優(yōu)先或廣度優(yōu)先算法或啟發(fā)式方式)對(duì)其進(jìn)行遍歷。WWW是個(gè)典型的CS結(jié)構(gòu)系統(tǒng),所以可在一臺(tái)主機(jī)上完成WWW遍歷。

遍歷一般采用以下3種方法:

(1)定一個(gè)種子URL,Robot從種子URL開(kāi)始對(duì)WWW遍歷;

(2)定一組不同類別、被訪問(wèn)頻率高的URL,Robot從這些URL開(kāi)始遍歷;

(3)據(jù)域名或IP地址將WWW空間劃分為多個(gè)子空間,運(yùn)行多個(gè)Robot程序并行地在不同子空間中進(jìn)行遍歷。在實(shí)際使用中,一般是將這三種方法組合起來(lái)使用。按照上述遍歷算法,Robot可以系統(tǒng)地、周期性地訪問(wèn)WWW,從而建立較為全面的索引庫(kù),并能保持對(duì)庫(kù)的不斷更新。

在遍歷算法中,一般用到了兩種方式,深度優(yōu)先和廣度優(yōu)先兩種基本的搜索策略。Robit以URL列表存取的方式?jīng)Q定搜索策略:

(1)先進(jìn)先出,則形成廣度優(yōu)先搜索。當(dāng)起始列表包含有大量的Web服務(wù)器地址時(shí),廣度優(yōu)先搜索將產(chǎn)生一個(gè)很好的初始結(jié)果,但很難深入到服務(wù)器中去。

(2)先進(jìn)后出,則形成深度優(yōu)先搜索。這樣能產(chǎn)生較好的文檔分布,更容易發(fā)現(xiàn)文檔的結(jié)構(gòu),即找到最大數(shù)目的交叉引用在實(shí)際使用中,一般是將這三種方法組合起來(lái)使用。按照上述遍歷算法,Robot可以系統(tǒng)地、周期性地訪問(wèn)WWW,從而建立較為全面的索引庫(kù),并能保持對(duì)庫(kù)的不斷更新。在遍歷的過(guò)程中,為了提高其效率,可以融入人工智能的方法使其變得智能化,以下為可行的方法:

(1)搜索引擎基本信息的采集??紤]網(wǎng)絡(luò)中海量的數(shù)據(jù),首先選取一些網(wǎng)絡(luò)的主要節(jié)點(diǎn),使搜索引擎存放某些監(jiān)控程序到站點(diǎn)中,和站點(diǎn)之間建立一種通信聯(lián)系,使搜索引擎不必每次更新時(shí)都要一個(gè)個(gè)頁(yè)面地比較,而是智能地知道自上次訪問(wèn)后哪些頁(yè)面已更新,直接采集新的頁(yè)面。

(2)搜索引擎數(shù)據(jù)庫(kù)的建立??紤]數(shù)據(jù)庫(kù)中數(shù)據(jù)的有用性,可以根據(jù)用戶的訪問(wèn)頻度,建立站點(diǎn)的用戶訪問(wèn)頻度表格,Robot查找鏈接和頁(yè)面時(shí),要查看該表格,從用戶訪問(wèn)頻度高的站點(diǎn)開(kāi)始查找,對(duì)上升速度和下降速度特別快的還要特別處理。搜索引擎的數(shù)據(jù)庫(kù)內(nèi)容是用戶經(jīng)常訪問(wèn)并樂(lè)意訪問(wèn)的,使搜索引擎越來(lái)越貼近用戶。

2索引技術(shù)

索引技術(shù)的目的是理解Robot所搜索的信息,從中抽取索引項(xiàng),用于表示文檔以及生成文檔庫(kù)的索引表。索引項(xiàng)有客觀索引項(xiàng)和內(nèi)容索引項(xiàng)兩種:

客觀項(xiàng)與文檔的語(yǔ)意內(nèi)容無(wú)關(guān),如作者名、URL、更新時(shí)間、編碼、長(zhǎng)度、鏈接流行度(LinkPopularity)等等;內(nèi)容索引項(xiàng)是用來(lái)反映文檔內(nèi)容的,如關(guān)鍵詞及其權(quán)重、短語(yǔ)、單字等等。

內(nèi)容索引項(xiàng)可以分為單索引項(xiàng)和多索引項(xiàng)(或稱短語(yǔ)索引項(xiàng))兩種。單索引項(xiàng)對(duì)于英文來(lái)講是英語(yǔ)單詞,比較容易提取,因?yàn)閱卧~之間有天然的分隔符(空格);對(duì)于中文等連續(xù)書寫的語(yǔ)言,必須進(jìn)行詞語(yǔ)的切分。在搜索引擎中,一般要給單索引項(xiàng)賦予一個(gè)權(quán)值,以表示該索引項(xiàng)對(duì)文檔的區(qū)分索引項(xiàng)的提取方法有統(tǒng)計(jì)法、概率法和語(yǔ)言學(xué)法。索引表一般使用某種形式的倒排表(Invers度,同時(shí)用來(lái)計(jì)算查詢結(jié)果的相關(guān)度。使用的方法一般有統(tǒng)計(jì)法、信息論法和概率法。短語(yǔ)索引,即由索引項(xiàng)查找相應(yīng)的文檔。索引表要記錄索引項(xiàng)在文檔中出現(xiàn)的位置,以便檢索器計(jì)算索引項(xiàng)之間的相鄰或接近關(guān)系(Proximity)。

索引技術(shù)可以使用集中式索引算法或分布式索引算法。當(dāng)數(shù)據(jù)量很大時(shí),必須實(shí)現(xiàn)即時(shí)索引(InstantIndexing),否則不能跟上信息量劇增的速度。索引算法對(duì)索引技術(shù)的性能(如大規(guī)模峰值查詢時(shí)的響應(yīng)速度)有很大的影響。一個(gè)搜索引擎的有效性在很大程度上取決于索引的質(zhì)量,而索引的質(zhì)量由索引技術(shù)和索引策略來(lái)決定;但現(xiàn)行的索引技術(shù)隨著數(shù)據(jù)量的增大,其耗費(fèi)的資源指數(shù)速度飛速增長(zhǎng),極大地影響到搜索數(shù)據(jù)庫(kù)的容量和檢索;考慮用提高索引智能化的方式來(lái)提高索引的質(zhì)量。按建立索引的策略來(lái)看,應(yīng)確定是全文關(guān)鍵字提取,還是內(nèi)容提取,根據(jù)不同的查詢目標(biāo)會(huì)有不同的提取目標(biāo)和提取范圍,最終將大大影響數(shù)據(jù)提取的速度和效果,這是索引技術(shù)所要考慮的首要問(wèn)題;按內(nèi)容提取可以采用分類技術(shù),把頁(yè)面的主題或內(nèi)容分類,進(jìn)入到不同的數(shù)據(jù)庫(kù)中,在輸入關(guān)鍵詞查詢時(shí),要求第n個(gè)關(guān)鍵詞必須是內(nèi)容類別的詞,這樣第n個(gè)關(guān)鍵詞就可以使搜索引擎知道到哪個(gè)內(nèi)容類別的數(shù)據(jù)庫(kù)中查找,再匹配后面的關(guān)鍵詞,這樣可以大大減少系統(tǒng)匹配的時(shí)間。這項(xiàng)技術(shù)要求在相關(guān)詞庫(kù)的基礎(chǔ)上,還要統(tǒng)計(jì)使用頻度,再加上一定的算法方可實(shí)現(xiàn)。當(dāng)然上述兩者應(yīng)有機(jī)地結(jié)合才可提高整個(gè)系統(tǒng)的性能。

3檢索程序。

當(dāng)用戶檢索的時(shí)候,首先需要輸入關(guān)鍵詞,系統(tǒng)將對(duì)其進(jìn)行語(yǔ)言分析,分解成多個(gè)詞或詞組,在去服務(wù)器的索引數(shù)據(jù)庫(kù),根據(jù)檢索詞的相關(guān)性進(jìn)行匹配,找到與檢索詞相關(guān)度逼近的網(wǎng)頁(yè),按照相關(guān)度的高低進(jìn)行排序輸出,關(guān)鍵詞出現(xiàn)了的越多的結(jié)果排得越靠前,越知名的站點(diǎn)排得越靠前。這里,相關(guān)性的設(shè)計(jì)相當(dāng)?shù)闹匾?,它直接影響著搜索的效率。但“相關(guān)性”的概念一直非常模糊。一方面,人們觀察到特定文檔對(duì)特定查詢而言可以有多種“相關(guān)”的方式,比如用戶輸入一個(gè)關(guān)鍵詞作為查詢向系統(tǒng)提交,系統(tǒng)返回的文檔列表中的文檔A講述與此關(guān)鍵詞相關(guān)的事件,B談?wù)撆c此關(guān)鍵詞相關(guān)的人物等等,都可以說(shuō)與這個(gè)關(guān)鍵詞“相關(guān)”,但我們顯然覺(jué)得二者與查詢的相關(guān)并不屬于同一層次。另一方面,由于用戶本身的差異使其對(duì)檢出文檔是否真正相關(guān)的判斷也有諸多差異。但是在設(shè)計(jì)信息檢索系統(tǒng)的過(guò)程中,不可避免地要用到相關(guān)性這個(gè)概念;具體地說(shuō),設(shè)計(jì)者必須對(duì)怎樣才算是“相關(guān)”有一個(gè)比較明確的想法,在沒(méi)有弄清楚什么是相關(guān)性之前就談?wù)撛鯓訁^(qū)別相關(guān)和不相關(guān)文檔,的確令人覺(jué)得在邏輯上缺少了一個(gè)重要的環(huán)節(jié)。下面就相關(guān)性做詳盡的闡述:

3.1相關(guān)性研究的理論框架

3.1.1系統(tǒng)角度的相關(guān)

信息檢索似乎從一開(kāi)始就定位為一種單方向的過(guò)程,即系統(tǒng)輸出結(jié)果,用戶是信息的接受者。這種理解置用戶于被動(dòng)的地位:基于這種理解,研究的重心自然落在系統(tǒng)本身。系統(tǒng)角度的相關(guān)一般有兩種比較方式。其一是在文檔本身固有的特征信息,如詞頻等等與用戶提交的查詢表達(dá)式中固有的特征信息之間進(jìn)行比較。典型做法是在文檔集中尋找出現(xiàn)了查詢表達(dá)式中的索引項(xiàng)的文檔;其二是在從文檔中抽取的“主題”與用戶查詢表達(dá)式中體現(xiàn)的“主題”之間做比較,即首先計(jì)算文檔中各索引項(xiàng)的權(quán)值,再按權(quán)值大小進(jìn)行排序,以此為依據(jù)確定文檔的主題詞。這種做法比較簡(jiǎn)單明了,易于操作而且可以直接觀察,所以一直是信息檢索研究者們樂(lè)于接受的。

3.1.2改進(jìn)后的系統(tǒng)相關(guān)

從系統(tǒng)角度定義的相關(guān)性(即主題性相關(guān))最突出的優(yōu)點(diǎn),就是簡(jiǎn)明和可操作性;而至少目前的系統(tǒng)還無(wú)法把握人的主觀感覺(jué)。這樣看來(lái),采取主題性相關(guān)的態(tài)度就是唯一可行的做法。然而并不能把詞頻統(tǒng)計(jì)作為唯一的解決辦法。Fairthorne曾提出:如果允許個(gè)人推論和個(gè)人理解介入相關(guān)性判斷,那么從某種角度來(lái)看,任何文本對(duì)任何請(qǐng)求都是相關(guān)的。所以,改進(jìn)系統(tǒng)角度相關(guān)度計(jì)算方法似乎比較可以接受?;诖朔N看法,在這里可以做這樣一個(gè)設(shè)想:如果主題詞提取算法能體現(xiàn)用戶的相關(guān)性判斷直覺(jué),那么用戶的相關(guān)性判斷就可以被描述,而檢索系統(tǒng)的輸出就可能更加令人滿意(見(jiàn)下圖)。系統(tǒng)角度相關(guān)不能解決相關(guān)性判斷的不確定性。相關(guān)性判斷的不確定性基本上集中于用戶的主觀因素上。信息檢索研究者的觀點(diǎn)往往局限在雖然簡(jiǎn)單但引起很多爭(zhēng)議的系統(tǒng)角度相關(guān)。但是隨著檢索系統(tǒng)日益廣泛的應(yīng)用,人們開(kāi)始更多地思索人機(jī)交互過(guò)程中人的因素。

3.2相關(guān)反饋技術(shù)在信息檢索系統(tǒng)中的應(yīng)用及局限

從用戶角度討論相關(guān)大體上就是觀察用戶對(duì)檢索結(jié)果的反應(yīng),是系統(tǒng)輸出向用戶需求的投射。作為系統(tǒng)本身必須“知道”如何判斷相關(guān)性,而這種機(jī)制實(shí)際上是設(shè)計(jì)者對(duì)用戶判斷方式的模擬。最終的系統(tǒng)只能將用戶判斷有差異這一事實(shí)“忽略”過(guò)去。在檢索系統(tǒng)中,使用相關(guān)反饋技術(shù)的目的,是通過(guò)檢索策略的調(diào)整來(lái)增強(qiáng)對(duì)相關(guān)文獻(xiàn)的響應(yīng)而抑制非相關(guān)文獻(xiàn)。許多年來(lái),相關(guān)反饋被用來(lái)修正提問(wèn)的問(wèn)題。較復(fù)雜一些的檢索系統(tǒng)如以向量空間模型為基礎(chǔ)的SMART和概率模型等等固然包含了某“相關(guān)反饋”技術(shù),即以已經(jīng)得出的檢索結(jié)果和用戶的相關(guān)性評(píng)價(jià)為依據(jù),不斷修正查詢表達(dá)式和檢索結(jié)果集合;但是,系統(tǒng)賴以區(qū)分相關(guān)與不相關(guān)文檔集的算法卻只考慮文檔自身的特性。信息檢索的主要工作簡(jiǎn)而言之就是提取文檔內(nèi)容特征項(xiàng)的過(guò)程。這就使得檢索系統(tǒng)不能跳出“系統(tǒng)中心”的局限而用戶判斷的不確定性不能得到本質(zhì)的運(yùn)用。雖然從用戶角度討論相關(guān)性定義的文獻(xiàn)多如牛毛,卻從未有一個(gè)確定性的結(jié)論;用戶的主觀因素的確難以捉摸。

結(jié)束語(yǔ):在當(dāng)今的知識(shí)經(jīng)濟(jì)和網(wǎng)絡(luò)環(huán)境下,對(duì)信息的占有和知識(shí)的發(fā)現(xiàn),是發(fā)展生產(chǎn)力的重要一環(huán),人們迫切需要一種智能性的檢索工具來(lái)探索信息空間,檢索信息并進(jìn)一步進(jìn)行數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)。因此,建立一個(gè)高效率的搜索引擎是當(dāng)今社會(huì)和科學(xué)發(fā)展的強(qiáng)烈要求。

參考文獻(xiàn):

[1]石艷霞信息檢索中“相關(guān)性”與“相關(guān)反饋”研究概述

[2]王家鉞.信息檢索中“相關(guān)性”概念的研究

[3]宋玲.,馬軍Internet個(gè)性化智能信息檢索的分析與研究