大型(行業(yè))搜索引擎 定制開(kāi)發(fā)
是搜索引擎的細(xì)分和延伸,
是對(duì)網(wǎng)頁(yè)庫(kù)中的某類(lèi)專(zhuān)門(mén)的信
息進(jìn)行一次整合,定向分字段抽取出需要的數(shù)據(jù)進(jìn)行處理后再以某種形式返回給用戶(hù)。
引擎的出現(xiàn),整合了眾多網(wǎng)站信息,恰恰起到了信息導(dǎo)航的作用。通用搜索引擎就如同互聯(lián)網(wǎng)第一次出現(xiàn)的門(mén)戶(hù)網(wǎng)站一樣,大量的信息整合導(dǎo)航,極快的查詢(xún),將所有網(wǎng)站上的信息整理在一個(gè)平臺(tái)上供網(wǎng)民使用,于是信息的價(jià)值第一次普遍的被眾多商家認(rèn)可,迅速成為互聯(lián)網(wǎng)中最有價(jià)值的領(lǐng)域;ヂ(lián)網(wǎng)的低谷由此演變?yōu)榈诙胃叻。大家熟知的搜索引擎Google、百度、雅虎等是通用搜索引擎現(xiàn)如今的杰出代表,他們?yōu)榛ヂ?lián)網(wǎng)的發(fā)展做出了重要的貢獻(xiàn)。然而,搜索引擎行業(yè)也不是一家公司就可以獨(dú)撐天下的,從百度的上市、yahoo中國(guó)的并購(gòu)一系列動(dòng)作表明,如今的搜索引擎大戰(zhàn)如同門(mén)戶(hù)網(wǎng)站初期的競(jìng)爭(zhēng)一樣激烈。相信,通用搜索引擎在經(jīng)歷過(guò)一段時(shí)間的角逐后,也將會(huì)繼續(xù)維持幾大服務(wù)商各自分控一部分市場(chǎng)的局面。
整個(gè)過(guò)程中,數(shù)據(jù)由非結(jié)構(gòu)化數(shù)據(jù)抽取成結(jié)構(gòu)化數(shù)據(jù),經(jīng)過(guò)深度加工處理后以非結(jié)構(gòu)化的方式和結(jié)構(gòu)
化的方式返回給用戶(hù)。
行業(yè)搜索引擎的應(yīng)用方向很多,
比如企業(yè)庫(kù)搜索、
供求信息搜索引擎、
購(gòu)物搜索、
房產(chǎn)
搜索、
人才搜索、
地圖搜索、
mp3
搜索、圖片搜索
……
幾乎各行各業(yè)各類(lèi)信息都可以進(jìn)一步細(xì)化成各類(lèi)的行業(yè)搜索引擎。
二、行業(yè)搜索技術(shù)概述
行業(yè)搜索技術(shù)主要分為兩個(gè)層次:模板級(jí)和網(wǎng)頁(yè)庫(kù)級(jí)。
模板級(jí)是針對(duì)網(wǎng)頁(yè)進(jìn)行模板設(shè)定或者自動(dòng)生成模板的方式抽取數(shù)據(jù),對(duì)網(wǎng)頁(yè)的采集也是針對(duì)性的采集,
適合規(guī)模比較小、信息源少且穩(wěn)定的需求,優(yōu)點(diǎn)是快速實(shí)施、成本低、靈活性強(qiáng),缺點(diǎn)是后期維護(hù)成本高,
信息源和信息量小。
網(wǎng)頁(yè)庫(kù)級(jí)就是在信息源數(shù)量上、
數(shù)據(jù)容量上檢索容量上、
穩(wěn)定性可靠性上都是網(wǎng)頁(yè)庫(kù)搜索引擎級(jí)別的要
求,和模板方式最大的區(qū)別是對(duì)具體網(wǎng)頁(yè)不依賴(lài),可針對(duì)任意正常的網(wǎng)頁(yè)進(jìn)信息采集信息抽取
……
。這就
導(dǎo)致這種方式數(shù)據(jù)容量上和模板方式有質(zhì)的區(qū)別,但是其靈活性差、成本高。當(dāng)然模板方式和網(wǎng)頁(yè)庫(kù)級(jí)的
方式不是對(duì)立的,
這兩者對(duì)于行業(yè)搜索引擎來(lái)說(shuō)是相互補(bǔ)充的,
因?yàn)榧夹g(shù)只是手段,
目的是切反用戶(hù)之需。
本文談及的技術(shù)主要是指網(wǎng)頁(yè)庫(kù)級(jí)別行業(yè)搜索引擎技術(shù)。
關(guān)鍵詞:大型(行業(yè))搜索引擎 定制開(kāi)發(fā)