世紀全文檢索引擎(網路版 V3.0)

簡介
企業資料不斷增多,資料存放在不同的資料庫中,或分佈在不同的文件伺服器上和不同的目錄下,資訊呈幾何級遞增,通過人工查閱的手段來獲取資訊已遠遠不能滿足工作需求。方正世紀全文檢索引擎(網路版V3.0)是一個網站內部的全文檢索工具(Web
Inside Search Engine)。檢索平台建設在Linux及
Windows 上,它可以對網站上的檔建立全文索引,為用戶提供高效,準確的檢索服務。
主要功能
文檔資訊的分析和提取
檢索引擎可以對網站內部目錄及子目錄進行快速掃描,根據已有的目錄時間戳記,識別更新的檔。同時,根據預先設定的檔篩檢程式掃描出符合要求的檔,將他們記錄到資料庫中。之後,通過檔分析器和模式匹配器對
txt 和 html 檔進行無用資訊的濾除和有用資訊自動提取和歸類。如提取出文章的標題,分類,作者,日期等。用戶可以選擇是否將這些文章屬性也記錄到資料庫中。
分詞
由於漢語以句子為單位,為了查得更快,更准,必須對漢語語句進行詞語的切分。系統採用反向最大長度匹配原則並結合一定的歧義處理原則分詞,可處理
GBK、BIG5 的漢字,同時完成對英文的處理。支援數位和英文的混合檢索,以及對
big5 碼中的標點符號的處理,使查詢更準確,用戶可以根據自身行業詞語特點,按照系統定義的格式自己定義詞表或變動詞表以及定義新的雜訊詞,使得分詞更為準確。用戶可以根據自己的需要,定義同義詞查詢詞典。
全文索引建立
對檔中提取出的文字進行分詞後,系統對每個詞都建立自定義的索引資訊,使得查詢更快。系統每小時可處理百兆左右的資料,實現快速索引檔的建立。可定制實現是否需要數位索引。根據定義,系統可實現自動建立索引。每次索引建立為增量索引的建立,無需重建索引。
檢索實現
運用查詢關係處理解析器對查詢的詞句進行分析和理解,查找索引檔,給出檢索結果。對百兆資料的全文查詢,保證毫秒級回應。為了使檢索結果更準確,系統提供了以下的檢索功能:
- 全文關鍵字和字的檢索。
- 句子的檢索。
- 中英文混合檢索、英文和數位的混合檢索。
- 布林查詢。可處理與,或,括弧優先順序
() 的查詢。
- 高級檢索。除了向用戶提供基於全文的關鍵字句的檢索外,系統還向用戶默認提供按照標題,日期,作者,分類和文章關鍵字的綜合檢索。綜合的檢索方式使得檢索的結果更為準確。綜合檢索的方式取決於檔資訊範本提取器的定義。用戶可以利用它實現其他擴展功能的檢索。
- 漸近檢索。用戶可以在檢索結果中檢索,不斷縮小檢索範圍,提高檢索精度。
- 臨近檢索。用戶即使無法回憶起整個句子,也可通過相鄰或者相近關鍵字的查詢查找到準確的結果。
- 模糊查詢。支援使用通配符“
* ”的模糊匹配查詢,並支持”
? ”號的單字元匹配查詢。
- 提供相關度排序。檢索結果默認為按照時間排序,時間越近,在檢索結果中越排在前面。用戶也可以選擇檢索結果按照關鍵字的相關度進行排序。結果的相關度越高,記錄排在越前面。
穩定的伺服器控制
伺服器根據外部提交的任務請求,向各子模組分配任務,實現任務的調度和回應,同時對子任務進行監控,記錄錯誤日誌,方便系統維護和統計。監控程序定時監控檢索伺服器和索引伺服器運作情況,發現異常後,自動向管理員發送郵件報警,同時重新啟動相應的伺服器。保證服務的不間斷。
網路爬蟲
設置定時功能後,索引伺服器將自動啟動網路爬蟲通過
http 協定抓取指定網站的最新的網頁。能夠識別更新的網頁和不存在的網頁。觸發相應網頁索引的更新。
日誌分析
對一段時間內的日誌進行分析,統計出:
a. 查詢的高頻詞 b. 查詢頻度。以上日誌報告可供內容分析使用,並提供互動的手段。索引建立報告。
系統需求
軟件需求
- 方正世紀全文檢索引擎 Version
3.0 (Linux, W2K)
建立全文索引全文檢索
- 方正世紀網路爬蟲 Version
3.0 (Linux) 爬取
web server, ftp
server
硬件需求
- Intel® Pentium®
III 或 Pentium®
4 處理器
- Microsoft®
Windows® 2000
( SP2 )或 XP (中文繁體及簡體版)
- 36GB 的可用硬碟空間
- 2GB RAM
- 唯讀光碟機
- 支援 256 色 , 1024x768
解像度的影像卡
- 建議具備網際網路連線
|