PHP中基于Linux的搜索引擎實現
搜索引擎是為用戶提供快速獲取網頁信息的工具,其主要的功能是系統通過用戶輸入關鍵字,檢索后端網頁數據庫,將相關網頁的鏈接和摘要信息反饋給用戶。從搜索的范圍上一般分為站內網頁搜索和全局網頁搜索。隨著網頁數量的急劇增加,搜索引擎已經成為上網查詢信息的必須手段,各個大型網站均已經提供網頁數據搜索服務,并且出現了許多為大型網站提供專業搜索引擎服務的公司,如為Yahoo提供搜索服務的Google,為新浪網和263等國內網站提供服務的百度公司等。專業的搜索服務費用高而免費的搜索引擎軟件基本都是基于英文的檢索,所以都不太適合Intranet環境(如校園網等)的需要。
搜索引擎的基本組成一般分為網頁收集程序、網頁后端數據組織存儲、網頁數據檢索三部分。決定搜索引擎好壞的關鍵因素是數據查詢的響應時間,即如何組織好滿足全文檢索需要的大量網頁數據。
GNU/Linux作為一個優秀的網絡操作系統,其發行版本中集成了大量的網絡應用軟件,如 Web服務器(Apache + PHP)、目錄服務器(OpenLDAP)、腳本語言(Perl)、網頁收集程序(Wget)等。所以,通過將它們集中進行應用,便可以實現一個簡單、高效的搜索引擎服務器。
一、基本組成和使用方法
1、網頁數據收集
Wget程序是一個優秀的網頁收集程序,它采用多線程設計能夠方便地將網站內容鏡像到本地目錄中,并且能夠靈活定制收集網頁的類型、遞歸收集層次、目錄限額、收集時間等。通過專用的收集程序完成網頁的收集工作,既降低了設計的難度又提高了系統的性能。為了減小本地數據的規模,可只收集能夠查詢的html文件、txt文件、腳本程序asp和php只使用缺省的結果,而不收集如圖形文件或是其他的數據文件。
2、網頁數據過濾
由于html文件中存在大量的標記,如<body><table>等,這些標記數據沒有實際的搜索價值,所以加入數據庫前必須對收集的數據進行過濾。Perl作為廣泛使用的腳本語言,擁有非常強大而豐富的程序庫,可以方便地完成網頁的過濾。通過使用HTML-Parser庫可以方便地提取出網頁中包含的文字數據、標題數據、鏈接數據等。該程序庫可以在www.cpan.net中下載,并且該網站收集的Perl程序涉及范圍之廣,遠遠超出我們的現象。
3、目錄服務
目錄服務是針對大量數據檢索需要開發的服務,最早出現在X.500協議集中,后來擴展到TCP/IP中發展成為LDAP(Lightweight Directory Acess Protocol)協議,其相關的標準為1995年制定的RFC1777和1997年制定的RFC2251等。LDAP協議已經作為工業標準被Sun、Lotus、微軟等公司廣泛應用到其相關產品中,但是專用的基于Windows平臺的目錄服務器卻較少見,OpenLDAP是免費的運行于Unix系統的目錄服務器,其產品的性能優秀,已經被許多的Linux發行版本收集(Redhat、Mandrake等),并且提供了包括C、Perl、PHP等的開發接口。
使用目錄服務技術代替普通的關系數據庫作為網頁數據的后端存取平臺主要基于目錄服務的技術優勢。目錄服務簡化了數據處理類型,去掉了通用關系數據庫的費時的事務機制,而是采用全局替換的策略對數據進行更新,其應用的重點是大量數據的檢索服務(一般數據更新和檢索的頻率比例要求在1:10以上),強調檢索速度和全文查詢,提供完整的數據備份,非常適合搜索引擎之類服務的需要。從目錄服務技術解決問題的重點不難看出其在數據檢索上的優勢,它的提出時間遠遠落后于關系數據庫的提出時間,實際上反映了根據具體問題優化數據解決方案的原則。這與目前廣泛存在的凡是涉及大量數據處理必選SQL Server的處理方法形成鮮明對比。
通過選用成熟的目錄服務技術提高網頁查詢的效率,能夠簡潔有效地提高數據處理能力。這也充分顯示了GNU/Linux系統運行開放軟件的優勢,畢竟不能方便地獲得運行于其他平臺的目錄服務器。
4、查詢程序設計
搜索引擎的前端界面是網頁,用戶通過在特定的網頁中輸入關鍵字提交給Web服務器進行處理。運行在Apache Web服務器上的PHP腳本通過運行其相關ldap函數便可以執行關鍵字的查詢工作。主要進行的工作是根據關鍵字構造查詢、向目錄服務器提交查詢、顯示查詢結果等。Linux + Apache + PHP作為廣泛使用Web服務器,與WinNT + IIS + ASP相比其性能毫不遜色,在目前的Linux發行版本中都集成了Apache + PHP 以及缺省的ldap、pgsql、imap等模塊。
5、計劃任務
搜索引擎的網頁數據收集、數據過濾、加入目錄數據庫等工作都應該是自動完成的,在UNIX系統中有cron進程來專門完成按照特定時間調度任務,為了不影響系統的運行,一般可以把這些工作安排到深夜進行。
二、具體步驟和注意事項
1、配置Wget軟件
在RedHat 6.2發行版中已經集成了該軟件包,可以直接進行安裝。將需要鏡像的站點地址編輯為一個文件中,通過 -I 參數讀入該文件;為鏡像的站點指定一個本地下載目錄;為了避免內部網中鏈接的重復引用,一般只鏡像該站點內的數據;還可以根據網站的具體情況,指定其鏡像的深度。
2、配置Openldap服務
在RedHat 6.2發行版中已經集成了Openldap-1.2.9,其配置文件存放在/etc/openldap的目錄中。主要的配置文件是slapd.conf,關鍵要打開對檢索速度至關重要的index選項,可以使用setup工具,將ldap在系統引導后作為缺省服務啟動。
Ldap服務可以通過文本文件方式存放數據,即LDIF文件格式。使用此方式可以高效地更新目錄服務數據,需要注意LDIF格式是通過空行對數據進行分隔的,并且通過運行ldif2lbm將LDIF格式數據導入目錄數據庫中時需要暫停目錄服務。
3、編制數據過濾和LDIF文件生成腳本
為了方便地過濾網頁數據,可以調用Perl的HTML-Parser庫函數,該程序包下載后需要進行編譯,在eg目錄下生成了相關的htext,htitle程序,在Perl中可以通過調用外部程序的方式運行該程序,并對其過濾結果通過重定向的方法生成臨時文件。本搜索引擎設計的目錄數據屬性有dn 、link、title、modifydate、contents,其中的dn通過Link進行唯一性標識,將過濾后的網頁文本內容通過/usr/sbin/ldif程序進行自動編碼后放入LDIF文件中。
基本的LDIF文件格式如下:
dn: dc=27jd,dc=zzb
objectclass: top
objectclass: organization
dn: link= http://freemail.27jd.zzh/index.html, dc=27jd ,dc=zzb
link: http://freemail.27jd.zzh/index.html
title: Webmail主頁
modifydate: 2001年2月8日
contents::
CgpXZWJtYWls1vfSswoKCgoKIKHvoaG7ttOtyrnTw1dlYm1haWzPtc2zoaGh7yDO0t
KqyerH69PKz+QhISFPdXRsb29rxeTWw6O6U01UUDogZnJlZW1haWwuMjdqZC56emJQ
T1AzOiBmcm
VlbWFpbC4yN2pkLnp6YkROUyA6IDExLjk5LjY0Ljiy4srU08O7p6O6bWFpbGd1ZXN00
8O7p7/awe
6jum1haWxndWVzdNLR16Ky4dPDu6cg08O7p8P7OkAgZnJlZW1haWwuMjdqZC56emK/
2sHuOqChoa
AgIKHyzOG5qbf+zvEgofKzo7z7zsrM4iCh8s2o0bbCvKHyICCh8sq1z9bUrcDtIKHywfTR1
LK+of
IgofK8vMr1sr/W99Kzsb7Ptc2z08nK1NHpvLzK9bK/zfjC59bQ0MS9qMGius3OrLukCgoK
CqAKCg
o=
objectclass:webpage
基本的slapd.conf文件如下:
defaultaccess read
include /etc/openldap/slapd.at.conf
#include /etc/openldap/slapd.oc.conf
schemacheck off
sizelimit 20000
pidfile /var/run/slapd.pid
argsfile /var/run/slapd.args
#######################################################################
# ldbm database definitions
#######################################################################
database ldbm
dbcachesize 1000000
index contents,title
suffix "dc=27jd, dc=zzb"
directory /usr/tmp
rootdn "cn=root,dc=27jd, dc=zzb"
rootpw secret
通過對一個4萬個網頁(約300M左右)的本地html文件目錄進行過濾后生成的LDIF文件約180M左右,如果只取文字數據的前400個字符作為網頁內容,則生成文件約35M左右。
4、配置PHP+LDAP服務
在Redhat6.2中已經集成了PHP3和php-ldap模塊,選擇完全安裝時便已經安裝到/usr/lib/apache目錄中,注意檢查/etc/httpd/php3.ini中的動態擴展(Dynamic Extensions)中的extension=ldap.so是否被選擇。PHP3中提供了豐富的LDAP存取函數,能夠方便完成對目錄數據的搜索功能。有關Apach + PHP編程方面的資料較多,在此不在贅述。注意在PHP3中的LDAP搜索函數ldap_search不能處理其返回結果超過目錄服務設定的最大檢索數據,所以可以根據具體情況,在slapd的配置文件中設定較大的檢索數據限制(sizelimit),此問題在PHP4中已經解決。
5、任務調度
在Redhat6.2中已經集成了crond并且缺省安裝后便已經啟動。其相關配置文件有/etc/crontab、/etc/cron.daily、/etc/cron.hourly、/etc/weekly、/etc/monthly,你只需要根據數據的更新頻度,將網頁收集、網頁過濾、生成LDIF文件、停止目錄服務、更新目錄數據、重新啟動目錄服務,作為一個簡單的Shell程序放入到相應的目錄中即可。
三、效果與思考
以上簡單的介紹了我們的搜索引擎的實現方法和注意事項,這僅僅是我們在對GNU/Linux了解得非常膚淺的情況下設計的以目錄服務為核心的滿足內部網需要的搜索引擎系統,并不能代表GNU/Linux和它集成的大量軟件的真正實力。
通過在一臺安裝RedHat Linux 6.2 的Sparc Ultra 250上實際測試,對擁有4萬個網頁的目錄數據進行搜索時,基于上述方法設計的搜索引擎響應速度一般在3秒左右,目錄數據完全更新大約需要4小時左右,能夠滿足內部網的需要。實際上,限制搜索響應速度的關鍵是PHP3的ldap_search函數沒有提供數據限制的功能,導致在查詢結果集過大時系統響應速度變慢,因為每次用戶能夠瀏覽的查詢結果實際是非常少的,而服務器端每次的查詢總是返回全部結果,在PHP4中的ldap_search通過指定sizelimit參數,能夠有效解決該問題。
目錄服務的應用范圍非常廣泛,實際上作為大型的信息站點為了提高客戶訪問效率,都或多或少采用了目錄服務的技術。目錄服務根據具體的應用需求的優化設計方法,對我們決定應用系統的開發無疑是一個啟發,應該說在基于索引信息的領域LDAP服務遠遠優于傳統的關系數據庫系統。
基于GNU/Linux進行網絡服務器程序設計,能夠充分體會到開放源代碼的魅力和實力,它既能夠簡化系統的設計,又大大地提高了工作效率,同時也有效降低了系統的成本。程序設計由一切從零開始的復雜繁瑣的重復勞動,簡化為問題抽象、功能分解、查找資源、組合系統四個部分,更加強調對系統的認識、開闊的視野和學習的能力,同時開放源代碼也為系統進一步優化提供了堅實的基礎。
關鍵字:Linux、PHP、服務器
新文章:
- CentOS7下圖形配置網絡的方法
- CentOS 7如何添加刪除用戶
- 如何解決centos7雙系統后丟失windows啟動項
- CentOS單網卡如何批量添加不同IP段
- CentOS下iconv命令的介紹
- Centos7 SSH密鑰登陸及密碼密鑰雙重驗證詳解
- CentOS 7.1添加刪除用戶的方法
- CentOS查找/掃描局域網打印機IP講解
- CentOS7使用hostapd實現無AP模式的詳解
- su命令不能切換root的解決方法
- 解決VMware下CentOS7網絡重啟出錯
- 解決Centos7雙系統后丟失windows啟動項
- CentOS下如何避免文件覆蓋
- CentOS7和CentOS6系統有什么不同呢
- Centos 6.6默認iptable規則詳解