此條目可能包含原創研究。 (2012年4月6日) |
在信息檢索中,為節省存儲空間和提高搜索效率,在自然語言處理數據(或文本)之前或之後會自動過濾掉某些字或詞,這些字或詞即被稱為Stop Words(停用詞)。
對於一個給定的目的,任何一類的詞語都可以被選作停用詞。通常意義上,停用詞大致分為兩類。一類是人類語言中包含的功能詞,這些功能詞極其普遍,與其他詞相比,功能詞沒有什麼實際含義,比如「the、「is」、「at」、「which」、「on」等。但是對於搜索引擎來說,當所要搜索的短語包含功能詞,特別是像「The Who」、「The The」或「Take That」等複合名詞時,停用詞的使用就會導致問題。另一類詞包括詞彙詞,比如'want'等,這些詞應用十分廣泛,但是對這樣的詞搜索引擎無法保證能夠給出真正相關的搜索結果,難以幫助縮小搜索範圍,同時還會降低搜索的效率,所以通常會把這些詞從問題中移去,從而提高搜索性能。
作為信息檢索的先驅者之一,Hans Peter Luhn創造了這個短語,並在他的研究中應用這個概念,推動了這個概念的使用[1]。
[編輯]- ^ Luhn, H. P. Keyword-in-Context Index for Technical Literature (KWIC Index). American Documentation (Yorktown Heights, NY: International Business Machines Corp.). 1959, 11 (4): 288–295. doi:10.1002/asi.5090110403.
[編輯]- List of English Stop Words (PHP array, CSV) (頁面存檔備份,存於網際網路檔案館)
- Full-Text Stopwords in MySQL (頁面存檔備份,存於網際網路檔案館)
- English Stop Words (CSV) (頁面存檔備份,存於網際網路檔案館)
- Hindi Stop Words
- German Stop Words (頁面存檔備份,存於網際網路檔案館), German Stop Words and phrases,another list of German stop words
- Polish Stop Words (頁面存檔備份,存於網際網路檔案館)
[編輯]- Stackoverflow: "One of our major performance optimizations for the 「related questions」 query is removing the top 10,000 most common English dictionary words (as determined by Google search) before submitting the query to the SQL Server 2008 full text engine. It’s shocking how little is left of most posts once you remove the top 10k English dictionary words. This helps limit and narrow the returned results, which makes the query dramatically faster."