020-29133788
    资 讯
    您的位置:首页 >> 资 讯 >> 电脑基础 >> 正文
    利用Google收寻方法及技巧

    点击:   发布日期:2012-12-30

    本文来自 www.020fix.com

    1 Google成为目前最受欢迎的搜寻引擎
    Google(WWW.Google.com)是当今一个优秀的搜寻引擎,其功能强大、特点突出、技术先进和服务优良,它在业界评测中获得多项大奖,各大引擎竞相模彷其功能和特色。Google非中国本土公司,但它支援中文搜寻,其中文搜寻引擎是收集亚洲网站最多的搜寻引擎之一,国内使用其独立搜寻引擎的人数急剧增长。
    目前,全世界访问量最大的4个网站中,3家采用了Google的搜寻技术,80%的互联网搜寻是通过Google或使用Google技术的网站完成的。目前Google每个月接待来自世界各地的超过2800万独立访问者,全球网民通过Google可以使用86种语系,搜寻30多亿个网页及其网页快照,以及4亿多张图片,每个月Google被使用者使用的时间为1500万小时左右。
    据搜寻引擎观察者网络杂志统计结果显示,至2002年10月份,网民使用Google的时间量每月达到1610万小时;相比之下,雅虎只吸引了660万小时,微软 MSN仅有520万小时[3]。

    2 利用Google进行专题讯息检索的方法和技巧
    关键词检索功能是网络讯息检索工具的基本检索功能,也是Google最基本的检索功能。关键词属于自然语系,灵活、不受词表控制,但简单的关键词检索方法,命中过多,查准率很低,Google为最佳化关键词检索效能,提供了按关联度排序结果、布尔逻辑检索,短语或是句子检索、加权检索和限制检索等增强措施。
    利用Google进行专题讯息检索,为提高查准率,须认真分析课题,选取恰当的关键词,掌握和运用Google检索语法规则,准确设计表达需求的检索式,反覆调整检索策略,才能获得高质量的检索结果。

    2.1 简单专题讯息检索,最直截了当就是在搜寻框内输入一个关键词,然后点击下面的「Google搜寻」按钮(或是直接Enter),结果就出来了。
    若果检索人员或使用者对查询的领域熟悉,只想寻找某些专题网站,首先考虑用目录检索,Google根据其专业的「网页层级」(PageRank)技术对目录中登入的网站进行了排序,可以使检索具更高效率,按所需主旨确定沿某类层层寻找网站,目录分类明确,网站专题讯息集中,剔除了大量不关联的讯息,不过对寻找中文讯息,Google的中文目录太少,只有非常普通简单的类目,可能很难满足要求。

    2.2 熟练掌握Google的基本搜寻:+,-,OR ,学会使用两个关键字进行复杂专题讯息检索
    检索复杂专题依靠单个关键词查准率很低,要提高查全检准率,需进行详细的主旨分析,选取多个关键词构造检索式。要分清主要概念和次要概念,去掉被隐含了的概念,确定需要排除的某些概念和不宜选用的泛指概念,以便在制定检索策略时有所侧重,保证检索提问的确切表达。
    正确选取关键词,各种类型的检索课题对检索的查全率和查准率有着不同的要求,可以增加上位概念或下位概念的方法来扩检[4],若查准率要求较高,应使用专指性较强的概念或增加限制概念来缩小检索范围,还可通过对字段进行限定的模式来保证寻找的准确性。对于那些对查全率和查准率无特殊要求的使用者来说,也要针对不同的课题,制定相应的检索策略。
    对文献量较大或属于成熟学科的课题,应优先考虑查准率,从众多的关联文献中选取针对性较强的文献。对文献较少或新兴学科的课题,可适当放宽检索范围来保证查全率,以免遗漏重要的参考文献。
    选取正确的关键词后,就要运用Google检索语法规则构建检索式。

    Google无需用明文的「+」来表示逻辑「与」动作,只要空格就可以了。
    示例:搜寻所有包括关键词「易筋经」和「吸星大法」的中文网页
    搜寻式:「易筋经 吸星大法」(注意:文章中搜寻语法外面的引号仅起引用作用,不能带入搜寻栏内。)

    Google用减号「-」表示逻辑「非」动作。 
    示例:搜寻所有包括「易筋经」而不含「吸星大法」的中文网页
    搜寻式:「易筋经 -吸星大法」(注意:这里的「+」和「-」号,是英文字元,而不是中文字元的「+」和「-」。此外,动作符与作用的关键字之间,不能有空格。比如「易筋经 - 吸星大法」,搜寻引擎将视为逻辑「与」动作,中间的「-」被忽略。)

    Google用大写的「OR」表示逻辑「或」动作( 注意:小写的「or」,在查询的时候将被忽略;这样上述的动作实际上变成了一次「与」查询)。但是,关键字为中文的或查询似乎还有BUG,无法得到正确的查询结果。
    示例:搜寻包括布兰妮「Britney」或是披头士「Beatles」、或是两者均有的中文网页。
    搜寻式:「britney OR beatles」
    结果:已搜寻有关britney OR beatles的中文(简体)网页。共约有14,600项查询结果,这是第1-10项。搜寻用时0.08秒。
    搜寻式:「布兰妮 OR 披头士」
    结果:找不到和您的查询-布兰妮 OR 披头士-相符的网页。

    「+」和「-」的作用有的时候是相同的,都是为了缩小搜寻结果的范围,提高查询结果命中率。
    例:查阅天龙八部具体是哪八部。 
    分析:若果光用「天龙八部」做关键字,搜寻结果有26,500项,而且排前列的主要与金庸的小说《天龙八部》关联,很难找到所需要的讯息。可以用两个方法减少无关结果。 
    ( 1)、若果你知道八部中的某一部,比如阿修罗,增加「阿修罗」关键字,如「天龙八部 阿修罗」。搜寻结果就只有995项,可以直接找到全部八部。 
    ( 2)、若果你不知道八部中的任何一部,但知道这与佛教关联,可以排除与金庸小说关联的记录,如「天龙八部 佛教 -金庸」。查询结果为1,010项,可以迅速找到需要的资料。

    2.3 熟悉Google的辅助搜寻方法:关键字、大小写、句子、忽略字元以及强制搜寻 [5]
    Google不支援关键字,如「*」、「?」等,只能做精确查询,关键字后面的「*」或是「?」会被忽略掉。 
    Google对英文字元大小写不敏感,「GOD」和「god」搜寻的结果是一样的。  
    Google的关键字可以是词群组(中间没有空格),也可以是句子(中间有空格),但是,用句子做关键字,必须加英文引号。
    示例:搜寻包括「long, long ago」字串的页面。
    搜寻式:「「long, long ago「」
    结果:已向英特网搜寻「long, long ago「. 共约有28,300项查询结果,这是第1-10项。搜寻用时0.28秒。 
    注意:和搜寻英文关键字串不同的是,Google对中文字串的处理并不十分完善。比如,搜寻「「啊,我的太阳「」,我们希望结果中含有这个句子,事实并非如此。查询的很多结果,「啊」、「我的」、「太阳」等词语是完全分开的,但又不是「啊 我的 太阳」这样的与查询。

    Google对一些网络上出现频率极高的词(主要是英文单词),如「i」、「com」,以及一些符号如「*」、「.」等,作忽略处理,若果使用者必须要求关键字中包括这些常用词,就要用强制语法「+」。
    示例:搜寻包括「Who am I ?」的网页。若果用「「who am i ?「」,「Who」、「I」、「?」会被省略掉,搜寻将只用「am」作关键字,所以应该用强制搜寻。
    搜寻式:「「+who +am +i「」(注意:英文符号(如问号,句号,逗号等)无法成为搜寻关键字,加强制也不行 )
    结果:已向英特网搜寻「+who +am +i「. 共约有362,000项查询结果,这是第1-10项。搜寻用时0.30秒。

    2.4 瞭解Google的进阶搜寻语法:site,link,inurl,allinurl,intitle,allintitle

    「site」表示搜寻结果局限于某个具体网站或是网站频道,如「sina.com.cn」、「edu.sina.com.cn」,或是是某个域名,如「com.cn」、「com」等等。若果是要排除某网站或是域名范围内的页面,只需用「-网站/域名」。 
    示例:搜寻中文教育科研网站(edu.cn)上所有包括「金庸」的页面。
    搜寻式:「金庸 site:edu.cn」
    示例:搜寻包括「金庸」和「古龙」的中文新浪网站页面,
    搜寻式:「金庸 古龙 site:sina.com.cn」
    结果:已在sina.com.cn搜寻有关金庸 古龙的中文(简体)网页。共约有869项查询结果,这是第1-10项。搜寻用时0.34秒。
    注意:site后的冒号为英文字元,而且,冒号后不能有空格,否则,「site:」将被作为一个搜寻的关键字。此外,网站域名不能有「http」以及「www」前缀,也不能有任何「/」的目录后缀;网站频道则只局限于「频道名.域名」模式,而不能是「域名/频道名」模式。诸如「金庸 site:edu.sina.com.cn/1/」的语法是错误的。

      
    使用「link」语法,将搜寻到所有连结到某个URL位址的网页。 
    示例:搜寻所有含指向华军软体园「www.newhua.com」连结的网页。
    搜寻式:「link:www.newhua.com」  
    注意:「link」不能与其他语法相溷合动作,所以「link:」后面即使有空格,也将被Google忽略。

    使用inurl语法,返回的网页连结中包括第一个关键字,后面的关键字则出现在连结中或是网页文件中。有很多网站把某一类具有相同属性的资源名称显示在目录名称或是网页名称中,比如「MP3」、「GALLARY」等,于是,就可以用INURL语法找到这些关联资源连结,然后,用第二个关键词确定是否有某项具体资料。INURL语法和基本搜寻语法的最大区别在于,前者通常能提供非常精确的专题资料。
    示例:寻找MIDI曲「沧海一声笑」。
    搜寻式:「inurl:midi 沧海一声笑」
    结果:已搜寻有关inurl:midi 沧海一声笑的中文(简体)网页。共约有14项查询结果,这是第1-10项。搜寻用时0.01秒。
    示例:寻找微软网站上关于windows2000的安全课题资料。
    搜寻式:「inurl:security windows2000 site:microsoft.com」
    结果:已在microsoft.com内搜寻有关 inurl:security windows2000的网页。共约有198项查询结果,这是第1-10项。搜寻用时0.37秒。
    注意:「inurl:」后面不能有空格,Google也不对URL符号如「/」进行搜寻。Google对「cgi-bin/phf」中的「/」当成空格处理。

    使用allinurl语法,返回的网页连结中包括所有查询关键字,这个查询的对象只集中于网页的连结字串。   
    示例:寻找可能具有PHF安全漏洞的公司网站。通常这些网站的CGI-BIN目录中含有PHF脚本程式(这个脚本是不安全的),表现在连结中就是「域名/cgi-bin/phf」。
    搜寻式:「allinurl:「cgi-bin「 phf +com」
    结果:已向英特网搜寻allinurl:「cgi-bin「 phf +com. 共约有40项查询结果,这是第1-10项。搜寻用时0.06秒。 
    allintitle和intitle的用法类似于上面的allinurl和inurl,只是后者对URL进行查询,而前者对网页的标题栏进行查询。网页标题,就是HTML标示语系title中之间的部分。网页设计的一个原则就是要把主页的关键内容用简洁的语系表示在网页标题中。因此,只查询标题栏,通常也可以找到高关联率的专题页面。
    示例:寻找日本明星籐原纪香的照片集。
    搜寻式:「intitle:籐原纪香 写真」
    结果:已搜寻有关intitle:籐原纪香 写真的中文(简体)网页。共约有284项查询结果,这是第1-10项。搜寻用时0.03秒。

    2.5 Google的罕用进阶搜寻语法:related,cache,info

    related用来搜寻结构内容方面相似的网页。例:搜寻所有与中文新浪网主页相似的页面(如网易首页,搜狐首页,中华网首页等),「related:www.sina.com.cn/index.shtml」。 
    cache用来搜寻Google伺服器上某页面的快取,这个功能同「网页快照」,通常用于寻找某些已经被删除的死连结网页,相当于使用普通搜寻结果页面中的「网页快照」功能。
    info用来显示与某连结关联的一系列搜寻,提供cache、link、related和完全包括该连结的网页的功能。
    示例:寻找和新浪首页关联的一些资讯。
    搜寻式:「info:www.sina.com.cn」

    3 Google的其他重要功能介绍
     
    目录服务  若果不想搜寻网页,而是想寻找某些专题网站,可以访问Google的分类目录http://directory.Google.com/」,中文目录是http://directory.Google.com/Top/World/Chinese_Simplified/」。不过由于Google的目录由志愿者服务,而GOOGLE在国内名气相对比较小,因此中文目录下收录站台很少[6]。
     
    工具条  为了方便搜寻者,Google提供了工具条,整合于浏览器中,使用者无需开启GOOGLE主页就可以在工具条内输入关键字进行搜寻。此外,工具条还提供了其他许多功能,如显示页面PageRank、设定拦截跳出广告等。最方便的一点在于使用者可以快捷的在Google主页、目录服务、新闻群组搜寻、进阶搜寻和搜寻设定之间切换。目前Google主页已提示下载安装Google工具条。

    新闻群组(USENET)搜寻 新闻群组中有大量的有价值讯息,DEJA一直是新闻群组搜寻引擎中的佼佼者。2001年2月份,Google将DEJA收购併提供了所有DEJA的功能。现在,除了搜寻之外,Google还支援新闻群组的WEB模式浏览和张贴功能。输入http://groups.Google.com/」后,便进入Google新闻群组界面。可惜现在还没有中文界面。新闻群组进阶搜寻界面提供对关键字、新闻群组、主旨、作者、帖子序号、语系和发布日期的条件搜寻。其中作者项指作者发帖所用的唯一识别号电子信箱。比如要在alt.chinese.text内搜寻着名老牌网络写手图雅的帖子,可以用下列指令「group:alt.chinese.text author:tuya@ccmail.uoregon.edu」。不过一般而言,更推荐使用图形搜寻界面,方便而且直观。

    搜寻结果翻译   曾经为那些你不懂的法文、西班牙文页面烦恼么?现在,Google支援一项搜寻结果翻译功能,可以把非英文的搜寻结果翻译成英文!!目前只支援有限的拉丁语、法语、西班牙语、德语和葡萄牙文。只能在英文状态Google下实现这个功能。进入Google的设定页面http://www.Google.com/preferences,有一个「BETA: Enable translation of search results into your interface language. 」的选项,把它选中,就OK了。

      
    搜寻结果过滤 网络上的成人内容浩如烟海,而且很多站台具有欺骗或是其他不良企图,浏览者很容易掉入其中的陷阱。为此,Google新设立了成人内容过滤功能,见Google的设定页面http://www.Google.com/preferences,最底下有一个选项SafeSearch Filtering。不过,中文状态下的Google尚没有这个功能。 

    PDF文件搜寻   Google提供对PDF文件内文的检索。目前Google检索的PDF文件大约有2500万左右。PDF是ADOBE公司开发的电子文件格式,现在已经成为互联网的电子化出版标准。PDF文件通常是一些图文并茂的综合性文件,提供的资讯一般比较集中全面。 
    示例:搜寻关于电子商务(ECOMMERCE)的PDF文件。
    搜寻式:「inurldf ecommerce」   
    下面是某项搜寻结果:  
    [PDF] www.usi.net/pdf/outsoucing-ecommerce.pdf  Outsourcing Electronic Commerce Business Case White Paper By: John P. Sahlin, Product  Marketing Professonial (PMP) Implementation Manager, Web Engineering ...   一般文字档 - 类似网页
    可以看到,Google在PDF档前加上了[PDF]的标示,而且,Google把PDF档案转换成了文字档,点击「一般文字档」,可以粗略的检视该PDF文件的大致内容。当然,PDF原有的图片以及格式是没有了。
     
    图像文件搜寻   Google提供了Internet上图像档案的搜寻功能!!位址是「images.Google.com」。你可以在关键字栏位内输入描述图像内容的关键字,如「刘德华」。 Google给出的搜寻结果具有一个直观的缩略图,以及对该缩略图的简单描述,如图像档案名称,以及大小等。点击缩略图,页面分成两祯,上祯是图像之缩略图,以及页面连结,而下祯,则是该图像所处的页面。萤幕右上角有一个「移除栏框」的按钮,可以把框架页面迅速切换到单祯的结果页面,非常方便。Google还提供了对成人内容图像的限制功能,可以让搜寻者免受不必要的骚扰。

    4 Google特殊套用搜寻案例介绍: 
    关键词的选取在搜寻中起到决定性的作用,所有搜寻技巧中,关键词选取是最基本也是最有效的。

    4.1 搜寻之前先思考   搜寻引擎本事再大,也搜寻不到网上没有的内容,而且,有些内容虽然存在网上,却因为各种原因,而成为漏网之鱼。所以在你使用搜寻引擎搜寻之前,应该先花几秒种想一下,我要找的东西网上可能有吗?网页上会含有哪些关键字? 

    例一:寻找《镜花缘》一书中淑士国酒保的酸话原文。
    分析:若果按照一般的思路,找某部小说中的具体段落,就需要用搜寻引擎先找到这本书,然后再翻到该段落。这样做当然可以,但是效率很低。若果瞭解目的讯息的构成,用一些目的讯息所特有的字词,可以非常迅速的查到所需要的资料。也就是说,高效率的搜寻,关键字不一定就是目的讯息的主旨。在上面的例子中,酒保谈到酒的浓澹与贵贱的关係时,之乎者也横飞。因此,可以用特定的词语一下子找到目的资料。 
    搜寻:「酒贵贱之」,OK,找到的第一条讯息就是镜花缘的这一段落:「先生听者:今以酒醋论之,酒价贱之,醋价贵之。因何贱之?为甚贵之?真所分之,在其味之。酒昧澹之,故而贱之;醋味厚之,所以贵之。...」 以上的关键字选取技巧可以谓之「特定词法」。

    例二:「黄花闺女」一词中「黄花」是什么意思。 
    分析:「黄花闺女」是一个约定的俗语,若果只用「黄花闺女 黄花」做关键词,搜寻结果将浩如烟海,没什么价值,因此必须要加更多的关键词,约束搜寻结果。选取什么关键词好呢?备选的有「意思」、「含义」、「来历」、「由来」、「典故」、「出典」、「渊源」等,可以猜到的是,类似的资料,应该包括在一些民俗介绍性的文字里,所以用诸如「来历」、「由来」、「出典」等词汇的概率更高一些。
    搜寻式:「黄花闺女 黄花 由来」,查到「黄花」原来出典于《太平御览》,与南朝的寿阳公主关联。若果想获得第一手资料,那就可以用「太平御览 寿阳公主」做搜寻了。 以上的关键字选取技巧可以谓之「近义词法」。

    例三:刘德华的胸围是多少。 
    分析:非常直接的搜寻是,「刘德华 胸围」,但事实上,这么搜寻出来的结果,尽是一些诸如「刘德华取笑莫文蔚胸围太小」之类的八卦新闻,无法快速得到所需要的资料。可以想到的是,需要的资料应该包括在刘德华的全面介绍性文字中,除了胸围,应该还内含他的身高,体重,生日等一系列关联讯息。OK,这样就可以进一步的增加其他约束性关键词以缩小搜寻范围。 
    搜寻式:「刘德华 胸围 身高」,没有料到的情况发生了,网上炙手可热的痞子蔡《第一次亲密接触》里居然含有这样关键字,阿泰「改编自刘德华《忘情水》的变态歪歌」、「用身高体重三围和生日来加以编号」。好办,把这部小说去掉,「刘德华 胸围 身高 -阿泰」,OK,结果出来了,华仔胸围84cm。说明一下,为什么用「阿泰」而不用「第一次亲密接触」呢?这是因为小说的名字被转载的时候可能有变动,但里面角色的名字是不会变的。 
    以上的关键字选取技巧可以谓之「关联词法」。

    4.2 其他常用搜寻个案
     
    例一:找人   分析:一个人在网上揭示的资料通常有:姓名,网名,性别,年龄,毕业学校,工作单位,外号,住址,电话,信箱,BP,手机号码,ICQ号,OICQ号等等。所以,若果你要瞭解一下你多年没见过的同学,那不妨用上述讯息做关键字进行查询,也许会有大的收穫。

    例二:找软体 分析一:最简单的搜寻当然就是直接以软体名称以及版本号为关键字查询。但是,仅仅有软体名称和目的网站,显然还不行,因为搜寻到的可能是软体的关联新闻。应该再增加一个关键字。考虑到下载页面上常有「点击此处下载」或是「download」的提示语,因此,可以增加「下载」或是「download」为关键字。
    如, 搜寻式:「winzip 8.0 下载」
    分析二:很多网站设有专门的下载目录,而且就命名为「download」,因此,可以用INURL语法直接搜寻这些下载目录。
    搜寻式:「winzip 8.0 inurl:download」
    在互联网上随意的下载软体是不安全的,因为供下载的软体有可能带有病毒或是捆绑了木马,所以,对下载网站作一个限定,是一个稳妥的思路。可以用SITE语法达到这个目的。 
    共享软体下载完之后,使用的时候,软体总跳出警示框,或是软体的功能受到一定限制。由于中国的网民多是人,所以应该再找一个注册码。找注册码,除了软体的名称和版本号外,还需要有诸如「serial number」、「sn」、「序号」等关键字。现在,来搜寻一下winzip8.0的注册码。
    搜寻式:「winzip 8.0 sn」
    结果:已向英特网搜寻winzip 8.0 sn. 共约有777项查询结果,这是第1-10项。搜寻用时0.30秒。
     
    例三:找图片 除了Google提供的专门图片搜寻功能,还可以群组合使用一些搜寻语法,达到图片搜寻之目的。
    分析一:专门的图片集合,提供图片的网站通常会把图片放在某个专门目录下,如「gallary」、「album」、「photo」、「image」等。这样就可以使用INURL语法迅速找到这类目录。现在,试着找找小甜甜布兰妮的照片集。
    搜寻式:「「britney spears「 inurlhoto」
    结果:已向英特网搜寻「britney spears「 inurlhoto. 共约有2,720项查询结果,这是第1-10项。搜寻用时0.23秒。
    分析二:提供图片集合的网页,在标题栏内通常会注明,这是谁谁的图片集合。于是就可以用INTITLE语法找到这类网页。
    搜寻式:「intitle:「britney spears「 picture」
    结果:已向英特网搜寻intitle:「britney spears「 picture. 共约有317项查询结果,这是第1-10项。搜寻用时0.40秒。
    分析三:明星的FANS通常会申请免费个人主页来存放他们偶像的靓照。于是用SITE语法指定某免费主页提供站台,是个迅速找到图片的好办法。
    搜寻式:「「britney spears「 site:geocities.com」
    结果:已在geocities.com内搜寻有关「britney spears「的网页。共约有5,020项查询结果,这是第1-10项。搜寻用时0.47秒。