全文检索

全文检索

全文检索 成语资讯 第1张

目录类搜索引擎和全文搜索引擎有什么区别?

最低0.27元/天开通百度文库会员,可在文库查看完整内容>

原发布者:海蝶20

实验A讨论思考:全文搜索引擎和目录索引引擎的区别是什么?全文搜索引擎因为依靠软件进行,所以数据库的容量非常庞大,但是,它的查询结果往往不够准确。分类目录依靠人工收集和整理网站,能够提供更为准确的查询结果,但收集的内容却非常有限。?搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。?搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功;而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。?当用于在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录(Directory)。?搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。因此,分类目录型搜索引擎营销方法与技术性搜索引擎的方式有很大的不同,需要充分了解这种区别,才能充分发挥各种不同搜索引擎的作用。实验B讨论思考:百度的广告策略如何策划的。谈谈你的看法。百度的广告策略主要是通过搜索推广、网盟推广、增值服务(百度指数、百度统计、百度推广助手、百度商桥)、其他推广服务(百度图片推广、百度品牌专区、百度火爆地带)、专业客户服务等几项来进行的。百度推广流程是:1.搜索:网民在百度搜索自己关注的关键词信息2.推广:企业的推广信息展现在关键词对应的搜索结果页3.点击:

全文搜索引擎因为依靠软件进行,所以数据库的容量非常庞大,但是,它的查询结果往往不够准确。分类目录依靠人工收集和整理网站,能够提供更为准确的查询结果,但收集的内容却非常有限。

1.搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。

2.搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功;而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。

3.当用于在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则,必须将网站放在一个最合适的目录(Directory)4.搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。

4. 因此,分类目录型搜索引擎营销方法与技术性搜索引擎的方式有很大的不同,需要充分了解,这种区别,才能充分发挥各种不同搜索引擎的作用。

全文检索,java中如何实现全文检索

自己做全文检索?字符串匹配要策略。直接用java实现的一些框架吧,lucene入门很快,用了一下还行。

下面是步骤地址

http://www.360doc.com/content/05/1207/12/2343_40970.shtml

望采纳 谢谢

java的开源的免费全文检索工具Lucene

Lucene不是一个完整的全文索引应用,而是是一个用Java写的全文索引引擎工具包,它可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能。

Lucene的作者:Lucene的贡献者Doug Cutting是一位资深全文索引/检索专家,曾经是V-Twin搜索引擎(Apple的Copland操作系统的成就之一)的主要开发者,后在Excite担任高级系统架构设计师,目前从事于一些INTERNET底层架构的研究。他贡献出的Lucene的目标是为各种中小型应用程序加入全文检索功能。

Lucene的发展历程:早先发布在作者自己的

www.lucene.com

,后来发布在SourceForge,2001年年底成为APACHE基金会jakarta的一个子项目:

http://jakarta.apache.org/lucene/

已经有很多Java项目都使用了Lucene作为其后台的全文索引引擎,比较著名的有:

Jive:WEB论坛系统;

Eyebrows:邮件列表HTML归档/浏览/查询系统,本文的主要参考文档“TheLucene search engine: Powerful, flexible, and free”作者就是EyeBrows系统的主要开发者之一,而EyeBrows已经成为目前APACHE项目的主要邮件列表归档系统。

Cocoon:基于XML的web发布框架,全文检索部分使用了Lucene

Eclipse:基于Java的开放开发平台,帮助部分的全文索引使用了Lucene

对于中文用户来说,最关心的问题是其是否支持中文的全文检索。但通过后面对于Lucene的结构的介绍,你会了解到由于Lucene良好架构设计,对中文的支持只需对其语言词法分析接口进行扩展就能实现对中文检索的支持。

这是全文检索,算法挺复杂。

http://baike.baidu.com/view/440795.htm

简单的点的,对文本或文件(夹)名,进行搜索的话可以结合Java的IO和正则表达式搜索

自己做全文检索?字符串匹配要策略。直接用java实现的一些框架吧,lucene入门很快,用了一下还行。

http://lucene.apache.org/

全文搜索引擎与目标索引类搜索引擎有什么区别?

一、指代不同

1、全文搜索引擎:从互联网上提取每个网站的信息(主要是网页文本),检索符合用户查询条件的相关记录,然后按一定顺序将结果返回给用户所建立的数据库。

2、目标索引搜索引擎:是一种以网页形式查找网络资源的网络信息检索工具。

二、特点不同

1、全文搜索引擎:以文本、语音、图像等各种数据为对象,提供基于数据内容而非外部特征的信息检索,具有对海量数据进行有效管理和快速检索的特点。

2、目标索引搜索引擎:使用自动索引软件收集和标记Web资源,并将这些资源存储在数据库中,当用户输入关键字时,在数据库中找到与关键字匹配的记录,并根据相关程序排序后显示输出。

三、影响不同

1、全文搜索引擎:是搜索引擎的核心技术,也是电子商务网站的支撑技术,全文检索技术可应用于企业信息网站、媒体网站、政府网站、商业网站、数字图书馆和搜索引擎。

2、目标索引搜索引擎:数据库是由自动索引软件生成的,其中包含的网络资源范围广,更新速度快,及时,但由于缺乏人工干预,准确性差,这种搜索工具适合于查找特定信息和特定问题,具有很强的特异性或难以明确分类,如百度搜索引擎。

参考资料来源:
百度百科-索引型搜索引擎
百度百科-全文搜索引擎
全文检索 成语资讯 第2张
一、指代不同

1、全文搜索引擎:通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。

2、目标索引类搜索引擎:是以网页形式提供查找网络资源的一种网络信息检索工具。

二、特点不同

1、全文搜索引擎:以各类数据如文本、声音、图像等为对象,提供按数据的内容而不是外在特征来进行的信息检索,其特点是能对海量的数据进行有效管理和快速检索。

2、目标索引类搜索引擎:使用自动索引软件来搜集和标记网页资源,并将这些资源存入数据库。当用户输入检索的关键词后,它在数据库中找出与该词匹配的记录,并按相关程序排序后显示输出。

三、影响不同

1、全文搜索引擎:是搜索引擎的核心技术,同时也是电子商务网站的支撑技术。全文检索技术可应用于企业信息网站、媒体网站、政府站点、商业网站、数字图书馆和搜索引擎中。

2、目标索引类搜索引擎:由自动索引软件生成数据库,所收录的网络资源范围广、速度快、更新及时,但因缺乏人工干预,准确性较差。这类检索工具适用于查找特定的信息以及专指性强或不易明确分类的具体问题,例如百度搜索引擎。

参考资料来源:
百度百科-索引型搜索引擎
参考资料来源:
百度百科-全文搜索引擎
全文检索 成语资讯 第3张
这个资料解释的比较详细:
搜 索 引 擎 分 类

搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。

■ 全文搜索引擎

全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。

从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的7家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。

■ 目录索引

目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎。其他著名的还有Open Directory Project(DMOZ)、LookSmart、About等。国内的搜狐、新浪、网易搜索也都属于这一类。

■ 元搜索引擎 (META Search Engine)

元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。

除上述三大类引擎外,还有以下几种非主流形式:

1、集合式搜索引擎:如HotBot在2002年底推出的引擎。该引擎类似META搜索引擎,但区别在于不是同时调用多个引擎进行搜索,而是由用户从提供的4个引擎当中选择,因此叫它“集合式”搜索引擎更确切些。

2、门户搜索引擎:如AOL Search、MSN Search等虽然提供搜索服务,但自身即没有分类目录也没有网页数据库,其搜索结果完全来自其他引擎。

3、免费链接列表(Free For All Links,简称FFA):这类网站一般只简单地滚动排列链接条目,少部分有简单的分类目录,不过规模比起Yahoo等目录索引来要小得多。

由于上述网站都为用户提供搜索查询服务,为方便起见,我们通常将其统称为搜索引擎。

首先搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。

全文搜索引擎与目标索引类搜索引擎区别在于:

全文搜索引擎是目前广泛应用的主流搜索引擎。它的工作原理是计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。

国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。

从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的7家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。

目录索引

目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎。其他著名的还有Open Directory Project(DMOZ)、LookSmart、About等。国内的搜狐、新浪、网易搜索也都属于这一类。

未经允许不得转载:七七文学网 » 全文检索

赞 (0)