互联网上除一般网页外,还如 PDF,DOC,RTF,xls,PPT(S) 等的文档文件 , 虽然这些文件不象 HTM 文件那样多,但这些文件通常会包含一些别处没有的重要资料 , 因此具有独特的价值和吸引力 ! 所以对网络中这部分资源的挖掘和利用也是搜索引擎的一个重要功能 . 对网络的这部分资源的挖掘和分析的水平也成了衡量一个搜索引擎完整与否 , 成熟与否的重要指标 . 多文档搜索是高级搜索的重要内容 , 与其他高级搜索功能一起 , 构成高级搜索功能体系 .
我们就一些搜索案例的比较来给大家展示一些网络文档搜索的技巧 , 并对主要提供文档搜索的搜索引擎百度和 google 做一比较 , 这些比较和方法也许会对你进一步准确获得你想要的信息有帮助 !
主要比较文档数量 , 语法使用的灵活性 , 准确性 , 多语法混合使用等等
数据
Query |
参比引擎 |
百度 |
Google |
filetype:doc 搜索引擎 |
1050 |
743 |
filetype:doc 计算语言学 |
546 |
214 |
filetype:doc 计算机检索 |
17700 |
6080 |
filetype:ppt 课件 |
13900 |
1480 |
filetype:ppt 软件开发模型
|
560 |
697 |
919000 |
697 |
filetype:pdf xml 高级编程 |
55 |
116 但是匹配的质量很差,由各自不同的分次特点决定的。 |
filetype:pdf 服务器安全 |
17800 |
6240 |
filetype:xls 报名 |
9940 |
1890 |
filetype:xls 名单 |
32300 |
3000 |
|
表 1 文档数量比较
性能
功能 |
参比引擎 |
百度 |
Google |
灵活性 |
支持三种方式查询
1 filetype: 格式 关键词
2 关键词 filetype: 格式
3 在高级搜索里选择 |
支持三种方式查询
1 filetype: 格式 关键词
2 关键词 filetype: 格式
3 在高级搜索里选择 |
准确性 整体上讲根网页搜索的效果差不多 ,由于各自分词的特点不同,所以对中文语义的理解上就会出现差异,所以在结果的数量并不是全部,但是对大多数关键词来说,百度的结果还是比较符合搜索目标的,而个别 google 的搜索结果就不太能令人满意。这也是由于 google 的强行前台分词造成的,结果数量多,并不精准。对于文档搜索来说准确恰当才是最重要的,数量只是其次。 |
多语法混用 |
一般的逻辑搜索: + - | 均能很好的支持
filetype:doc 演讲稿 吴敬琏
filetype:doc 演讲稿 - 教师
filetype:doc 演讲稿 | 演讲 |
其他高级搜索指令:
吴敬琏 filetype:doc site:pku.edu.cn
历史 filetype:doc inurl:org
经济 filetype:doc inurl:title 目前网络上很少有中文文件夹所以这样的检索也是没有意义的。 |
其他支持 |
1 支持对所有文档类型的搜索, filetype:all
2 支持把原来文档转换成 html 格式文档浏览
3 不支持对更多文档类型的扩展,但是可以在 mp3 搜索中选择 flash 类型搜索,但是百度支持在网页搜索中输入“ mp3: 刘德华”“ flash: 小兵”来搜索歌曲 |
1 不支持对所有文档类型的搜索,
2 支持把原来文档转换成 html 格式文档浏览
3 支持对更多文档类型的扩展,如 swf/xml 目前 google 还不支持更多 |
|
|
|
|
|
表 2 其他参数比较
一搜也提供文档搜索,目前支持的文件类型不多,文档的数量也不够(或者可检出的数量不够),而且使用习惯与其他的不同 (google , altavista , alltheweb 等 ) 所以不列入比较范围。
总体评价,百度多文档搜索无论从搜索的质量和数量都是要与 google 相当,甚至超出 google ,说明,中文搜索引擎在应用的深层次挖掘上已经不再落后于外来服务商。
我们有理由相信百度会提供更多更好的功能! |