有关搜索的一次聊天实录
xx:非医学专业的某搜索爱好者
oo:医学专业的某搜索爱好者
以下是对话实录,做了一些简单编辑。基本保持原样了,并征得二位许可,发布于此,希望能给大家一些启发,也希望检索知识交流版有更多喜欢搜索的专业非专业人士参与进来:
oo: 最近可好?
xx: 还行啊,
xx: 看了一下dxy
oo: dxy以讨论google为主,
oo: 其他搜索引擎不多,雅虎、msn、百度,再其他的几乎没有了。
xx: 可是里面偏重于医学方面的比较多
oo: 因为是检索版,
oo: 所以搜索不太多
oo: 有些实例也偏重医学知识信息的搜索。
oo: 相对要专业些,学术味道浓些。
xx: 是啊,看了一些感觉不错,只是有些专业术语,呵呵
oo: 呵呵。
xx: 对了,我一直有个问题想问你呢
oo: 您说。
xx: 我在baidu中搜索的时候,有些关键词在摘要中是有的,为什么打开了网页之后就没有这个关键词呢
oo: 这个网页被修改了。
oo: 可以在快照里看到这个关键词的,不同时期的版本。
xx: 是的,正如你所说的那样
xx: 呵呵,我怎么没想到呢
oo: 这点似乎在博客中多见。原本是第一页的,等你搜索的时候已经压到第二页去了,就找不到了。
xx: 呵呵,确实如此。我有时在想,如果哪天有了智能搜索引擎,我们这些搜索经验和技巧还有用吗,呵呵,有点杞人忧天了
oo: 前一阵子听说个新闻,一个有钱人身边戴上录音摄像设备。保存他自己的全部信息,应该是能转成文本的那种,据说要坚持10几年以上,
xx: 呵呵,猛,那也会造成他的隐私泄漏啊
oo: 他是为科学献身做试验了。
xx: 呵呵,敬佩
oo: 坚持若干年很有意义的。
oo: 将来,个人信息也应该都能够全部保存的。
xx: 对他自己也是很有用的
oo: 智能机器人也会普及的,芯片也会植入到大脑里的,人就不用读书学习了,哈哈。
xx: 我想这个时间还有点长吧
oo: 就是说若干年后总有这样一个阶段。
xx: google推出了他的语音搜索?
oo: voice
oo: 据说效果还不好吧。仅对北美开放?
xx: 支持中文可能有点难。好像对美国开放
xx: 很多都是这样的,比如购物搜索。也只是在美国有用
oo: 这也是中文搜索引擎落后英文搜索引擎一大截的原因所在吧。
oo: 谷歌严重落后google
xx: 就像国外真正的芯片技术并不在中国研发,而在本土研发
oo: 嗯。
xx: 看了你写的<我的搜客>,怎么后面不写了?
oo: 原本想写搜索十日谈的,结果那十篇东西到现在几乎没有一篇成文。基础太差,
xx: 也不要这么说啊
oo: 想写文字的时候就知道了。
oo: 搜索都是自己瞎玩。
oo: 没有正统的一些理念在内。
xx: 理论与实际相结合,实际需要理论来指导,更需要多多的实践
oo: 对。实践会了,但还没上升到理论的高度。
oo: 所谓“信息检索”,广义地说是“信息存储与检索”(Information Storage and Retrieval),它是将信息按照一定的方式组织和存储起来,并能根据信息用户的需要找出其中相关信息的过程。因此,从本质上讲信息检索是一种有目的和组织化的信息存取活动,其中包括了“存”和“取”两个基本环节。……
oo: 作为一种有目的和组织化的信息存取活动,信息检索中的“存”和“取”之间存在着密不可分的关系……
oo: 在通常情况下,大多数人讲到“信息检索”时,一般只涉及“取”,即主要关注如何从存储的信息集合中快速获取各种需要的信息。这时,信息检索也可以成为“信息查询”或“信息查找”(information search)。这是对信息检索概念的一种狭义理解。
oo: 有时候看看人家的文字,就知道自己有多浅薄了。
xx: 但我看了那么多有关搜索的文章,其实规则就很简单的几条,关键还是要不断地实践,总结,摸索。我有时总想去学习更多的搜索知识,但发现来发现去,总是那么几条,而忽略了实践的作用
oo: "恩,没有实践的话,就无法去想象如何去更好的查准、查全,一些特定的要求。
今天有一个人回的帖子,还是很有些新意的
http://www.dxy.cn/bbs/post/view?bid=6&id=6266041"
xx: 不错不错,其实这种交流才是我们需要的,而不是仅仅那些有关搜索的一些新闻
xx: 搜索中最重要的是什么?---关键词
oo: 说不准,或许是关键词,或许是引擎,或许是搜索的理念,或许是专业的、基础的、背景的知识。
xx: 呵呵,可能我想得太片面了,刚才你提到的那篇文章不错,里面提到了几个概念,还麻烦你解释一下,呵呵
oo: 什么概念阿?
xx: 阳光检索和灰色检索
oo: 什么是检索?前面我发给你的一段文字已经告诉你了。
xx: 是啊
oo: 什么是阳光检索,阳光检索其实就是检索。
xx: 不知道,不明白
oo: 是和灰色检索对应而来的。
oo: 这两个概念都是特定的概念,
xx: 也就是灰色检索有特定的含义
oo: 并不是检索自身有的概念。对医学或其他专业来说,文献是非常非常重要的,不知道这点你有体会没有。
xx: 可能我这个专业,网上现成资料比较多
oo: 文献检索的目的是为了1、找到某一篇文献,2、下载获取这篇文献的全文。
xx: 是,了解
oo: 第一步更是检索实际的内容。第二步其实是通过购买的方式,或者通过图书馆,他们购买权限之后,你就能下载阅读了。总之是要花钱。
xx: 对
oo: 但国内检索的怪现象,就是钻进国外的大学,或者非法获取数据库的权限,随意下载想要的文献,
xx: 难道灰色检索用来不用花钱来获取到这些文献。那不是要用户名和密码就可以了吗
oo: 嗯。有时候是人家自己不注意保护密码等隐私,把这些资料放在某个网页上。
xx: 这样的话,不就和一般的搜索没什么区别了?
oo: 也有一些国内检索者揣测他们的用户名,比如tom,smith,然后暴力***数据库。或者通过代理绕进大学图书馆,冒充正在馆内使用数据库,就能下载全文了,这很大部分是最简单的***技术。google hack本身我想你也听说过的。
xx: 是啊,这好像和检索搜索的关系不大啊?
oo: 对,而且以为这些才是真正的检索。怎么劝也不听。现在慢慢好些了。
xx: 是啊,不是还有这本书的吗
oo: 对。可以拥有google hack的技术,但不能利用这些技术干害人的事情的。
xx: 对,难道这就是灰色检索吗
oo: 嗯。可能最终伤人伤己。
xx: 是啊。难道没有正规途径吗
oo: 以前不多,现在渐渐好很多了。国内图书馆和相应机构能满足一些基本需求。
xx: 如果我能搜索到密码,那还算是吗。我看到生物谷里经常讲到如何搜索密码
oo: 现在搜索到的很多密码其实都是尸体了。
xx: 那这些算是文献检索了?
oo: 呵呵,很多人以为不是,很多人却以为是,或者不管是不是,先拿到全文再说。
xx: 呵呵,那还有:"还有就是按自然说话语序(在google中语序也很重要)"。这句话,我该如何去理解呢。是否关键词的词序很重要?
oo: 就是说检索词的排序问题,
xx: 也就是说应该按照我们讲话的顺序来组织关键词?
oo: 很早以前就发现检索词的先后对搜索结果的排序有影响。但是没研究过,隐约也觉得按照类似主谓宾的顺序搜索效果更好一些。可能也是说一个检索式,同时照顾到主谓宾,更可能是个完整的检索式?
xx: "citymice提到了好几个搜索时需要注意的细节,首先是“归类”,"归类的意思是否就是应该确定当前的搜索内容是属于哪个主题
oo: 呵呵,也可能,
xx: 如果谈到"关键词",它就属于"检索"
oo: 就是说通过“植物”这一个关键词就实现了。
xx: 这个是否和上位词的概念有点相同
oo: 检索和搜索不能截然分开的。应该有一点类似上位词。
xx: 信息检索语言的分类
信息检索语言有很多类型,可以按不同的方式和标准划分。
(一)按语言的结构原理划分
1.分类语言。其又可分为:
(1)体系分类语言:按学科体系层次,从上到下,从综合到一般,逐级展开,属层累制结构。
(2)组配分类语言:一般按学科性质分组,称为“组面”,标引时,选择“组面”和有关词汇加以组配。它是一种新型分类方法,其原理是用有关词汇结合文献信息的内容加以组配。
(3)混合分类语言:是体系分类语言和组配分类语言的结合,又因对二者的侧重之不同又有体系一组配分类语言和组配—体系分类语言之别,但都是先组配。
2.主题语言。按照主题词性质的不同,又可分为:
(1)标题词语言:从标题词作为文献信息内容的标引标识和检索标识。标题词一般分为主标题和副标题,词表中按级一一列举各级标题,把主标题和副标题加以组配,作为标引和检索使用中的依据。
(2)叙词语言:以规范化的标引词形
oo: 检索更偏重于专业、严谨
xx: 不知道这些理论对于我们究竟有什么作用,我们应该从中学到什么呢
oo: 加深对搜索的认识,
oo: 理念还有感觉。
oo: 叙词表在很多场合下也非常有用。
xx: 可否讲点给我听听,呵呵,我总是在"取"?没有去"存"
oo: 呵呵,偶的理解:医学很多时候既需要规范,又需要自由,如何进行统一呢,就需要利用一个叙词表了。不规范的词汇能对应到规范词汇上去。
xx: 哦,原来如此
oo: 也不肯定全是这样,记错了也不一定。呵呵。
xx: 但对于整个搜索而言,叙词表也太大了
oo: 呵呵,
xx: 每个专业都应该有个叙词表
oo: 相对整个网络网页容量来说,
xx: 我倒觉得维基百科是个庞大的叙词表
oo: 把各种语言各个专业的叙词表建好,最多不超过1t吧。
xx: 呵呵,好像1t=1024G
oo: 但是网页有多少啊?
xx: 不好说
oo: 至少相差1万倍吧。
xx: 很多很多,随着时间的变化,会成指数级增长呢
oo: 呵呵,对。网页会成指数级增长,词表却不会。基本的还就那些,新增的并不常用。
xx: 我赞同这个,就好像网页再多,用到的字也就是新华字典里的那些字,总不可能造字吧
oo: 字应该不超过1G了。
xx: 关键问题是现实中的网页中用的很多词并不是很规范的词啊
oo: 对。所以存在标引的说法,如果搜索“小孩”,google可能告诉你一些只包含“儿童”的网页。这就采用了标引的技术,
xx: 呵呵,好像这有点语义网的意思了,呵呵
oo: 对。
xx: 这用到了同义词
oo: 再往前发展就是智能搜索引擎了,能理解你的提问。
oo: 在医学词表里有这么两个概念,主题词、入口词,
xx: 那我们是否能做些什么呢
oo: 主题词就是一套规范的词表。
oo: 通过一些入口词也能自动转化为主题词进行搜索。
oo: 我们只管用就是了。
oo: 尽最大可能遵循搜索引擎的一些原则,
oo: 理解它,也让它理解我们,
xx: 我们现在能否做一些智能搜索引擎的事情,这样我们的搜索结果不就会很好了吗
oo: 就可能获得最好的搜索效果来。
xx: 就比如搜索"小孩",我用"小孩|儿童"
oo: 呵呵,智能搜索引擎也是需要通过一定的算法实现的,只是计算的速度和精度都升高了而已。
oo: 可事实并没有这么简单,比如我搜索“小孩 食物”
xx: 那我用"小孩|儿童 食物|食品"
oo: 你要用“小孩 | 儿童 | 小儿 | 儿科 AND 食物 | 营养 | 食品”
xx: 只是我们有时想不到这么多而已
oo: 进行搜索,最后还要把搜索结果组合起来,排序,要在几毫秒的时间提供给用户。对硬件的要求也是非常非常高的。
xx: 是啊。这样只能通过计算机来实现的
oo: 对。
xx: 我们能想到这些,为什么现在象baidu,它就没能实现呢
oo: 即使是智能搜索引擎、智能机器人也还是通过算法实现的。
xx: 是主观,还是客观原因呢
oo: 都有,
oo: 缺乏经济上的有力支持,
oo: 缺乏相关方面的人才,或者说还可能需要一些天才。
xx: 当前真正和搜索检索有关的专业还是比较少的
oo: 百度一年能投入多少钱搞研发?都推广它的竞价去了。百度尚且如此,其他搜索引擎就更不必说了。
xx: 我想可能这需要国家的扶持了
oo: 呵呵,难,就像微软也难以撼动google一样,法国还资助了一个搜索引擎项目。都有些难的。
xx: 是啊,我不是抨击其它搜索引擎,我觉得国内其它搜索引擎都很难超过baidu,何况是google。总是搞一些概念出来,比如"我支持电话号码搜索啊","我支持论坛搜索啊"
oo: 呵呵。都喜欢吹嘘的。
xx: 还有就是"支持区号查询只需要一个小的数据库就可以了"。软件很容易实现的
oo: 最难做的其实就是普通网页搜索。如何信息整理和挖掘是一门技术。
xx: 是啊,所有的东西都可以认为它是一个网页啊
xx: 哦,这样啊,我想编程是简单的,关键是算法。从一个程序员的角度,就是这么认为
oo: 嗯,偶不是很懂。更多关注应用层面。
xx: 但很多东西都停留在理论阶段,并没有去实现,我认为搜索引擎的发展,还是先有想法,然后有算法,最后是实现(编程 等等)
oo: 嗯。百度人没想法。
xx: 呵呵,这个不能这么绝对吧
oo: 呵呵。
xx: 总有一小部分的吧,我认为
oo: 确实已经是国内相对最好的一批程序员了。呵呵。但就百度实现的产品来看,
xx: 可能是他们的想法没得到实现
oo: 确实是没怎么体现出来。基本就是分析和模仿的过程,
xx: 呵呵,也不知是真是假
oo: 原创的开拓性的东西太少。
xx: 创造性是现代中国人最缺少的东东
xx: 和老外比起来
oo: 而且,百度把最主要的精力放在如何赚钱上面去了,
oo: 上市后压力实在太大了。
xx: 这是所有中国企业的通病
xx: 我认为baidu它如果真是靠技术起家,如果不真正地走下去,后面就很难说了
oo: 总隐隐觉得有些拔苗助长的危机在里面。
oo: 开发市场的力度大于开发产品的力度。
oo: 总吹嘘在中文搜索引擎里如何如何,
xx: 矮子里面选将军
oo: 和google的差距已经不是一点半点了。
oo: 而和谷歌相比较的优势也不完全是通过光明正大竞争得来的。
xx: 什么意思?呵呵
oo: google在国内受到的限制太多。
xx: 哦,是的,这和官方有关系的
xx: 毕竟中国是新闻管制的
xx: 今天上午刘建超还说中国没有对互联网进行管制呢
xx: 我觉得他自己都不信
oo: 呵呵。不说这些了。是非曲直都在大家眼里呢。
xx: 是啊,我觉得我们多关心一下具体的搜索
oo: 以前的事也不想提了,
xx: 我们是用搜索引擎
oo: 只希望百度以后能做好一些。
xx: 也不是开发搜索引擎。我想总有一家公司会把搜索引擎做好的,然后我们就用它的就是了
oo: 嗯,
oo: 这话没错,
oo: 即使哪天google关门了,整个搜索引擎行业和现在比也只是进步,不会是退步的。
xx: 是啊,只要网络存在,搜索引擎就会存在
xx: 就算网络不存在,搜索也会存在
oo: 精彩!
xx: 搜索能力是每个人都应该掌握的,呵呵
oo: 搜索素养,信息素养。两个糊弄人的新词,记住了,以后就可以拿去糊弄别人了,呵呵。
xx: 呵呵,知道了
xx: 就像托关系找人办事一样,这也是一种搜索
oo: 嗯。吾将上下而求索。
xx: 我会牢记于心的
oo: 呵呵。
oo: 搜索分成两类:一是重新找出你已经确知存在于网络中的东西的搜索;二是发现我们本能地认为存在于网络中却还没有找到的东西的搜索。
oo: http://www.dxy.cn/bbs/post/view?bid=6&id=5510160&sty=1&tpg=1&age=0
xx: 对了,你现在还学习搜索相关的东西吗
oo: everyday
xx: 除了dxy,能否推荐一些网站或论坛啊。我比较实际啊,呵呵
oo: 我现在主要登4个网站,dxy,中文搜索指南,医学信息学论坛,和你关系也不大的。最后一个是百度新闻。其他的已经没时间看了。
xx: 呵呵,有点专业性
oo: 或者说通过搜索获取我想知道的知识。
xx: 是啊,我每天也在做这些事情
xx: 就是有时候比较急躁,往往忘记最初的想法了
oo: 呵呵,
xx: 我更喜欢9238那种网站
oo: 呵呵,对,可惜去了百度之后,再没听到多少精彩发言了。
xx: 可惜啊,是啊,难道是为了技术保密,呵呵
xx: 看那些你们写的搜索过程,真是一种享受啊
oo: 呵呵。
xx: 真的,可以拓宽自己的思维的
oo: 嗯。
xx: 就比如今天你告诉我的那个帖子,
xx: 真是好帖子啊,关键是大家都能讨论
oo: 呵呵,
oo: 因为最后几个帖子得到升华。
xx: 如果每个人都自己想,结果就不是那样了
oo: 对,
oo: 讨论才有提高。
xx: 交流多了,对己对人都有益处的
oo: 你也可以参加讨论啊。
oo: 不一定非要是医学相关的问题,
xx: 是啊,我该检讨一下自己的
oo: 也不是说非要从医学角度去研究。
xx: 感觉dxy里的高人还是蛮多的
oo: 从自己的特定的视角,确立自己的搜索思路,再和别人的比较,就能互相学习互相借鉴,互相提高。
xx: 呵呵,是啊,我也可以提出自己的疑问,让大家来讨论吗
oo: 也很及时。
oo: 随时欢迎。
oo: 或许今天我们的对话内容整理整理,发上去也是一篇不错的文章呢。
xx: 呵呵
xx: csdn上经常有人会整理这些对话记录的
oo: 呵呵,没整理过。
oo: 等会试试。
xx: 而且我总想能联系到更多的对搜索有兴趣的朋友,其实这本事也是一种搜索,分析,总结的过程。所谓志同道和,
oo: 嗯。对。
xx: 稍微等一会,我去有点事
oo: 呵呵,
oo: 我一会也下了,以后再聊。
oo: 88
xx: 好的,88
最后编辑于 2006-06-02 · 浏览 1007