登陆注册
48710800000070

第70章 科普搜索的研究与实现(1)

吴晨生 刘彦君 张鲁冀 董晓晴

(北京市科学技术情报所,北京,100876)

摘要:本文综合应用主题搜索技术和深网信息集成技术,设计并实现了一个基于科普领域的主题深度搜索引擎。文中介绍了系统的体系结构、主题信息采集策略以及所使用的关键技术,并通过实验验证了网页分类器的高准确性,最后设计实验验证系统搜索效果并对相关工作进行了比较分析。

关键词:深网主题搜索引擎主题分类机器人网页分类器

一、引言

目前,针对某一领域的主题搜索引擎的研究已成为研究热点之一,超过50%的深网内容是特定于某个领域的,即面向某个领域,针对基于领域的深网信息集成技术的研究也成为当今信息检索领域研究的一个热点。本文所描述的科普深度搜索引擎正是上述两种技术结合于科普领域的产物。

二、系统结构

本文在传统的主题搜索引擎体系结构的基础上,加入了深网信息集成方案,研究并利用科普领域知识的特征,设计出科普深度搜索引擎的结构。

现对主要部分做简要说明:

(1)主题分类机器人:完成从web中采集科普领域信息并入库的工作;

(2)深网信息集成:协调调用相应机器人完成对指定深网网站的实时检索功能并将合并结果返回;

(3)索引器:完成对库中科普领域数据创建索引文件的工作;

(4)查询器:根据用户输入的查询条件查询索引文件并返回查询结果;

(5)用户接口:为用户提供综合的查询接口。

三、主题信息采集策略

本文研究分析了科普领域信息的特征,并根据这些特征,有针对性地设计主题信息采集策略。

1.科普领域信息特征分析

通过研究观察发现,科普领域信息在网络分布上和覆盖范围上有以下特征:

(1)网络分布上:科普领域信息多以块状分布于整个web中,其中每一个块多以独立的网站形式存在,少数块存在于大型网站的二级结构中,更少数的科普信息散落地存在于网络中。

(2)覆盖范围上:相较于其他主题信息如林业、农业以及医学等,科普领域信息覆盖范围较大,如天文、地理、生物、历史考古、IT等均属于科普领域。

针对上述特征分析,得出如下分析结果:

①科普领域信息的块状分布有利于我们对大部分信息的集中采集,目标是找到尽可能多的块,放弃少数散落的科普信息,这是对科普信息高效采集的一种考虑。

②基于领域的深网信息集成技术是科普领域信息搜索的可行思路。

③由于科普领域覆盖范围较宽,我们将科普主题进行了分解,将其分为天文主题、地理主题、生物主题、考古主题以及综合主题,分别提取各子类主题特征,综合所有细分主题的特征作为科普主题判断依据。

2.数据采集策略设计

根据上述分析,我们设计出两种科普数据采集方案:人工干预策略与先采集后过滤策略相结合的主题爬虫采集策略;科普领域深网信息集成方案。

(1)主题爬虫采集策略能够高效完成对大量科普领域信息的采集。策略描述如下:

①收集科普主题网站作为主题机器人爬行的种子urls并入库保存;

②机器人从库中读取一个url;

③机器人以读取到的url为起始链接,以宽度优先策略进行遍历;

遍历过程遵循规则:若待爬url为种子url域名内链接,则直接抓取此页面;否则,用网页分类器对此url页面进行分类过滤,若属于科普领域页面则抓取,否则放弃此url。

④循环上述②、③步骤。

(2)科普领域深网信息集成方案描述:首先,有针对性地选择查询效果好的科普网站,分别制作表单查询机器人;其次,设计调度机制。根据用户选择调用相应的表单查询机器人,由其填写表单进行实时深网信息采集。

四、关键技术

科普深度搜素引擎所使用的关键技术有主题爬虫技术、深网信息集成技术以及基于Lucene的索引机制,下面对这些技术进行详细分析。

1.主题分类机器人

科普深度搜索引擎的主题分类机器人通过站内网页判断和科普网页分类两种方式对网络信息进行过滤抓取,有较高的分类准确率和采集效率。

(1)机器人架构

机器人的制作基于工作流/组件技术的网页信息抽取系统VWIE来完成。利用VWIE的组件可扩展性,我们为其添加了分类器组件以及域名判断组件,用以实现具有页面过滤和站内页面判断功能的主题分类机器人的制作。

(2)分类器核心算法

SVM分类算法是目前分类效果非常好的一种文本分类算法,故本文系统分类器采用SVM分类算法。支持向量机理论(SVM)最初来源于数据分类问题的处理,简单地说,SVM就是要寻找一个满足要求的分割平面,使训练集中的点距离该平面尽可能地远,即寻求一个分割平面使其两侧的margin尽可能最大。一般分为线性可分和线性不可分两种情况讨论:

给定一组训练样本集(x1,y1),(x2,y2),…,(xi,yi),其中xi∈RN为N维向量,yi∈{-1,1}。

(3)分类器准确率实验

①分类训练样本设置

训练样本分为科普和非科普两类,我们对这两类进行了细分,尽可能多地将其划分为小类。

②实验结果

我们人工从目录网站及Google上共搜集到349个科普网站,随机从中选择50篇网页作为科普类网页,从新浪博客中人工选取50篇网页作为非科普类网页作实验数据。

实验结果表明:SVM分类器用于科普主题分类有较高的准确性。

2.深网信息集成

根据用户的选择协调调用相应机器人、机器人对用户选择的深网网站进行实时检索,最后合并机器人查询结果返回给用户接口。

(1)技术基础

系统深网信息集成的技术基础是基于网页结构分析的表单填写技术。

(2)集成框架

3.基于Lucene的检索机制

系统信息检索部分使用Lucene实现索引器和查询器功能,但Lucene中文分词并不十分理想,因此利用Lucene的可扩展性我们使用现在较为流行的开源中文分词庖丁解牛技术代替原有的分词。替换后效果明显,很大程度上优化了索引质量和查询效果。

索引器主要完成将切词形成的顺排档文档组织成倒排档索引数据。索引的建立即索引器的实现,主要分两步:首先构造一个Document的文档对象doc,其中包括描述数据域和正文数据域,这是因为只有符合Lucene.Document要求的文档才能使用Lucene对其建立索引。

同类推荐
  • 一本书读懂大数据

    一本书读懂大数据

    本书是深入研究互联网思维的经典之作,从互联网思维的定义到互联网思维应用的具体案例表现。作者深入浅出、条分缕析,全面阐述互联网思维的内核与精神,逐一点评当前关于互联网思维的各种观点。本书从最初级的互联网思维应用到高端的粉丝经济,平台建设,自媒体营销的方法都有详细讲解介绍。让读者了解什么是互联网思维的同时还能学会把互联网思维运用到自己的工作学习已经生活中。
  • 玩转手机

    玩转手机

    本书主要包括:手机的发展历史、手机知识、手机的选购与巧用、手机与网络、手机短信等内容。
  • 中国3D打印的未来

    中国3D打印的未来

    自2012年以来,有关3D打印的报道屡见报端,这一新型制造技术引起了全世界的广泛关注。《中国3D打印的未来》作者、中国3D打印技术产业联盟秘书长罗军认为,中国从20世纪90年代初开始涉足3D打印技术,并取得了巨大进展,但与国外同行相比仍存在一定差距。特别是中国3D打印企业普遍存在“小而散”、各自为政的现象,如何发挥整合优势、抱团发展是目前亟需解决的问题。如果能够加强同行合作,抱团发展,形成合力,相信3D打印会成为唯一一项中国有可能赶超世界先进水平的技术。
  • 中文版AutoCAD2011基础与应用案例教程

    中文版AutoCAD2011基础与应用案例教程

    本书采用项目教学方式,通过大量案例全面介绍了AutoCAD2011软件的功能和应用技巧。全书共分8个项目,内容涵盖AutoCAD2011基本操作,绘制与编辑图形,标注尺寸,添加文字注释与应用表格,创建与应用块,绘制与编辑三维图形,图形输出等。
  • 纵横于天地之间——互联网络技术

    纵横于天地之间——互联网络技术

    本书告诉你:不管你是谁,只要生活在当前的时代,你一定知道电话,知道电脑,知道上网……知道许许多多关于电子、关于计算机、关于网络的话题,这就是网络时代。网络的话题可多了:它是怎么来的?什么是“蜘蛛网”?网络的过去和现在,上网的方法,如何使用网络,互联网的安全,网络有“陷阱”吗?网络有“瘾”吗?网络文化和未来又是怎样的?到书中去找答案吧!
热门推荐
  • 天行

    天行

    号称“北辰骑神”的天才玩家以自创的“牧马冲锋流”战术击败了国服第一弓手北冥雪,被誉为天纵战榜第一骑士的他,却受到小人排挤,最终离开了效力已久的银狐俱乐部。是沉沦,还是再次崛起?恰逢其时,月恒集团第四款游戏“天行”正式上线,虚拟世界再起风云!
  • 不可承受的爱

    不可承受的爱

    只想试着写出关于爱情的故事。爱,不一定就能在一起。不爱,也不一定就不能走完一生。
  • 天行

    天行

    号称“北辰骑神”的天才玩家以自创的“牧马冲锋流”战术击败了国服第一弓手北冥雪,被誉为天纵战榜第一骑士的他,却受到小人排挤,最终离开了效力已久的银狐俱乐部。是沉沦,还是再次崛起?恰逢其时,月恒集团第四款游戏“天行”正式上线,虚拟世界再起风云!
  • 尸之世界

    尸之世界

    一个普通人过着平凡的日子。在一个早晨醒来,整个世界已经被病毒感染,人们受感染后不再有亲情,不再有人性,有的是永不满足的饥饿感,称之为食人者。社会秩序随着崩溃,到处是可怕的食人者,暗藏杀机,稍有不慎就将命丧黄泉,但最可怕的并不是那些已经感染病毒的食人者,而是那些还能思考,还没感染的人们,他们之间不再信任,为了活命的机会和仅有的资源,互相追逐残杀。这个普通的人将带领一些有良知的人组建一个暂时隔离于混乱世界的社区,为了个社区的安全,他们不得以做出违反良知的事情。怎样才能拯救这个混乱的世界呢......
  • 弃极境之巅

    弃极境之巅

    踏帝天,屠三大天帝;登帝位,创六道轮回;为她登尽巅峰,为她弃尽巅峰;看尽红尘百态,超脱天地宇宙之间,独立为帝,却忘不了她的嫣然一笑。蓝天为心爱之人,勇闯天下世界,创造了一个又一个辉煌的故事。
  • 狐说青岚

    狐说青岚

    白天不懂夜的黑,夜未尝懂得白天的明?我叫青岚,姥姥说我是狐狸生的,敷衍也该找个好点的借口不是么?小时候养过一只叫白爷的狗,后来走丢了,便再也没有养过宠物。白爷走后的第三年,姥姥去世了,世间和我最亲的人已经没有了。我守着姥姥留给我的三层小楼,守着姥姥的小店,忍受着圈子里的人称呼自己为钱塘少君。白的出现让我原本枯寂的生活快乐了许多,只是是建立在给我添麻烦的基础之上。托他老人家的福,总算是没让我白当这所谓的钱塘少君。无聊的人生如果再多灾多难的话,我真心的觉得我还能活着真是一个奇迹。我应该去申请世界基尼斯记录,不过我说的话,有人会信吗?青岚,你哭的样子真的很丑!闭嘴吧你,臭白,都快死了,还不忘打击我!死就死呗,又不是没死过。放心吧,我和鬼君很熟的。……他都这样说了,我还能怎么办?青岚,你来这里做什么?我是来找鬼君的。男人嘴角抽搐,笑道:看来白将你照顾的不错,竟然还有胆子来找鬼君。已经走出三米远的他突然便又转头对我笑道:鬼君在三里之外的冥殿,不知道随便抓一个小鬼一问便知。如果有人拦你,你就说你是刑少爷的客人自然便会放行。我感激的凝望着他远去的背影发呆,良久之后才缓过神来居然忘了说谢谢。青岚,要不要进来喝一杯香茗?凝望着男人熟悉的脸,我心惊肉跳的砰地一声关上了门,该死的刑风,不要总是在我面前出现!冷风习习我青衣罗裙站在崖边远眺凝视着漆黑的长夜,我好想回到过去,去修改我和他的命运。我一直都一厢情愿的认定一个事情:只要我愿意事情就会有转机,我们的结局就会去改写。我实在是高估了自己的能力,小看了岁月的无情。既然舍得让你难过,就不会心疼你的受伤。白走了,没有如何预兆的走了,或许走的还有些匆忙,就连只字片语都没有留下。这多少让我有些失落,毕竟朝夕相处了那么久。因为骄傲,我们错肩而失,昂着高傲的头颅觉得自己的骄傲胜过一切。可随着时光流逝却清晰的发现,那所谓的骄傲和日后蚀骨的伤痛比起来根本就不值一提。每每午夜梦回心碎而醒的时候,都会后悔,却很可惜世间独独没有后悔药卖。之后的岁月,你便会在伤痛、后悔、愧疚中度过,觉得自己丢失了最宝贵的感情错过了最值得的人,以至于固步自封再也走不出自己为自己设的牢笼。故事已经说完,我扶住的那棵树也在时光中渐渐枯萎。故事已无后续,而我等的人却不是我所爱
  • 如果是场梦

    如果是场梦

    布丁丁遇见了于果果,就像贾宝玉遇见了林黛玉;可你未曾想过,如果那句“这个妹妹我见过”没有机会说出口,这场梦会是什么样可惜没如果本文由作者真实经历改编
  • 帝镇万古

    帝镇万古

    三皇已逝,人族势弱。少年自东洲走出,携无上真血,一步步踏上了那登天之路。登天路,多磨难,红颜相伴。仗青锋,镇万古,人主天地!
  • 都督赤心

    都督赤心

    人生若只如初见,何事秋风悲画扇!一朝奇缘,梦回汉末,岂料邂逅了周瑜都督!与公瑾初见,啼笑皆非!他竟然是一名白发苍苍的老者!与公瑾再遇,赤壁烽火!我竟成了敌军说客!缘起缘灭,缘聚缘散,须臾十八载,不过浮华一梦!
  • 天行

    天行

    号称“北辰骑神”的天才玩家以自创的“牧马冲锋流”战术击败了国服第一弓手北冥雪,被誉为天纵战榜第一骑士的他,却受到小人排挤,最终离开了效力已久的银狐俱乐部。是沉沦,还是再次崛起?恰逢其时,月恒集团第四款游戏“天行”正式上线,虚拟世界再起风云!