做网站不只是铺门面,适合自己品牌理念的网站建设才能促进营销!
广州网站制作、广州网站建设、广州做网站,首选广州凯旋网络公司!
当前位置:首页 >> 新闻资讯 >> 网站常见问题 >> 搜索引擎如何判断核心内容?

搜索引擎如何判断核心内容?

Tags: 网站建设   

搜索引擎蜘蛛把页面代码送回搜索引擎服务器后,SEO是如何判断页面中最核心的内容呢?

先说下Kyw认为的搜索引擎运作过程的前几个步骤:

1. 蜘蛛下载A页面,送回服务器;

2. 服务器寻找A页面的核心内容位置,然后去除HTML代码;

3. 寻找网页核心内容;……

我不确定Google百度、YAHOO!是否真的有“判断核心内容”这个步骤,但我相信一定有类似的运算机制,因为如果没这个步骤,搜索引擎将耗费大量资源做重复运算。当然KYW不是搜索引擎工程师,下面只是对搜索引擎的一些思考。

SE面对一整页HTML代码,如何判断核心内容在哪里呢?
第一步:拿该页面和同域名、同目录、同文件名格式的页面做对比,去除相似的部分。经过这个步骤,头部的导航条、底部的版权信息、固定位置的广告就被去掉了。我估计搜索引擎在每增加一个新网站的时候,会建立一个对比模板来提高工作效率。如果网站经常改版,在改版刚开始的期间,搜索引擎还没反应过来,就可能造成新收录网页的排名不理想,网站建设公司可为您解决这一问题。

第二步:去掉有大量链接的部分。经过这步,“相关文章”“推荐文章”等都被去掉了,剩下一些包含文字内容的代码。

第三步:在剩余的代码中判断哪段标签(可能是DIV、TABLE、P或其它标签)中的文字内容最多,因为一般核心内容的文字量会比较多。

每个页面经过上面3个步骤,应该就能顺利的判断出核心内容所在的位置。经过这样的思考,我们也许可以这样总结:

1. 同目录下的页面,最好模板一样。

2. 核心内容文字量不能太少,特别是企业站和B2C网站,只放价格和包含大量说明文字的图片是很不好的。

3. HTML代码中如果错误很多,可能会影响排名,因为搜索引擎可能在判断核心内容的时候出差错。
互联网是一个宝库,搜索引擎是打开宝库的一把钥匙。然而,绝大多数网民在搜索引擎的相关知识及使用技巧上能力不足。国外的一次调查结果显示,约有71%的人对搜索的结果感到不同程度的失望。作为互联网的第二大服务,这种状况应该改变。 互联网的迅速发展,导致了网上信息的爆炸性增长。全球目前的网页超过20亿,每天新增加730万网页。要在如此浩瀚的信息海洋里寻找信息,就像“大海捞针”一样困难。搜索引擎正是为了解决这个“迷航”问题而出现的技术。 搜索引擎的工作包括如下三个过程:

1.在互联中发现、搜集网页信息;
2.对信息进行提取和组织建立索引库;
3.再由检索器根据用户输入的查询关字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。

发现、搜集网页信息
需要有高性能的“网络蜘蛛”程序(Spider)去自动地在互联网中搜索信息。一个典型的网络蜘蛛工作的方式,是查看一个页面,并从中找到相关信息, 然后它再从该页面的所有链接中出发,继续寻找相关的信息,以此类推,直至穷尽。网络蜘蛛要求能够快速、全面。网络蜘蛛为实现其快速地浏览整个互联网,通常在技术上采用抢先式多线程技术实现在网上聚集信息。通过抢先式多线程的使用,你能索引一个基于URL链接的Web页面,启动一个新的线程跟随每个新的URL链接,索引一个新的URL起点。当然在服务器上所开的线程也不能无限膨胀,需要在服务器的正常运转和快速收集网页之间找一个平衡点。在算法上各个搜索引擎技术公司可能不尽相同,但目的都是快速浏览Web页和后续过程相配合。目前国内的搜索引擎技术公司中,比如百度公司的网络蜘蛛采用了可定制、高扩展性的调度算法使得搜索器能在极短的时间内收集到最大数量的互联网信息,并把所 获得的信息保存下来以备建立索引库和用户检索。

索引库的建立
关系到用户能否最迅速地找到最准确、最广泛的信息,同时索引库的建立也必须迅速,对网络蜘蛛抓来的网页信息极快地建立索引,保证信息的及时性。对网页采用基于网页内容分析和基于超链分析相结合的方法进行相关度评价,能够客观地对网页进行排序,从而极大限度地保证搜索出的结果与用户的查询串相一致。搜索引擎对网站建设公司网站数据建立索引的过程中采取了按照关键词在网站标题、网站描述、网站URL等不同位置的出现或网站的质量等级等建立索引库,从而保证搜索出的结果与用户的查询串相一致。新浪搜索引擎在索引库建立的过程中,对所有数据采用多进程并行的方式,对新的信息采取增量式的方法建立索引库,从而保证能够迅速建立索引,使数据能够得到及时的更新。新浪搜索引擎在建立索引库的过程中还对用户搜索的查询串进行跟踪,并对查询频率高的查询串建立Cache页。

用户检索的过程
这是对前两个过程的检验,检验该搜索引擎能否给出最准确、最广泛的信息,检验该搜索引擎能否迅速地给出用户最想得到的信息。网站建设公司对于网站数据的检索,搜索引擎采用Client/Server结构、多进程的方式在索引库中检索,大大减少了用户的等待时间,并且在用户查询高峰时服务器的负担不会过高(平均的检索时间在0.3秒左右)。对于网页信息的检索,作为国内众多门户网站的网页检索技术提供商的百度公司其搜索引擎运用了先进的多线程技术,采用高效的搜索算法和稳定的UNIX平台,因此可大大缩短对用户搜索请求的响应时间。作为慧聪I系列应用软件产品之一的I-Search2000采用的超大规模动态缓存技术,使一级响应的覆盖率达到75%以上,独有的自学习能力可自动将二级响应的覆盖率扩充到20%以上。

【2010-01-23】   【浏览384次】
上一篇:谈谈网站建设中的概念性问题
下一篇:web 2.0网站命名的7个建议
本类最新
如何做好百度适时更新网站快照[11.13]
如何检查你的网站是否存在漏洞[11.12]
全新网站设计与网站改版有什么不同?[11.10]
凯旋网络网站如何设置标题、关键词、描述才能达到网站优化效果[10.17]
凯旋网络企业网站管理系统不能正常接收在线留言的信件说明[10.17]
 
本类热门
网站建设前必需考虑的9个问题[12.12]
中文域名用户常见问题解答[02.23]
网站提示426 Data connection closed[10.09]
网站建设技巧:sql语句备份MSSQL数据库[04.02]
FTP时已经通过身份验证,但总列不出目录[10.09]
广州做网站的公司性质客户可免预付款,广州凯旋网络工作室做广州最好的网站制作公司,做广州最有实力的网站建设公司。
广州网络公司-凯旋网络工作室唯一官方网址:Www.CreatSoon.Com
本站设计版权归凯旋网络所有,未经允许不得复制或设立镜像。

凯旋网络2011年最新精品网站制作案例:地下金属探测仪器 地下金属探测器 地下金属探测仪 掘金1号地下金属探测器 
粤ICP备05124435号 网站地图  免责声明