关闭 More 保存 重做 撤销 预览

   
关闭   当前为简洁模式,您可以更新模块,修改模块属性和数据,要使用完整的拖拽功能,请点击进入高级模式

上一主題 下一主題
»
在菲吴彦祖
LV4 路旁的落叶
帖子    99
新博币    0 提现
提现    0
TA的勋章:勋章中心
     
    5232 15 | 显示全部楼层 |倒序浏览
    第一步:爬行
    搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链接,像蜘蛛在蜘蛛网上爬行一样,所以被称为“蜘蛛”也被称为“机器人”。搜索引擎蜘蛛的爬行是被输入了一定的规则的,它需要遵从一些命令或文件的内容。
    第二步:抓取存储
    搜索引擎是通过蜘蛛跟踪链接爬行到网页,并将爬行的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。搜索引擎蜘蛛在抓取页面时,也做一定的重复内容检测,一旦遇到权重很低的网站上有大量抄袭、采集或者复制的内容,很可能就不再爬行。
    第三步:预处理
    搜索引擎将蜘蛛抓取回来的页面,进行各种步骤的预处理。
    ⒈提取文字
    中文分词
    ⒊去停止词
    ⒋消除噪音(搜索引擎需要识别并消除这些噪声,比如版权声明文字、导航条、广告等……)
    5.正向索引
    6.倒排索引
    7.链接关系计算
    8.特殊文件处理
    除了HTML 文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如 PDF、Word、WPS、XLS、PPT、TXT 文件等。我们在搜索结果中也经常会看到这些文件类型。 但搜索引擎还不能处理图片、视频、Flash 这类非文字内容,也不能执行脚本和程序。
    第四步:排名
    用户在搜索框输入关键词后,排名程序调用索引库数据,计算排名显示给用户,排名过程与用户直接互动的。但是,由于搜索引擎的数据量庞大,虽然能达到每日都有小的更新,但是一般情况搜索引擎的排名规则都是根据日、周、月阶段性不同幅度的更新。
    选择
    与网站内容相关
    搜索次数多,竞争小
    主关键词,不可太宽泛
    主关键词,不太特殊
    商业价值
    提取文字
    中文分词
    去停止词
    消除噪声
    去重
    正向索引
    倒排索引
    链接关系计算
    特殊文件处理

    个人签名

    莫听穿林打叶声,何妨吟啸且徐行。竹杖芒鞋轻胜马,谁怕?一蓑烟雨任平生。
    料峭春风吹酒醒,微冷,山头斜照却相迎。回首向来萧瑟处,归去,也无风雨也无晴。

    在菲吴彦祖
    LV4 路旁的落叶
    帖子    99
    新博币    0 提现
    提现    0
    TA的勋章:勋章中心
       

      保义哥哥
      个人签名

      莫听穿林打叶声,何妨吟啸且徐行。竹杖芒鞋轻胜马,谁怕?一蓑烟雨任平生。
      料峭春风吹酒醒,微冷,山头斜照却相迎。回首向来萧瑟处,归去,也无风雨也无晴。

      在菲吴彦祖
      LV4 路旁的落叶
      帖子    99
      新博币    0 提现
      提现    0
      TA的勋章:勋章中心
         
        个人签名

        莫听穿林打叶声,何妨吟啸且徐行。竹杖芒鞋轻胜马,谁怕?一蓑烟雨任平生。
        料峭春风吹酒醒,微冷,山头斜照却相迎。回首向来萧瑟处,归去,也无风雨也无晴。

        在菲吴彦祖
        LV4 路旁的落叶
        帖子    99
        新博币    0 提现
        提现    0
        TA的勋章:勋章中心
           
          makati初哥 发表于 2018-1-27 19:24
          你会吗?会的话,我们是时候聊一聊了!

          才疏学浅{:3_63:}
          个人签名

          莫听穿林打叶声,何妨吟啸且徐行。竹杖芒鞋轻胜马,谁怕?一蓑烟雨任平生。
          料峭春风吹酒醒,微冷,山头斜照却相迎。回首向来萧瑟处,归去,也无风雨也无晴。

          点击按钮快速添加回复内容: 支持 高兴 激动 给力 加油 淡定 生气 回帖 路过 感动 感恩
          您需要登录后才可以回帖 登录 | 立即注册

          本版积分规则

          快速回复 返回顶部 返回列表