股票行情

为什么字节跳动的搜索爬行动物如此野蛮和凶猛

作者:admin 2019-11-08 我要评论

面对对手们加筑的越来越高的内容壁垒,字节跳动对内容的焦虑似乎更强烈,直接反映在了搜索爬虫凌厉的抓取上。当看到字节跳动要做全网搜索的新闻时,王东一点都不...

面对竞争对手越来越高的内容壁垒,字节跳动对内容的焦虑似乎更加强烈,这直接反映在搜索爬虫的犀利抓取上。

当王东看到字节跳动将进行全网搜索的消息时,他并不感到惊讶。 因为在标题搜索正式启动的半个多月前,王东的公司网站被一个叫做“黑客”的爬虫入侵
谈股论金

王东正在第三方信息评估平台上进行搜索引擎优化。今年7月,他突然发现公司网站经常无法打开,网页加载速度非常慢,有时甚至直接瘫痪。 经过一系列调查,王东在服务器日志中发现了bytespider爬虫的踪迹。

王东发现爬行动物每天爬行数百万次,速度高达数千万次。服务器的带宽负载飙升至100%,爬行时完全不符合网站的机器人协议。 搜索完爬虫的知识产权地址后,王东和团队确认爬虫是字节跳动的搜索爬虫。

王东不是唯一受苦的人。他从CSDN、V2EX和其他技术论坛了解到,仍有许多人被爬行动物暴力抓住。许多用户直接说“太频繁”、“没有办法杀人”和“直接杀人” 魏李超在一个互联网社区平台上工作,也被一个人粗暴地抓住了。他还试图在网上寻求帮助。 10月24日,微博大V曝光了类似事件,引发当时互联网科技界的热烈讨论。

但令魏李超沮丧的是,互联网上有句谚语“弱者应得”——:“被标题搜索引擎捕获应该是一种荣誉,这表明你的内容是有价值的。”“今天的头条是给你一个免费的性能测试。如果你的网站被搜索引擎随意抓取,那么这项技术可能会被解雇。”

由于骚乱,公司遭受了重大损失。无奈之下,王东和魏李超等网站所有者不得不禁止该爬虫的所有知识产权频段。

对此,字节跳动在回应《中国企业家》时说,“互联网报道是不真实的。目前,标题搜索有一个反馈机制。网站可以通过电子邮件反馈直接处理,因为爬虫会受到影响。” “

自从字节跳动开始搜索以来,网站所有者一直抱怨他们的爬虫抓取了太多的暴力。到今年10月底,来自小网站所有者的投诉达到了顶峰,其后果仍不明朗。

Savage Crawler

Crawler是网络爬虫的简称。它是一个程序或脚本,根据特定的规则自动抓取万维网的信息。它定期以一定的频率在互联网上抓取内容,并将其存储在自己的服务器上,以方便用户搜索。

一般来说,数据采集在互联网技术领域是正常的事情。 通过爬虫抓取网站内容是搜索引擎积累数据的必要前提。 此外,数据分析和数据收集的一些功能也依赖于爬虫技术 不过,也有一些江湖规则或君子协定,比如机器人协定。 机器人协议是由网站所有者建立的。该网站将指定爬虫引擎可以捕获哪些内容数据,以及禁止捕获哪些内容数据,尤其是在涉及隐私信息(如用户数据)时。

但是王东发现bytespider的特点是不遵守机器人协议,捕获频率太高 从技术社区来看,爬行器是访问服务器内容的过程。任何访问都将占用服务器的响应资源。一旦瞬时访问压力超过这个水平,就会影响网站的稳定性。 为了维护整个互联网生态,爬虫的主人将通过某些策略来控制爬虫访问的速度和总量。

所以,一些技术人员认为,“应该是字节跳动在控制爬行动物爬行的频率方面有问题。” “

事实上,对于从事搜索引擎优化的王力可董来说,他们的主要工作目标是希望他们的网站能够在主流搜索引擎的搜索结果中排名第一 “我非常欢迎百度、搜狗和360等搜索引擎的标准捕获和收录,但顺便提一句,这直接瘫痪了网站,也导致了这段时间网站流量的大幅下降。 “困扰王东的是,字节跳动的搜索引擎没有给他们带来多少新流量,但也给公司带来了很多损失,影响了正常的用户访问。

王东想知道为什么字节跳动不能控制爬行动物的爬行频率。

行业资深分析师认为,大致有两种可能性 一种可能是字节跳动为了在短期内迅速扩大搜索规模而进行的主观恶意攫取;另一种可能性是,目前字节跳动的搜索爬虫策略不够完善,导致对客观结果的过度抓取。

”考虑到在今天头条新闻发展之初,当他们抓住内容时,他们完全忽略了版权和内容方的抗议,并没有排除主观行为,但我认为字节跳动现在是一个大企业,不应该主观地这么做。 ”业内资深人士这样总结道

另一位互联网行业高级官员认为,“没那么复杂,因为具体的工作团队太粗糙,项目急于上线,没有时间做动态调整逻辑算法,主观邪恶的可能性很小。” “

但是无论主观出发点是什么,字节跳动为了快速发展搜索派爬虫到处抓取,没有遵循既定的规则,给中小网站的所有者造成了客观的损失和麻烦。

因为“弱者应得”这句话在网上流传 技术员显然不同意。他认为,“把问题推到小网站自身薄弱的抗风险能力上太有偏见了。这种规模的爬虫爬行频率不在小网站的正常考虑范围内。对于搜索引擎爬虫的过度爬行,大型网站肯定会有很好的应对策略。毕竟技术太多了,但是很多小网站可能没有专门的技术人员,只雇佣服务器,采用一些开源网站建设方案,没有应对能力,这是正常的。" “

一些小网站所有者抱怨说,字节跳动的爬虫“早上向网站发出了46万个请求。上述技术人员认为:“从个人经验来看,这一请求频率肯定太高,是否恶意无法确定。" 所有网站都瘫痪了,这一定很不幸。 “

内容战争

今年8月10日,字节跳动正式推出环球搜索的网络版。爬虫爬行是搜索引擎效果的重要组成部分

对于每一个新领域,字节跳动都有一套常用的方法,要么直接收购该领域的公司,要么挖走该领域的专业人士。 例如,2017年11月,它收购了由中国企业建立的海外音乐短片平台musical.ly,以增强其短片服务。2019年5月,将收购教育培训平台青北网上学校,加强网上教育业务等。

事实上,字节跳动长期以来一直在规划搜索领域。 早在2014年,负责百度搜索框架的百度网络搜索部技术副主任杨振远就被张一鸣挖进了今天的头条,他曾在那里主导广告,并建议升级两个核心系统。 此外,百度搜索部门前首席建筑师朱文佳、百度美国深度学习实验室前邵帅科学家李雷以及其他重要百度人才都被张一鸣挖进了今天的头条。 今年3月,字节跳动聘请了前360名搜索产品经理,开始搜索的商业化。

此外,为了扩大搜索内容,字节跳动还通过收购来改善其内容库,比如全资收购互动百科全书 截至8月27日,互动百科全书已被董事、经理和监事广泛使用。投资者;法定代表人在三个方面发生了彻底的变化。最初的创建团队已经全部撤出,现在完全归字节跳动所有。

虽然在人才和技术方面早有准备,但搜索引擎生态的建立对于搜索业务来说不可能一夜之间完成。百度和搜狗经历了多年的发展和积累。 搜索内容库是搜索技术发挥威力的前提,否则搜索引擎就是无源之水。 为了获得尽可能多的内容,这可能是字节跳动采取暴力掠夺的原因之一。

甚至,为了捕捉更多的内容,字节跳动经常“越界”打官司。 今年4月,百度向海淀区人民法院起诉字节跳动,要求其进行申诉调查。 百度表示,今天的头条窃取了百度“前1名”搜索产品的大量结果。百度要求字节跳动立即停止侵权行为,赔偿相关经济损失和总计9000万元的合理费用,并在其应用和网站主页上连续30天道歉。 除了民事诉讼,百度还向法院提交了保护免受侵害的申请。

百度对媒体的公开案例显示,今天在字节跳动的头条应用程序中搜索“每立方厘米水等于多少升”时,第一个显示的搜索结果中嵌入了“从百度复制”一词,这是百度预设的防伪标志,以防止TOP1搜索结果被复制。 43c8c38b92bc75bb2eb54b6231ed9945.jpg

有趣的是,同一天,字节跳动还发表声明称,百度在其未经颤音授权开发和运营的“简单搜索”(Simple Search)应用热列表板块上设置了颤音栏,窃取了颤音视频,百度通过技术手段抹去了颤音水印。 颤抖呼吁百度立即停止侵权,赔偿9000万元,并在百度主页上连续30天道歉。

因为字节跳动和百度在商业模式和商业逻辑上是相似的,双方都用流量交换广告业务收入。过去几年,百度被认为是最有可能被字节跳动颠覆的公司。

双方的战争迫在眉睫 为了迎接挑战,以马东敏为首的百度战略投资部今年频繁发起攻击。先后投资了优赞、凯叔讲故事、七猫小说、智虎、果壳等内容服务项目。这背后的战略意图是丰富内容信息流。 以智虎为例,智虎的全站问答将以智能小程序的形式连接到百度应用。 百度最初是一家搜索公司,它宣布将通过专注于“搜索+信息流”这两个主流引擎和“100个数字+智能小程序”这两个主要生态来设置障碍。

一位互联网TMT投资者告诉《中国企业家》,“百度的清醒和攻击让字节跳动越来越难以获取内容。” 此外,字节跳动的攻击也引起了其他互联网巨头的注意。腾讯已经要求禁止腾讯游戏的视频,比如《国王的荣耀》。 业内一些内容社区将字节跳动视为竞争对手,不会轻易为其开放内容。 “

面对竞争对手建立的越来越高的内容壁垒,字节跳动对内容的焦虑似乎更加强烈,这直接反映在搜索爬虫的敏锐抓取上。

事实上,在某种程度上,像王东这样的网站所有者今天的遭遇与2015年左右头条应用程序崛起时所有主要内容版权所有者的遭遇是一样的。 当时,为了获取内容和扩大信息发布市场,今天的头条新闻从内容的版权所有者那里攫取了大量内容,甚至没有先获得重印和发布内容的许可。因此,许多被告因版权问题被送上法庭,引发了许多版权纠纷。

当字节跳动切入整个网络搜索时,历史似乎在内容抓取中重演。

不能停止增长

在当今的互联网江湖,不仅百度,任何其他巨头都不能低估字节跳动和张一鸣

自2012年成立以来的7年里,张一鸣在移动终端图形信息市场站稳脚跟后,引领了今天的头条新闻,成功推出了颤音短视频应用。截至2019年7月,DAU颤音(活跃的日常用户)已达3.2亿次 依靠今天的头条新闻和喋喋不休的交通,字节跳动一直将其触角延伸到社会、游戏、电子商务、教育和其他领域。其所有产品在全球范围内已达到7亿DAU,每月销售额超过15亿英镑。 字节跳动正在各个领域冲击互联网巨头的老城。

7年来,字节跳动的雇员人数也超过了5万。 在以往的媒体报道中,字节跳动被形容为一个应用工厂,通过由技术、客户获取和商业实现三个核心部门组成的装配线,不断复制各个领域的成功产品经验,然后进行AB测试和快速迭代。

在字节跳动快速扩张的过程中,外界曾因其尖锐的方法而谈论过它。

在对外部世界施加压力的同时,激进的游戏风格也会对内部产生影响。“字节跳动内部快速迭代和高速增长的目标企业文化不可避免地会给员工带来高压,而高压可能会导致匆忙或变形,即使张一鸣不想这样做。 “一个接近字节跳动的人告诉《中国企业家》

该人士继续解释道,“字节跳动2019年的收入目标至少是1000亿英镑,压力很大。” 今天主要应用的增长基本停滞。今天的头条新闻正经历1.2亿DAU增长的瓶颈期,chattering及其海外版本Tik Tok成为一个重要的增长引擎。 然而,海外市场并不像中国的监管政策那样多语言、多元文化、多样化和复杂,充满不确定性。 “

11月4日,路透社援引匿名消息人士的话说,美国政府已经对字节跳动收购该国社交媒体应用程序musical.ly一事展开了国家安全调查。 美国外国投资委员会(CFIUS)已经开始审查此次收购。外国投资委员会负责审查外国收购是否构成潜在的国家安全风险。 与此同时,脸书正在提高警惕,并将其列为竞争对手。

此外,据《晚点LatePost》报道,6月至7月在字节跳动举行的CEO面对面会议上,张一鸣表示,“如果没有搜索场景和高质量内容的扩张,今天的头条增长空中可能只剩下4000万DAU “

为了保持字节跳动的增长势头,搜索引擎作为一种成熟、成熟、健康的商业模式,已经成为当今头条新闻中扩大业务增长的重要业务之一。 国内搜索市场有三大玩家:百度、360搜索和搜狗搜索。据统计,截至2019年7月,百度已经占据了中国搜索引擎总平台市场的76.42% 目前还不清楚字节跳动创造的全网搜索将在多大程度上影响搜索市场份额的变化。

搜索和智能推荐都是获取信息的方法。对于用户来说,搜索成本很高,但内容准确性也很高。推荐成本低,内容准确度相对较低。 为了满足用户对准确信息的需求和广告商对准确投放的需求,并获得更多的用户和商业现金机会,这两种模式正在加速融合。

"搜索和信息流的结合目前是一种更好的方式。目前,百度和字节跳动都从不同的起点出发,奔向这个终点。 但是从搜索到信息流,又从信息流到搜索,两者的难度不一样,后者更难,搜索太复杂了 ”一位业内资深人士告诉《中国企业家》

虽然影响搜索引擎成败的因素很多,但很明显,字节跳动搜索爬虫频繁爬行和不遵守行业规则已经给许多网站所有者留下了不好的印象。 目前,字节跳动的搜索爬虫bytespider仍在魏的黑名单上,近期不会被启封 他希望字节跳动遵循市场规则和指导方针,共同保护网站内容的生态。

但面对字节跳动可能带来的潜在流动诱惑,并非每个人都很坚定。 王东告诉《中国企业家》,“封锁字节跳动的知识产权是最后的手段。何时解除封锁只取决于搜索引擎市场份额的变化。”

(应受访者的要求,本文中王东和魏李超是假名)

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

相关文章
  • 「雏鹰农业股票」全球另类投资巨头最新

    「雏鹰农业股票」全球另类投资巨头最新

  • 「股票涨停后怎么买入」开源证券:疫情

    「股票涨停后怎么买入」开源证券:疫情

  • 「华讯股票群」李大霄:低开高走说明抢

    「华讯股票群」李大霄:低开高走说明抢

  • 「博思科股票」框架思考:对股市影响最

    「博思科股票」框架思考:对股市影响最

});