企业互联专业网站定制+品牌网站设计+集团网站建设
400 0082 880
在网站中的用户标签有什么作用?
拥抱趋势 专业优化 快速打造能赚钱的网站
马上咨询
2015-09-22 09:28:53阅读:447来源:seo优化公司作者:企业互联
[导语]为您推荐文章《在网站中的用户标签有什么作用?》(本文主要讲述:但问题在于,随着用户高速增长,兴趣模型种类和其他批量处理任务都在增加,涉及到的计算量太大。事实上,很多因素都会影响推荐效果。比如侯选集合变化,召回模块的改进或增加,推荐特征的增加,模型架构的改进在,算法参数的seo等等,不一一举例。主要分为三个方面:第一方面就是能够过滤噪音,网站通过用户停留的时间的长短来过滤标题党。第二方面就是热点惩罚,对于网站中一些极受用户欢迎的文章,用户会在上面留言,但不乏一......)如果你对文章有兴趣,欢迎关注我们
本文对447人有所帮助,共有1871个文字,预计阅读所需时间5分钟

在网站中的用户标签有什么作用?

  在网站中的用户标签有什么作用?

  在网站中的推荐系统有两大基石他们分别是用户标签和内容分析。在内容分析中会涉及到一些有关机器学习的方面,两者相较而言,用户标签这一项目的难度更大。

  在今日头条的网站中我们常用到的用户标签主要有用户比较想知道的主题亦或是极为重要的关键词等等。对于用户的性别信息我们可以从第三方社交账号中得到。而用户的年龄信息主要是从模型中预测,主要是根据用户阅读的时间和机型来预测。经常访问的地点主要是由用户自己授权网站访问得到的

  当然在网站中** 简单** 基础的用户标签就是用户浏览过后的内容标签。主要分为三个方面:第一方面就是能够过滤噪音,网站通过用户停留的时间的长短来过滤标题党。第二方面就是热点惩罚,对于网站中一些极受用户欢迎的文章,用户会在上面留言,但不乏一些不好的留言,而这样就会遭到惩罚。譬如降权处理等等。第三方面就是时间衰减,随着年龄的增长,用户的兴趣也会发生一些改变,所以网站的策略就更偏向于新的用户。现在随着用户动作的增加时间久的一些权重影响力就会降低。第四方面就是惩罚展现,如果有那么一篇文章是推荐给用户的但却没有人点击,那么与之相关的权重就会遭受惩罚。

  要知道用户标签找出的大都是一些简单的关键词,例如今日头条它的用户标签第一版就是批量计算框架,在这个系统中它的流程相较其他而言就更简单些。

  但问题在于,随着用户高速增长,兴趣模型种类和其他批量处理任务都在增加,涉及到的计算量太大。2014年,批量处理任务几百万用户标签更新的Hadoop任务,当天完成已经开始勉强。集群计算资源紧张很容易影响其它工作,集中写入分布式存储系统的压力也开始增大,并且用户兴趣标签更新延迟越来越高。

  面对这些挑战。2014年底今日头条上线了用户标签Storm集群流式计算系统。改成流式之后,只要有用户动作更新就更新标签,CPU代价比较小,可以节省80%的CPU时间,大大降低了计算资源开销。同时,只需几十台机器就可以支撑每天数千万用户的兴趣模型更新,并且特征更新速度非常快,基本可以做到准实时。这套系统从上线一直使用至今。

  当然,我们也发现并非所有用户标签都需要流式系统。像用户的性别、年龄、常驻地点这些信息,不需要实时重复计算,就仍然保留daily更新。

  四、评估分析

  上面介绍了推荐系统的整体架构,那么如何评估推荐效果好不好?

  有一句我认为非常有智慧的话,“一个事情没法评估就没法seo”。对推荐系统也是一样。

  事实上,很多因素都会影响推荐效果。比如侯选集合变化,召回模块的改进或增加,推荐特征的增加,模型架构的改进在,算法参数的seo等等,不一一举例。评估的意义就在于,很多seo** 终可能是负向效果,并不是seo上线后效果就会改进。

  全面的评估推荐系统,需要完备的评估体系、强大的实验平台以及易用的经验分析工具。所谓完备的体系就是并非单一指标衡量,不能只看点击率或者停留时长等,需要综合评估。过去几年我们一直在尝试,能不能综合尽可能多的指标合成唯一的评估指标,但仍在探索中。目前,我们上线还是要由各业务比较资深的同学组成评审委员会深入讨论后决定。

  很多公司算法做的不好,并非是工程师能力不够,而是需要一个强大的实验平台,还有便捷的实验分析工具,可以智能分析数据指标的置信度。

  一个良好的评估体系建立需要遵循几个原则,首先是兼顾短期指标与长期指标。我在之前公司负责电商方向的时候观察到,很多策略调整短期内用户觉得新鲜,但是长期看其实没有任何助益。

  其次,要兼顾用户指标和生态指标。今日头条作为内容分创作平台,既要为内容创作者提供价值,让他更有尊严的创作,也有义务满足用户,这两者要平衡。还有广告主利益也要考虑,这是多方博弈和平衡的过程。

  另外,要注意协同效应的影响。实验中严格的流量隔离很难做到,要注意外部效应。

  强大的实验平台非常直接的优点是,当同时在线的实验比较多时,可以由平台自动分配流量,无需人工沟通,并且实验结束流量立即回收,提高管理效率。这能帮助公司降低分析成本,加快算法迭代效应,使整个系统的算法seo工作能够快速往前推进。

  这是头条A/BTest实验系统的基本原理。首先我们会做在离线状态下做好用户分桶,然后线上分配实验流量,将桶里用户打上标签,分给实验组。举个例子,开一个10%流量的实验,两个实验组各5%,一个5%是基线,策略和线上大盘一样,另外一个是新的策略。

  实验过程中用户动作会被搜集,基本上是准实时,每小时都可以看到。但因为小时数据有波动,通常是以天为时间节点来看。动作搜集后会有日志处理、分布式统计、写入数据库,非常便捷。

  在这个系统下工程师只需要设置流量需求、实验时间、定义特殊过滤条件,自定义实验组id。系统可以自动生成:实验数据对比、实验数据置信度、实验结论总结以及实验seo建议。

  当然,只有实验平台是远远不够的。线上实验平台只能通过数据指标变化推测用户体验的变化,但数据指标和用户体验存在差异,很多指标不能完全量化。很多改进仍然要通过人工分析,重大改进需要人工评估二次确认。

  五、内容安全

  ** 后要介绍今日头条在内容安全上的一些举措。头条现在已经是国内** 大的内容创作与分发凭条,必须越来越重视社会责任和行业领导者的责任。如果1%的推荐内容出现问题,就会产生较大的影响。

  因此头条从创立伊始就把内容安全放在公司** 高优先级队列。成立之初,已经专门设有审核团队负责内容安全。当时研发所有客户端、后端、算法的同学一共才不到40人,头条非常重视内容审核。

  现在,今日头条的内容主要来源于两部分,一是具有成熟内容生产能力的PGC平台

  一是UGC用户内容,如问答、用户评论、微头条。这两部分内容需要通过统一的审核机制。如果是数量相对少的PGC内容,会直接进行风险审核,没有问题会大范围推荐。UGC内容需要经过一个风险模型的过滤,有问题的会进入二次风险审核。审核通过后,内容会被真正进行推荐。这时如果收到一定量以上的评论或者举报负向反馈,还会再回到复审环节,有问题直接下架。整个机制相对而言比较健全,作为行业领先者,在内容安全上,今日头条一直用** 高的标准要求自己。

  分享内容识别技术主要鉴黄模型,谩骂模型以及低俗模型。今日头条的低俗模型通过深度学习算法训练,样本库非常大,图片、文本同时分析。这部分模型更注重召回率,准确率甚至可以牺牲一些。谩骂模型的样本库同样超过百万,召回率高达95%+,准确率80%+。如果用户经常出言不讳或者不当的评论,我们有一些惩罚机制。

  泛低质识别涉及的情况非常多,像假新闻、黑稿、题文不符、标题党、内容质量低等等,这部分内容由机器理解是非常难的,需要大量反馈信息,包括其他样本信息比对。目前低质模型的准确率和召回率都不是特别高,还需要结合人工复审,将阈值提高。目前** 终的召回已达到95%,这部分其实还有非常多的工作可以做。头条人工智能实验室李航老师目前也在和密歇根大学共建科研项目,设立谣言识别平台。

如何优化:
婚恋网站建设 舟山网站开发服务商 成都做网站建设 购物街网站建设 梅州网站开发加盟代理 盐城建设局网站 网站改版亮点怎么写文章 怀化网站定制怎么收费 php网站开发招聘 cms搭建网站
总访问数:48540549 文章总数:13698 建站天数:3358
相关阅读
01
冲刺优化技术不断进步的根本在哪?
  对于优化技术,在不断的新人参与之中,开始变得更加商务化,从开始大家一起讨论分析,到现在各种营销套路引导新人进行优化“专业”培训,但是不可否认,很多的优化人,在进入这场没有终点的马拉松下,不断的摸索和学习,但是没有一个比较好的结果,在对自身学习突破产生失望的时候,就开始倾向于借助他人之手,来进行各种吹捧自身技术实力是有多刚,然而也开始让这场马拉松越来越“神秘&rd......[详情查看]
02
seo网站优化培训之四处一词讲解
  笔者从两个方面简单的讲解了页面四处一词的意义,事实上这两个方面都可以算在增强页面相关性这一个问题上。1、四处一词有利于提升文章的质量度我们都知道** 为理想的状态是,每个页面去觉得某个具体的问题,这里指的是深入的解决。看到很多朋友在问四处一词的意思,据笔者所知四处一词** 早是由搜索夫唯老师提出来的,意思是在页面标题、内容以及外部链接上出现关键词。看到很多朋友在问四处一词的意思,据笔者所知四处一词** 早是由......[详情查看]
03
seo的关键技巧有哪些?
  三、外链的seo现在外链的作用也不可忽视,一些高质量的链接除了吸引到用户以外,还能留得住。关键词我们可以选择一个或是多个都可以,选定之后,就要开始对关键词进行seo工作了。另外,网站内容时吸引用户的一个方式,也是留住用户的一个关键。二、网站内容seo在网站内容seo的时候,尽量将关键词出现在文本的开头与结尾,这样被查找到的可能性会更大。因此,内容一定要是原创的,与网站主题相匹配的,有趣的等等......[详情查看]
04
网站seo不能忽略的优化页面视觉美学
  请找出自己的页面视觉风格作为一名优化er,更进一步是作为一名站长。因此在页面的颜色选择、功能植入、页面布局等等各方面,只有合理,才是硬道理。就好像红色,色度恰到好处我们较多定义为喜庆、激励等,色度更深一些我们又定义为沉稳以及高贵。我每天也不停把略修改的页面模板发给亲朋好友看,来汲取他们的看法以及建议,希望做出来的页面更符合大众的口味。其实在这其间,我也不停的去参考不同类型的页面,有部分让我一登陆进......[详情查看]
05
网站seo影响页面抓取的重要原因有哪些?
  我们都迫切地想要获取更多流量,实现更多的转化,那么提高收录便是我们通向目的地的必经之地,在了解了影响蜘蛛的爬行的因素之后,再结合自身网站的问题作出相应的调整,自然能提高seo的效果。(4)保持网页内容的可访问性。网站内容的质量对于低质量的页面,搜索引擎一直是打击的,因此,创建高质量的内容,对于吸引蜘蛛是非常关键的,从这个角度来说,“内容制胜”是完全正确的。网站seo影响页面抓取的重要原因有哪些?每......[详情查看]
06
全网营销真的有效果吗?介绍全网营销外包价格范围
  ** 近,人们经常问我,做整个网络营销推广是否有效?今天,在这个统一的回复中,整个网络营销推广一定是有用的,而且作用很大!你为什么这么说?原因很简单。促进有利于企业的发展。它具有有效的集成和组合功能。降低了企业80%的推广成本,缩短了企业50%的试错时间,在网络营销中获得了快速的利润。整个网络营销系统具有应用程序应用程序,可以连接后台PC网站,具有数据分析、二维代码管理等功能,是一个集成的PC网站,在......[详情查看]
07
忽视优化诊断可能会使网站瘫痪
  维护我们网站的危险隐情,或者填补一些漏洞,避免我们的网站给搜索引擎所忽视不仅发展不好,而且还面临着瘫痪的危险。一些发展比较成熟的大型网站,为什么会在一夜之间崩塌倒闭?这是因为我们的网站内部有许多细节没有被重视到,seo的时候也被忽略了。这样才能发展的更好。有的时候就会出现一些问题时,我们的网站紊乱程序被破坏,不能正常的运营下去。这肯定是许多站长所不能承受的......[详情查看]
08
优化搜索引擎优化考核指标
  一般来说,会将平均访问页数和平均访问时长这两个指标放在一起分析,进而衡量网站的用户体验情况。为此,你需要利用优化数据监控软件,对这部分关键词定期跟踪,确保网站排名达到预期位置,获取原始的基础流量。 ;利用数据化统计考核指标核定优化工作成效才是科学的优化。要做一件事情,需要有清晰的思维和头脑,哪些点需要注意,投入是多少,工作周期阶段内有什么成效,** 终的投入产出比是多少,做优化也是一样的,没有......[详情查看]