企业互联专注网站建设+网站改版+新站seo优化,是专业的网站推广/网络推广外包公司
400 0082 880
在网站中的用户标签有什么作用?
拥抱趋势 专业优化 快速打造能赚钱的网站
马上咨询
2015-09-22 09:28:53阅读:36来源:seo优化公司作者:企业互联
[导语]智唯网络为你推荐文章《在网站中的用户标签有什么作用?》(本文主要讲述:当然,我们也发现并非所有用户标签都需要流式系统。另外,要注意协同效应的影响。动作搜集后会有日志处理、分布式统计、写入数据库,非常便捷。如果1%的推荐内容出现问题,就会产生较大的影响。审核通过后,内容会被真正进行推荐......)如果你对文章有兴趣,欢迎关注我们
本文对36人有所帮助,共有1871个文字,预计阅读所需时间5分钟

在网站中的用户标签有什么作用?

  在网站中的用户标签有什么作用?

  在网站中的推荐系统有两大基石他们分别是用户标签和内容分析。在内容分析中会涉及到一些有关机器学习的方面,两者相较而言,用户标签这一项目的难度更大。

  在今日头条的网站中我们常用到的用户标签主要有用户比较想知道的主题亦或是极为重要的关键词等等。对于用户的性别信息我们可以从第三方社交账号中得到。而用户的年龄信息主要是从模型中预测,主要是根据用户阅读的时间和机型来预测。经常访问的地点主要是由用户自己授权网站访问得到的

  当然在网站中** 简单** 基础的用户标签就是用户浏览过后的内容标签。主要分为三个方面:**方面就是能够过滤噪音,网站通过用户停留的时间的长短来过滤标题党。第二方面就是热点惩罚,对于网站中一些极受用户欢迎的文章,用户会在上面留言,但不乏一些不好的留言,而这样就会遭到惩罚。譬如降权处理等等。第三方面就是时间衰减,随着年龄的增长,用户的兴趣也会发生一些改变,所以网站的策略就更偏向于新的用户。现在随着用户动作的增加时间久的一些权重影响力就会降低。第四方面就是惩罚展现,如果有那么一篇文章是推荐给用户的但却没有人点击,那么与之相关的权重就会遭受惩罚。

  要知道用户标签找出的大都是一些简单的关键词,例如今日头条它的用户标签**版就是批量计算框架,在这个系统中它的流程相较其他而言就更简单些。

  但问题在于,随着用户高速增长,兴趣模型种类和其他批量处理任务都在增加,涉及到的计算量太大。2014年,批量处理任务几百万用户标签更新的Hadoop任务,当天完成已经开始勉强。集群计算资源紧张很容易影响其它工作,集中写入分布式存储系统的压力也开始增大,并且用户兴趣标签更新延迟越来越高。

  面对这些挑战。2014年底今日头条上线了用户标签Storm集群流式计算系统。改成流式之后,只要有用户动作更新就更新标签,CPU代价比较小,可以节省80%的CPU时间,大大降低了计算资源开销。同时,只需几十台机器就可以支撑每天数千万用户的兴趣模型更新,并且特征更新速度非常快,基本可以做到准实时。这套系统从上线一直使用至今。

  当然,我们也发现并非所有用户标签都需要流式系统。像用户的性别、年龄、常驻地点这些信息,不需要实时重复计算,就仍然保留daily更新。

  四、评估分析

  上面介绍了推荐系统的整体架构,那么如何评估推荐效果好不好?

  有一句我认为非常有智慧的话,“一个事情没法评估就没法seo”。对推荐系统也是一样。

  事实上,很多因素都会影响推荐效果。比如侯选集合变化,召回模块的改进或增加,推荐特征的增加,模型架构的改进在,算法参数的seo等等,不一一举例。评估的意义就在于,很多seo** 终可能是负向效果,并不是seo上线后效果就会改进。

  全面的评估推荐系统,需要完备的评估体系、强大的实验平台以及易用的经验分析工具。所谓完备的体系就是并非单一指标衡量,不能只看点击率或者停留时长等,需要综合评估。过去几年我们一直在尝试,能不能综合尽可能多的指标合成唯一的评估指标,但仍在探索中。目前,我们上线还是要由各业务比较资深的同学组成评审委员会深入讨论后决定。

  很多公司算法做的不好,并非是工程师能力不够,而是需要一个强大的实验平台,还有便捷的实验分析工具,可以智能分析数据指标的置信度。

  一个良好的评估体系建立需要遵循几个原则,首先是兼顾短期指标与长期指标。我在之前公司负责电商方向的时候观察到,很多策略调整短期内用户觉得新鲜,但是长期看其实没有任何助益。

  其次,要兼顾用户指标和生态指标。今日头条作为内容分创作平台,既要为内容创作者提供价值,让他更有尊严的创作,也有义务满足用户,这两者要平衡。还有广告主利益也要考虑,这是多方博弈和平衡的过程。

  另外,要注意协同效应的影响。实验中严格的流量隔离很难做到,要注意外部效应。

  强大的实验平台非常直接的优点是,当同时在线的实验比较多时,可以由平台自动分配流量,无需人工沟通,并且实验结束流量立即回收,提高管理效率。这能帮助公司降低分析成本,加快算法迭代效应,使整个系统的算法seo工作能够快速往前推进。

  这是头条A/BTest实验系统的基本原理。首先我们会做在离线状态下做好用户分桶,然后线上分配实验流量,将桶里用户打上标签,分给实验组。举个例子,开一个10%流量的实验,两个实验组各5%,一个5%是基线,策略和线上大盘一样,另外一个是新的策略。

  实验过程中用户动作会被搜集,基本上是准实时,每小时都可以看到。但因为小时数据有波动,通常是以天为时间节点来看。动作搜集后会有日志处理、分布式统计、写入数据库,非常便捷。

  在这个系统下工程师只需要设置流量需求、实验时间、定义特殊过滤条件,自定义实验组id。系统可以自动生成:实验数据对比、实验数据置信度、实验结论总结以及实验seo建议。

  当然,只有实验平台是远远不够的。线上实验平台只能通过数据指标变化推测用户体验的变化,但数据指标和用户体验存在差异,很多指标不能完全量化。很多改进仍然要通过人工分析,重大改进需要人工评估二次确认。

  五、内容安全

  ** 后要介绍今日头条在内容安全上的一些举措。头条现在已经是国内** 大的内容创作与分发凭条,必须越来越重视社会责任和行业领导者的责任。如果1%的推荐内容出现问题,就会产生较大的影响。

  因此头条从创立伊始就把内容安全放在公司** 高优先级队列。成立之初,已经专门设有审核团队负责内容安全。当时研发所有客户端、后端、算法的同学一共才不到40人,头条非常重视内容审核。

  现在,今日头条的内容主要来源于两部分,一是具有成熟内容生产能力的PGC平台

  一是UGC用户内容,如问答、用户评论、微头条。这两部分内容需要通过统一的审核机制。如果是数量相对少的PGC内容,会直接进行风险审核,没有问题会大范围推荐。UGC内容需要经过一个风险模型的过滤,有问题的会进入二次风险审核。审核通过后,内容会被真正进行推荐。这时如果收到一定量以上的评论或者举报负向反馈,还会再回到复审环节,有问题直接下架。整个机制相对而言比较健全,作为行业领先者,在内容安全上,今日头条一直用** 高的标准要求自己。

  分享内容识别技术主要鉴黄模型,谩骂模型以及低俗模型。今日头条的低俗模型通过深度学习算法训练,样本库非常大,图片、文本同时分析。这部分模型更注重召回率,准确率甚至可以牺牲一些。谩骂模型的样本库同样超过百万,召回率高达95%+,准确率80%+。如果用户经常出言不讳或者不当的评论,我们有一些惩罚机制。

  泛低质识别涉及的情况非常多,像假新闻、黑稿、题文不符、标题党、内容质量低等等,这部分内容由机器理解是非常难的,需要大量反馈信息,包括其他样本信息比对。目前低质模型的准确率和召回率都不是特别高,还需要结合人工复审,将阈值提高。目前** 终的召回已达到95%,这部分其实还有非常多的工作可以做。头条人工智能实验室李航老师目前也在和密歇根大学共建科研项目,设立谣言识别平台。

如何优化:
1.做网站优化需要懂什么技术? 2.怎样让关键词排名提升呢 3.长尾关键词在网站优化中的作用 4.网站结构优化思路 5.简述URL的作用和规范 6.如何辨别友情链接交换中那些作弊行为 7.常用的SEO工具有哪些 8.SEO可以体现一个网站效果
总访问数:38513695 文章总数:9788 建站天数:2311
相关阅读
01
网站seo如何成为网站seo领域的“华丽转折”
  ”。未知的SEOER也会有一定程度的受欢迎。我花了很长时间才把这把刀拉进我们公司。我每天都在上面写文章和发表文章。他进入优化比我早,他没有留下他的艺名在他的博客标题......[详情查看]
02
重庆优化知识一般去哪能学到
  重庆优化知识认为学习优化** 重要的是实战,一味的学习不去实战,这是不靠谱的。学习SEO有很多的途径的,现在互联网行业越来越发达,网络营销越来越受到各个公司的认可,但是现在学校没有这样的专业,所以优化学生,自学的成份很大,哪么一般优化是怎么学习的呢?1、学习的话,你可以找个这样的老师来教你,当然师傅领进门,修行在个人的,你也可以通过网上一些论坛什么的慢慢学习,现在优化学习论坛很多,A5比较有名,潍坊旗......[详情查看]
03
做网络优化seo公司要如何做才可以** 吸引客户
  所以说想要做网络优化seo公司顺利,在经营上也没有问题的话,可以多重视上述说的几个内容,只有这样才可以** 吸引到客户,** 经营的稳定和收益加成。做网络优化seo公司要如何做才可以** 吸引客户现在使用互联网的行业真的非常多,而且也说明了互联网在使用的效率上是很值得信赖的事情,可以展现出来的便利性也很不错,所以说才会吸引这么多行业的人进行关注,而说到了做网络优化seo公司这件事情,现在利用互联网来操作......[详情查看]
04
如何seo移动排名
  需要针对那些自己并不了解、但同样会访问公司页面的手机类型做出相应的策略调整,只有这样,才能支持当前市场上种类繁多、操作系统各不相同的移动设备访问本公司的手机页面。使用手机时通常是为了查找某个特定的东西,比如特定地点或商品。三、在移动端尝试传统的关键词优化方法。使用手机时通常是为了查找某个特定的东西,比如特定地点或商品。需要针对那些自己并不了解、但同样会访问公司页面的手机类型做出相应的策略调整,只有......[详情查看]
05
优化排名软件如何应用
  同时优化排名软件也将会在很短的时间之内,提升我们的排名,让我们的网站可以更容易的出现在用户的面前,可以让我们得到更多的流量。也就会使我们的网站得到更好的成绩,,获得更多的流量,也就可以得到更多的收益。有了更高的排名,用户们就会更加注意我们的网站。SEO排名软件如何应用?如今,网络已经成为我们生活中不可或缺的东西所以我们对于网站的要求也就越来越高。所以对于我们网站的建设来说,优化排名软件,是我们提高......[详情查看]
06
站内seo做好关键词排名好
  四、图片ALT属性关于图片的描述也很重要,文章中插入的图片一定与文章主题有关,当添加alt时再一次突出文章的主题使得搜索引擎给予很好的权重。四、图片ALT属性关于图片的描述也很重要,文章中插入的图片一定与文章主题有关,当添加alt时再一次突出文章的主题使得搜索引擎给予很好的权重。五、nofollow标签的使用这点主要集权,将网站分散的权重集中到需要seo排名的页面上来,nofollow的运用之前有......[详情查看]
07
影响网站降权的9大因素
  当然您要是不缺钱的话,也可以购买竞价;八、绕开数字指纹开启采集软件。以为我知道之前的算法就可以了,新的算法不可能有大的变动,所以就以元老、长辈、大师、牛人、大咖等身份自居。有一个重要的点在于,优化入职后没有了解这家公司的网站之前的更新频率,突然的按照一天至少一篇文章的更新频率开始更新了,更新频率数据突变触动反作弊系统,导致阈值升到临界点,被惩罚;二、按照原来的操作没效果了。三、通过软件点击获取排名......[详情查看]
08
网站seo到极致寸步难进怎么办
  2。流量大约200个左右,字数大约200个左右,一般180个字流,突破过度流的方法是做字的长尾,字的末尾引入流,而列表的末尾将是**个,至少四个月前的网站,有一个长尾,所以这个过程是漫长的。上一篇:有利于网站seo的友情链接设置下一篇:新站一天内关键字seo上首页的方法。站外投票点,这指出站外投票的分数是当我们做一个站外投票时,直接对外,因为内部的直接方向,所以投票也是一个投票。表面质量本身得分,......[详情查看]