在网站中的用户标签有什么作用?
拥抱趋势 专业优化 快速打造能赚钱的网站
马上咨询
2015-09-22 09:28:53阅读:453来源:seo优化公司作者:企业互联
[导语]为您推荐文章《在网站中的用户标签有什么作用?》(本文主要讲述:头条现在已经是国内** 大的内容创作与分发凭条,必须越来越重视社会责任和行业领导者的责任。四、评估分析上面介绍了推荐系统的整体架构,那么如何评估推荐效果好不好?有一句我认为非常有智慧的话,“一个事情没法评估就没法seo”。经常访问的地点主要是由用户自己授权网站访问得到的当然在网站中** 简单** 基础的用户标签就是用户浏览过后的内容标签。另外,要注意协同效应的影响。头条人工智能实验室李航老师目前也在和密歇根大......)如果你对文章有兴趣,欢迎关注我们
本文对453人有所帮助,共有1871个文字,预计阅读所需时间5分钟

在网站中的用户标签有什么作用?

  在网站中的用户标签有什么作用?

  在网站中的推荐系统有两大基石他们分别是用户标签和内容分析。在内容分析中会涉及到一些有关机器学习的方面,两者相较而言,用户标签这一项目的难度更大。

  在今日头条的网站中我们常用到的用户标签主要有用户比较想知道的主题亦或是极为重要的关键词等等。对于用户的性别信息我们可以从第三方社交账号中得到。而用户的年龄信息主要是从模型中预测,主要是根据用户阅读的时间和机型来预测。经常访问的地点主要是由用户自己授权网站访问得到的

  当然在网站中** 简单** 基础的用户标签就是用户浏览过后的内容标签。主要分为三个方面:第一方面就是能够过滤噪音,网站通过用户停留的时间的长短来过滤标题党。第二方面就是热点惩罚,对于网站中一些极受用户欢迎的文章,用户会在上面留言,但不乏一些不好的留言,而这样就会遭到惩罚。譬如降权处理等等。第三方面就是时间衰减,随着年龄的增长,用户的兴趣也会发生一些改变,所以网站的策略就更偏向于新的用户。现在随着用户动作的增加时间久的一些权重影响力就会降低。第四方面就是惩罚展现,如果有那么一篇文章是推荐给用户的但却没有人点击,那么与之相关的权重就会遭受惩罚。

  要知道用户标签找出的大都是一些简单的关键词,例如今日头条它的用户标签第一版就是批量计算框架,在这个系统中它的流程相较其他而言就更简单些。

  但问题在于,随着用户高速增长,兴趣模型种类和其他批量处理任务都在增加,涉及到的计算量太大。2014年,批量处理任务几百万用户标签更新的Hadoop任务,当天完成已经开始勉强。集群计算资源紧张很容易影响其它工作,集中写入分布式存储系统的压力也开始增大,并且用户兴趣标签更新延迟越来越高。

  面对这些挑战。2014年底今日头条上线了用户标签Storm集群流式计算系统。改成流式之后,只要有用户动作更新就更新标签,CPU代价比较小,可以节省80%的CPU时间,大大降低了计算资源开销。同时,只需几十台机器就可以支撑每天数千万用户的兴趣模型更新,并且特征更新速度非常快,基本可以做到准实时。这套系统从上线一直使用至今。

  当然,我们也发现并非所有用户标签都需要流式系统。像用户的性别、年龄、常驻地点这些信息,不需要实时重复计算,就仍然保留daily更新。

  四、评估分析

  上面介绍了推荐系统的整体架构,那么如何评估推荐效果好不好?

  有一句我认为非常有智慧的话,“一个事情没法评估就没法seo”。对推荐系统也是一样。

  事实上,很多因素都会影响推荐效果。比如侯选集合变化,召回模块的改进或增加,推荐特征的增加,模型架构的改进在,算法参数的seo等等,不一一举例。评估的意义就在于,很多seo** 终可能是负向效果,并不是seo上线后效果就会改进。

  全面的评估推荐系统,需要完备的评估体系、强大的实验平台以及易用的经验分析工具。所谓完备的体系就是并非单一指标衡量,不能只看点击率或者停留时长等,需要综合评估。过去几年我们一直在尝试,能不能综合尽可能多的指标合成唯一的评估指标,但仍在探索中。目前,我们上线还是要由各业务比较资深的同学组成评审委员会深入讨论后决定。

  很多公司算法做的不好,并非是工程师能力不够,而是需要一个强大的实验平台,还有便捷的实验分析工具,可以智能分析数据指标的置信度。

  一个良好的评估体系建立需要遵循几个原则,首先是兼顾短期指标与长期指标。我在之前公司负责电商方向的时候观察到,很多策略调整短期内用户觉得新鲜,但是长期看其实没有任何助益。

  其次,要兼顾用户指标和生态指标。今日头条作为内容分创作平台,既要为内容创作者提供价值,让他更有尊严的创作,也有义务满足用户,这两者要平衡。还有广告主利益也要考虑,这是多方博弈和平衡的过程。

  另外,要注意协同效应的影响。实验中严格的流量隔离很难做到,要注意外部效应。

  强大的实验平台非常直接的优点是,当同时在线的实验比较多时,可以由平台自动分配流量,无需人工沟通,并且实验结束流量立即回收,提高管理效率。这能帮助公司降低分析成本,加快算法迭代效应,使整个系统的算法seo工作能够快速往前推进。

  这是头条A/BTest实验系统的基本原理。首先我们会做在离线状态下做好用户分桶,然后线上分配实验流量,将桶里用户打上标签,分给实验组。举个例子,开一个10%流量的实验,两个实验组各5%,一个5%是基线,策略和线上大盘一样,另外一个是新的策略。

  实验过程中用户动作会被搜集,基本上是准实时,每小时都可以看到。但因为小时数据有波动,通常是以天为时间节点来看。动作搜集后会有日志处理、分布式统计、写入数据库,非常便捷。

  在这个系统下工程师只需要设置流量需求、实验时间、定义特殊过滤条件,自定义实验组id。系统可以自动生成:实验数据对比、实验数据置信度、实验结论总结以及实验seo建议。

  当然,只有实验平台是远远不够的。线上实验平台只能通过数据指标变化推测用户体验的变化,但数据指标和用户体验存在差异,很多指标不能完全量化。很多改进仍然要通过人工分析,重大改进需要人工评估二次确认。

  五、内容安全

  ** 后要介绍今日头条在内容安全上的一些举措。头条现在已经是国内** 大的内容创作与分发凭条,必须越来越重视社会责任和行业领导者的责任。如果1%的推荐内容出现问题,就会产生较大的影响。

  因此头条从创立伊始就把内容安全放在公司** 高优先级队列。成立之初,已经专门设有审核团队负责内容安全。当时研发所有客户端、后端、算法的同学一共才不到40人,头条非常重视内容审核。

  现在,今日头条的内容主要来源于两部分,一是具有成熟内容生产能力的PGC平台

  一是UGC用户内容,如问答、用户评论、微头条。这两部分内容需要通过统一的审核机制。如果是数量相对少的PGC内容,会直接进行风险审核,没有问题会大范围推荐。UGC内容需要经过一个风险模型的过滤,有问题的会进入二次风险审核。审核通过后,内容会被真正进行推荐。这时如果收到一定量以上的评论或者举报负向反馈,还会再回到复审环节,有问题直接下架。整个机制相对而言比较健全,作为行业领先者,在内容安全上,今日头条一直用** 高的标准要求自己。

  分享内容识别技术主要鉴黄模型,谩骂模型以及低俗模型。今日头条的低俗模型通过深度学习算法训练,样本库非常大,图片、文本同时分析。这部分模型更注重召回率,准确率甚至可以牺牲一些。谩骂模型的样本库同样超过百万,召回率高达95%+,准确率80%+。如果用户经常出言不讳或者不当的评论,我们有一些惩罚机制。

  泛低质识别涉及的情况非常多,像假新闻、黑稿、题文不符、标题党、内容质量低等等,这部分内容由机器理解是非常难的,需要大量反馈信息,包括其他样本信息比对。目前低质模型的准确率和召回率都不是特别高,还需要结合人工复审,将阈值提高。目前** 终的召回已达到95%,这部分其实还有非常多的工作可以做。头条人工智能实验室李航老师目前也在和密歇根大学共建科研项目,设立谣言识别平台。

如何优化:
北京集团网站建设 网站开发合同 企业网站多长时间改版合适 阳江网站开发 设计交易网站 重庆少儿编程网站开发 在线ui设计网站 建德网站改版 网站开发案例分享 网站开发综合实训作业4
总访问数:49140511 文章总数:13698 建站天数:3385
相关阅读
01
网站推广有哪些渠道 哪种效果更好
  首选,我们来看下市场上主流的都有哪些网站推广方式。目前,市场主流的网站推广方式有几下几种:一、网站推广之搜索引擎方向1)网站推广之搜索引擎竞价竞价是比较快速和直接的推广手段,企业开通竞价后,可直接将业务关键词推广到搜索引擎首页,让潜在客户更好的发现自己,获得咨询和成交客户的机会,常见的有百度竞价,360竞价,google竞价,搜狗神马竞价,如果是做外贸的,一般会选择谷歌,如果是做国内市场,一般都会......[详情查看]
02
网站外链数量的增加和原创来历
  信息整合的方法有三种,一是把长篇的整合成段短篇,取其精华,比如把一本行业的书整理成自己的精华笔记,心得体会,二是通过多篇文章,整合成自己更新更全的观点文章,三是根据同一个主题,搜集几十篇优化相关文章整理成某看点的专题。增加外网站优化链的途径比较多,要是专门去做这项工作还真的腾不开时间,所以我们** 好能交换友链,这不需要在网络中泡太多的时间。每天交换一到三个友情链接,这种方式非常受用。1,论坛签名。在......[详情查看]
03
怎样能做好网站seo及关键点
  当我们在做网站优化seo的时候,一定要定位目标关键词,这是非常重要的,现在的关键词分析涵盖的内容非常广泛,比SEO如有关键词的关注量分析,或者是竞争对手的分析,还有关键词的布置和关键词的排名预测,大部分的人一直都认为关键词比较多,那么这种情况下被收入的可能也就会比较多,但事实并不是这样,关键词的密度控制在2%~8%是** 好的,如果超过了10%,那么这种情况下关键词可能就会高一些,很多时候关键词多多少......[详情查看]
04
什么叫网站实用性?
  什么是网站实用性?什么叫网站可用性?什么是网站实用性?如果网站是不实际的,它取决于用户喜欢网站,如果用户花更多的时间在你的网站上,浏览更多的页面,经常看到你的网站,添加书签,在不同的社交网站和评论,这些都可以帮助搜索引擎理解你的网站对用户的实用价值。今天的搜索引擎不仅关注页面的内容,还关注外部链接,以及用户是否喜欢它们。但是,如果你的网站在相关性、权威性和实用性方面都很很好,那么它就会被欺骗,这是......[详情查看]
05
seo基础知识大全
  在一个网站发的外链越多效果会越来越差,要扩大范围,但也需保持一定的相关性。一、选好主域名并做好URL标准化通常情况下我们都会将域名解析2个,一个是带www的一个是不带www的。因此在准备做网站之前就是确定好网站的布局及关键词选择,切忌在考察期内对网站进行频繁的改掉。如果你全站都加了友情链接,别人只在首页加了友情链接模块,你跟他换的时候你网站的权重就会传递给他,得不偿失。多样性......[详情查看]
06
搜索引擎优化有哪些必须掌握的技巧?
  了解搜索引擎优化的用户都知道,搜索引擎优化主要是为了提升搜索引擎榜里面的排名。只有掌握了相关的技巧和特性,才能够把这件事情做得更好一些。虽然原创性对关键词的排名没有太多要求,但是能够把内容做的更加真实一些,显然也能达到更好的搜索引擎优化效果。这个时候去seo关键词会比较有效果,也更容易让用户看到。其实技巧只是一部分,还需要恰如其分的用在一些地方,才能真正让你在搜索引擎优化的过程中受益......[详情查看]
07
优化训练扫描篇,零基础开启网站优化的生命周期
  发表高质量、深入的原创文章是非常具有挑战性的,但我们必须为网站的长远发展而努力。因此,网站上线前,一定要做好充分准备,不要轻易改变。当然,如果你总是觉得你网站主页的标题已经够糟糕的话,你可以在这段时间内改变它。5注意站长平台的数据。那顶白帽子呢对于白帽优化,百度对新站有权重支撑作用,加上临时的权重支撑,基本上权重可以达到1,有很多长尾词会有非常好的排名,甚至个别核心词都可以排名到首页位置......[详情查看]
08
网络推广seo中的重点
  网页的标签设计页面标题等等都是很重要的,适当增强首页内容页面关键词的密度,但是不能在页面中重复使用,合理的按照页面内容出现密度保持在5%以内,合理的关键词密度可以增强搜索引擎对网页的好感度,对于提升页面权重起到很大的作用。有效的内容是吸引顾客浏览网站的基本要素,也是网站的立足之本,提高丰富精彩的内容是网络推广重** 有效的策略,尽可能的引入** 有效的内容也是网站长久运营的客观因素,充分利用优质的内容,让......[详情查看]