快捷搜索:  MySU

... 今日头条会在海外扩张,将推新项目“头条问答”_IT新闻…

张一鸣在演讲中透露,目前,今日头条正在推动一个新项目头条问答,传统意义上的问答,基本都是社交模式,存在很多的问题,在我看来这恰恰是人工智能和算法可以解决的。大家知道,今日头条是一个信息分发平台,我们用个性化推荐引擎,把人和信息更高效的连接起来。具体到寻人,把走失者、寻找者和知情者,这些原本孤立的点都被今日头条连接起来,这是一个典型的连接信息的应用场景。今天在场的各位朋友,肯定对十几年前报纸上的豆腐块《寻人启事》有记忆。那时候,《寻人启事》只能刊登在报纸的夹缝或者不起眼的角落里。为什么呢?因为头版是非常稀缺、非常昂贵的,要留给重大的社会议题。所以,要让寻人启事上头条的办法只有一个,就是把头版的成本降下来。把头版的成本降下来,让每个用户拥有属于他们自己的头版,在传统媒体的时代,是无法实现的,抛开昂贵和稀缺的渠道不说,也没有那么多有经验的媒体编辑。今日头条最终借助于人工智能技术,真正实现了资讯分发的千人千面。让每一个用户,每时每刻,都能看到属于他们自己的资讯头版。不谦虚的说,今日头条是人工智能的先行者:作为一款个性化信息推荐引擎产品,我们当然离不开数据挖掘、神经网络、自然语言理解、机器学习这些人工智能技术。可以说,我们是国内最早一批把人工智能结合到移动应用场景上的产品。鉴于头条的累积激活用户,已经达到 6 亿,今日头条可以说是目前人工智能在实际应用层面,应用最广泛的一款科技产品。在今天这个人工智能的时代,我觉得自己还是可以很自信地说一句,我们是把算法、工程、产品、运营这几个方面在应用层面结合得最好的一家公司。我们理解用户需求,懂算法、工程,理解产品并且还能做细致的运营。一提到今日头条的人工智能,大家就会想到个性化推荐,但实际上人工智能在头条的应用远不止这些。今日头条是内容的创作以及分发平台,至少有 4 个环节是跟人工智能的算法非常非常相关。就是创作、分发、讨论,还有一部分可能读者不太会直接看到,就是低劣内容的筛选过滤。其实头条一直在尝试类似写稿机器人这样的项目,我们希望用人工智能来帮助创作者创作更优质的内容。比如,头条号作者写文章的时候,选择一个合适的封面图常常是个难题,我们头条实验室现在做的工作之一就是用人工智能的算法去帮助头条号作者选出更好的图,或者取一个合适的标题。去年我去波士顿的时候见到一个哈佛的学生,他问我,为什么自己在哈佛会收到长沙老家的新闻推送?我说你是不是在过去两年春节回家了?他说,是。我告诉他,我们是用了过去两年的日志。机器识别出你在波士顿,但是春节回过长沙,所以会给你推荐长沙的新闻,但不是长沙所有的新闻给他,而是离开长沙的人通常会感兴趣的新闻才会推给他。首先是个性化,只有用的越久才越好用。这个哈佛学生用了两年,机器对他的了解才更深入,才能知道他是春节回的长沙。其次是泛化,用的人越多效果越好,把一个人的推荐泛化到其他有共同特质的人身上。假如都是长沙本地人用今日头条,那机器不可能知道一个离开长沙的人会喜好什么样的信息,只有用户量达到一定程度,才可能实现个性化推荐。到最后一步,就是越多的人用越长的时间,人工智能的训练样本就会越大,通过数据积累最终实现数据进化,完成精准推送,告诉在哈佛读书的长沙人,这条关于人才的信息你不该错过。现在今日头条可以说正在数据进化的路上,我们拥有 800 名工程师, 每天 150 亿条训练样本量,20000 台服务器,每日处理数据 6.3PB,用户请求 60 亿次。这是我们实现精准推送的基础。比如,头条上是算法来帮用户找到适合回答问题的人,在同一个问题下,机器会知道怎么样排序能够对不同的用户更友好更合适。算法就可以把类似长沙人在哈佛读书会不会吃不惯这样的问题推送到刚刚提到的那位学生的手机上。另外,算法现在还在尝试,在热门事件里自动生成问题,并且插图,对相似问题去重。知识表示和推理是人工智能领域的研究难题,也是最核心的问题,它的研究一般会涉及到深度学习、概率图模型、矩阵分解和稀疏方法、核方法、决策树等。这项研究成果也正在头条问答项目中应用,我们希望对于一些简单的问题和事实类的问题可以通过自动回答的方式去解决,这样就可以节省专家人力。刚刚说了,我们做的事情是希望增加信息的吞吐量和分发效率,其实增大信息吞吐量最大的瓶颈就是怎么能更快的过滤筛出低劣内容。在此前算法不成熟的情况下,我们有一个小组会和机器一起来进行低质文章的初筛,也就是机器先圈出一个范围,再由人工来完成细致的筛选,今日头条每天能通过筛选呈现的文章超过 15 万篇。一般来说,一个人一天能够处理的文章数量大概是 1000 篇,相比之下,机器一秒钟就能处理 100 篇文章。也就是说,即使只是这十五万篇呈现出来的文章,全部交由人工来筛的话,一个人需要工作一百五十天才能看完,机器则只需要 25 分钟。可能很多人会觉得,人工审核会比较准,但其实我们内部做过测试,把文章打上不同的标签,让不同的人来判断,这时候就发现,人和人之间的判断差别是很大的,准确率大概是 75%,算法的准确率则有 87%。更重要的是,相比人工,算法的边际成本可以低到忽略不计,并且算法还能不断学习。我们后来就更新了初筛的算法,现在今日头条上低质文章的初筛已经不再依赖人工,全部由机器完成,当然,初筛之后,我们还有人工抽检等手段去配合机器,让他们变得更聪明。经常看到有人担心机器人会抢走人类的饭碗,我并不这样觉得。机器解放了我们的生产力,从汽车的发明到电脑的出现,是机器让人们从低质、重复的工作中解脱出来,这样人们有机会去做创造性的工作。信息行业也是如此,在人工智能的浪潮下,我们解放了网络编辑,让创作者集中精力更好的创作,这才带来了真正的内容创业的繁荣。

您可能还会对下面的文章感兴趣: