百度外链判断标准发布 阐述问题外链判断和处理原则

四月 26, 2013 by · 2 Comments
Filed under: 搜索引擎营销 

近日百度站长平台正式发布该文档。该文档由Lee亲自撰写。文档中对百度判断外链是否为问题外链的原则、垃圾外链和作弊外链的区分、几种典型作弊手段、外链作弊行为的详细说明进行了阐述。站长可详细阅读该文档及时对外链进行调整。 文档地址:http://zhanzhang.baidu.com/wiki/160#1

通过阅读此文档,您将会了解到:

  • 百度判断一个外链是否为问题外链的原则;
  • 两类问题外链的区分:垃圾外链与作弊外链及百度的处理原则;
  • 通过我们列举的类别及真实案列,您可以判断自己网站的外链是否存在问题,并进一步进行修正。

文档主要分以下四部分内容:

1、判断外链是否为问题外链的原则—真实推荐

2、两类问题外链的区分—垃圾外链和作弊外链

3、百度认为属于典型作弊手段的几种列举

4、几种外链作弊行为的详细说明

以下为文章详细内容:

一、判断外链是否为问题外链的原则—真实推荐

百度判断一个外链是否为问题外链的唯一原则:是否是用户或者其他网站的真心推荐,是否具体高质量的推荐意义。

二、两类问题外链的区分—垃圾外链和作弊外链

1、垃圾外链

对指向网站没有推荐意义,不是被指向站点故意制作的超链。包括但不限于:搜索结果页发出的链接、站长服务类网站自动生成的链接、恶劣垃圾作弊站自动采集时生成的链接等等。对于此类外链,98%以上已经被我们所识别并且在链接计算中自动过滤,仅此而已,通常情况下,不会对链接指向网站产生直接的负面影响。

 2、作弊外链

以欺骗搜索引擎、蓄意干扰搜索引擎排序为目的,由受益网站主导、人为故意或机器制作的外链。包括但不限于:锚文本作弊、购买高权重外链、黑链、批量大规模增加低质量外链、链轮等等。对于此类外链,我们进行识别过滤的基础上,同时将对链接指向网站进行一定的处理,产生直接的负面影响。

3、垃圾超链举例详述

(1)搜索结果页发出的链接。不用举例,网上存在大量的搜索结果页产生的链接。此类外链将被百度所过滤,不计算链接权重;

(2)站长服务类网站自动生成的链接。举例:www.myip.cn/exlink/dw20.com(若无法观看,请点击 http://cang.baidu.com/cases99/snap/48f469a28c15971cfd07d5a1.html),该链接对于“网站外链15个”里面的链接来说都属于垃圾外链。

(3)恶劣垃圾作弊站自动采集来的链接,如:

4、作弊外链详述

作弊外链的表现形式很多,随着时间的推移总会出现各种各样的作弊手段,但锚文本作弊、通过各种手段增加高权重外链、大规模批量增加外链等几种作弊方式不会变。

三、百度认为属于典型作弊手段的几种列举,包括但不限于如下所述:

  1、锚文本作弊:

使用虚假锚文本等。

 2、增加高权重外链:

黑站加链接、买卖链接、站群轮链等。

3、大规模批量增加外链:

web2.0群发(明显作弊、BBS签名、评估ID挂链接、假推荐真推广、其它群发行为)、蓄意交换友情链接、站群轮链等。

4、服务器端进行特殊处理:

网站自身或外链针对百度spider与用户返回不同内容。

四、几种外链作弊行为的详细说明

  1、锚文本作弊详细说明:

大量使用虚假性锚文本。例如:使用其它知名网站的名称或业务当作自己的锚文本。如:大量的淘宝客类网站或某些知名电商使用“淘宝网”等其他知名网站的名称作为自己的锚文本。

2、使用各种手段蓄意增加高权重外链详细说明

(1)黑站加链接:

利用网站的建站漏洞,人为地给一些网站首页下方添加友情链接,为了不引起用户和网站持有者的注意,通常情况下绝大多数是不可见的,只能通过html源代码看到;或者人为地给fromsite增加目录,目录下的页面中放置带超链的关键词,指向受益的目标url。

举例1: http://www.ngzc.com/

举例2: http://www.huiya56.com/com8.intre.asp?46981.html(已无法打开,见下截图)

说明:www.huiya56.com为上海惠亚货运代理有限公司的站点,而 http://www.huiya56.com/com8.intre.asp?46981.html则是利用该站点建站漏洞,被黑客挂上去的页面(站长本身不知道),页面内容与上海惠亚货运代理公司一点儿关系都没有。

页面最下方很多指向外站的链接,比如“存话费赠手机电信”指向http://wj.ht.so.www.30san.net/ ,“河北唐山移动营业厅”指向 http://qf.tu.gz.www.86ylqx.com/ ,这些都属于黑站加链接。

(2)买卖链接

曾经以黄金链、白金链、财富链为典型代表,当然,目前买卖链接做的更加隐蔽,大部分不再直接标明黄金链等字样。以下为详细说明:

黄金链:

财富链:

(3)站群友情链接

一批有着亲密关系的站点(同一人制作的N个站点或同一家SEO公司控制的多个商业站点),通常采用大量的同一类锚文本互相放置友情链接,使目标站获得关键词排名。如:

3、大规模批量增加低质量外链的详细说明

(1)Web2.0群发

明显作弊:比如将带指向受益tourl链接的关键词穿插在bbs帖子里、BLOG日志里;比如将带指向受益tourl链接的关键词堆积在黄页站点或供求站点里。

举例:http://fuit.sonhoo.com/shop/sale-detail-5019626.html (若无法观看,请点击 http://cang.baidu.com/cases99/snap/49b3b2757f546305056c14f2.html )和http://china.nowec.com/product/detail/854635.html (若无法观看,请点击 http://cang.baidu.com/cases99/snap/49ae7710f43e9b0c745358f2.html )

说明:两个链接是同一家公司发在不同黄页站点的信息,在详细信息处都有锚文本为 “北京藤制家具厂北京藤椅北京藤器北京藤家具北京藤工艺藤家具藤椅藤椅价格藤椅销售供应藤椅 供应藤家具藤椅优惠价格环保藤椅藤椅图片藤椅厂卖藤椅藤制家具厂藤椅藤制品藤家具藤工艺品藤艺北京藤制家具厂藤椅藤制品藤家具藤工艺品藤艺”的超链,典型的群发行为。

BBS签名:在论坛个人签名处加入超链并且使用anchor作弊,在论坛内多次发言(无论是否有意义),每次发言的都有带超链内容。举例:http://www.7szx.com/thread-176713-1-1.html(若无法观看,请点击 http://cang.baidu.com/cases99/snap/0248af1419a770f3118d1886.html ) 说明:此回复的签名“饮水机什么牌子好”“空调什么牌子好”“按摩器十大品牌”都带有链接,指向 www.manmanbuy.com站点内的某个页面同时其符合锚文本作弊特征。

  评论ID挂链接:在站点级BLOG上注册ID,将ID指向受益的tourl。

举例:http://blog.alipay.com/716.html (若无法观看,请点击 http://cang.baidu.com/cases99/snap/e6a665e2951b782d2109e6f5.html )

说明:第93个评论ID为“taobao”,指向非淘宝站点。

假推荐真推广:在大量BBS等web2.0平台发布文章,文章通常可读,文章后附一URL链接。发布这些文章时根本不考虑web2.0平台的主题,完全是通过机器随意注册并发布带链接的文章。

举例:http://www.yiqicms.com/forum/p-73092-1-1.html (若无法观看,请点击 http://cang.baidu.com/cases99/snap/eb07350b5acdde633c0e49a8.html )

说明:文章本身没有问题,但通常存在机器自动大量发布类似的文章,以此来积累链接权重。

其它群发行为:Web2.0群发的行为无法穷举,但是相信绝大部分正常人可以区分。

举例:http://club.alimama.com/read-htm-tid-2136044.html (若无法观看,请点击 http://cang.baidu.com/cases99/snap/336396789cd4f723774aceaf.html )

说明:链接出现的位置明显不正常,不是为了用户阅读方便,而是为了欺骗搜索引擎提高外链权重。

(2)站群互链

制作大量独立站点,站内页面有针对性的指向某一个或几个tourl,或站点之内互轮链。

 4、服务器端进行特殊处理:

存在一类作弊网站,针对百度spider以及用户返回两种不同的页面(内容完全不相关)或针对百度refer使用户跳转到其他的内容上,严格来说,这种作弊不能算在外链作弊范畴,但是是一种恶劣的作弊行为,在此一并明确一下,百度将给予此类站点更加严格的处理。

马化腾与马云为何将数百万捐款,都放入壹基金参与雅安地震救助?

四月 20, 2013 by · 5 Comments
Filed under: 舆情引导 
就像2008年的汶川大地震一样,雅安地震发生之后短时间内,李连杰率领的壹基金又成为最快冲在救灾第一线的、最打眼的民间慈善组织。
根据其官方网站介绍的信息:
地震发生后30分钟内,壹基金联合救灾雅安地震救援行动启动。
1小时后,第一阶段紧急救援行动开始,壹基金救援联盟的四川及周边救援队集结后出发前往灾区搜救、转运伤员。其中,泸州支队队伍中有20名受过专业救援训练的队员此次一起行动。壹基金联合救灾的伙伴也同步展开第二阶段灾后安置工作,从四川、陕西和贵州的备灾仓库起运帐篷和生活物资,并为灾区儿童提供安置场所“儿童服务站”。
与此同时,@李连杰不断通过iPhone在新浪微博上更新新的捐款与行动信息。
其中,他特别提到几个企业家与公司的名字:
@李连杰:柳传志柳总的带领下的联想,也积极参与了捐助。马云、王石、马化腾等企业家也一直奔走、呼吁、行动中。
@李连杰:腾讯公司确认本次地震捐款五百万元。马化腾宣布已经有二百五十万元的资金通过壹基金用于紧急现场救灾。上阵不离亲兄弟。从汶川到现在,腾讯与壹基金一路走来,始终相伴。深深感谢。
转发(8285)|评论(1265) 今天13:08 来自iPhone客户端
@李连杰:面对地震紧急灾难,阿里巴巴向壹基金捐助了500万元紧急灾难救助金。替灾区所有受惠的灾民感谢阿里巴巴和阿里巴巴的所有网友。特别感谢马云先生。爱心无处不在。
(907)| 转发(8705)| 收藏| 评论(1250) 今天14:15来自iPhone客户端
有人因此而评论道:
@书是生活书店:刚刚看了几分钟的微博,发现阿里巴巴、腾讯、可口可乐都是通过壹基金捐款或者与其合作而没有@中国红十字基金会 什么事儿啊。
真相了。
要知道,在@中国红十字会总会的倡议微博下,却是数万声的“滚”。
一方是主流民营企业家的热心参与,一方是微博网民的唾弃,两相对比,这真是让人情何以堪。壹基金在2007年发起成立之初,还是跟中国红十字会总会合作的呢!
几年时间下来,一个民间公益组织的声势与信誉已然超越了官方慈善机构。
壹基金简介
壹基金由李连杰于2007年发起。2007年,李连杰与中国红十字总会合作设立“中国红十字会李连杰壹基金计划”,以独立运作的慈善计划和专案的形式在中国大陆开展公益事业。2010年12月3日,深圳壹基金公益基金会正式注册成立,从而成为国内第一家民间公募基金会。深圳壹基金公益基金会注册原始基金为5000万元,发起机构为上海李连杰壹基金公益基金会、老牛基金会、腾讯公益慈善基金会、万通公益基金会及万科公益基金会,每家发起机构出资1000万元。
壹基金理事会由十一人组成,分别为冯仑、李连杰、柳传志、马化腾、马蔚华、马云、牛根生、王石、杨鹏、周其仁、周惟彦。
在壹基金的双语介绍里,有一段是这样写的:
善款的去向,是许多慈善家都最担心的问题。哪里没有问题?教育、经济、医疗,社会各个领域存在的问题,慈善界也会有。在国内遇到的最大问题是,做善事大家都愿意,但问题是,捐出去的钱最后有没有帮到真正需要的人。比如一笔善款不同的组织辗转几次到了灾区,就可能有一些资金减少,不知道去了哪里。
这或是多位企业家愿意将钱放到壹基金的基本原因。
以下这条微博是李连杰对他与壹基金关系的基本态度:
壹基金是大家的平台,是所有人的。我不过是发起人。感谢所有出钱出力的企业和个人的积极参与。所有的成果是壹基金这个家的,不是李连杰一个人的。感恩壹基金这个家和家里的所有兄弟姐妹,也感恩关注、支持这个平台的所有人。不要再感谢李连杰个人。
(620)| 转发(1997)| 收藏| 评论(885) 45分钟前来自iPhone客户端

家庭购物公司的电商之路初探

四月 14, 2013 by · 3 Comments
Filed under: 电子商务运营 

家庭购物与电子商务都推崇足不出户,轻松订购的理念,拥有完善的服务体系,是零售的不同表现形式,都以提供给消费者更多优质商品为第一要务。

 

家庭购物那些事

家庭购物是电视购物发展到一定阶段的必然产物,国内近几年在各大电视台的倾力支持下家庭购物风生水起,尤其是像家有购物www.jiayougo.com 在区域合作、电视购物节目的包装、商品组装、物流和客服的大力优化下,成为和互联网创新媲美的行业。

家庭购物频道基本以“媒体零售、电视百货”为基本形态,最大的优势就在于电视台的品牌优势,与互联网电商比较起来主要表现在:1、广电背景,半垄断性的牌照与稳定的权威媒体覆盖资源,比如家有购物凭借全国覆盖最广的家庭购物频道3年跨入行业前三;2、专业的节目制播团队,商品可视化挖掘与包装能力强;3、严格的质检和优秀的callcenter;4、渠道扁平化,具备价格优势;5、以电视为核心,多媒介整合,更生动形象地传播商品信息给消费者。

当然也正因为这些优势导致以下几点缺陷:1、总体商品量不够丰富,缺乏品牌商,商品开发速度慢;2、更多的互联网用户群体对家庭购物受早年橡果国际类电视直销概念影响,行业评断低,公信力不足;3、因为各家受众都对应着客厅,大多都追逐家有购物打出家居用品旗号来,同质化严重;4、只能通过电视、电话将信息传递给受众,顾客互动参与性弱;5、信号必须拓展覆盖,成本抬升明显。

家庭购物市场潜力巨大,发达国家已经占到零售份额的8%左右,但是在中国大陆,市场份额不足1%,威胁主要来自于家庭购物在国内尚属年轻行业,人才比较匮乏,各家之间商品同质化严重,缺乏核心竞争力。

 

电子商务那点事

互联网一直都是眼球经济,总结出来的互联网模式就是:(流量或用户数)*某转化公式=盈利,如何让眼球落地变现曾一直被忽视。

电子商务网站的流量对品牌识别度很高,京东、淘宝可以做到三分之一以上流量来自品牌直接进入,更多情况下流量主体来自搜索、网址导航、数据库、网络联盟、客户端软件、门户以及自身品牌直接输入流量。搜索竞价投放不是人人都能做到保本的,网址导航靠的是自身品牌度,cps联盟更多的是铺知名度和维持不亏本的前提下扩大销售量,门户有品牌效应,尤其是微博、微信加速度普及后,口碑精细化运营成为必修课,其他渠道的目标是带流量,但流量转化率经常并不如人意,如何赢利,似乎唯有做大品牌。

当前,电子商务已经进行了三个阶段:第一阶段是资本推动;第二阶段是供应链驱动;现在是第三个阶段,即营销精细化阶段。不仅是营销的问题,更是系统建设的问题。2013年伊始腾讯电商控股公司CEO吴宵光的一份内部讲话显示,腾讯电商反思2012年的发展,提出“没有物流就不要做电商”,并且流量货币化应有所取舍,并坦承,腾讯电商不能再简单地冲交易额,交易额重要,但核心驱动力还是用户的黏性不断提升。我想,如果过去是“烧钱生存”,接下来应该“有效生存”。

 

家庭购物的电商业务是怎么了?

家庭购物公司开始重视电商业务比较晚,从家庭购物公司内部理解,丰富的会员基数,但这些会员网民比例是多少?如何转换过来?数据库彻底打通?TV通路的商品图片与详情更清晰具体,让型录和网络不再做重复劳动?细想下去,我们会发现问题很多而且都有着复杂的逻辑构成,那么可以做什么呢?是的,拥有丰富的电视媒介资源,物流仓储,拥有一定量的商品,拥有优秀的客服团队,拥有经验丰富的零售业管理团队以及标准化作业流程等等这一切是做好电子商务得天独厚的基础。可为什么家庭购物公司在电商业务上总不够强势呢?缺少点什么?

 

家有购物-家庭购物公司-电视购物-电子商务

家有购物-家庭购物公司-电视购物-电子商务

CNNIC发布《第31次中国互联网络发展状况统计报告》显示,截止2012年12月中国网民规模5.64亿,普及率42.1%,网络购物用户规模增长依然稳健,18-39岁互联网用户超过60%,家庭购物频道的受众则偏35-55岁家庭主妇为主,电商购物更偏高新技术,加之用户重合性低,采用的业务架构与产品文案等各个环节要求都会有一定区别甚至相反也在所难免。再从公开价值观上理解在互联网业务里讲究一个七字诀“专注、口碑、极致、快”;家庭购物公司在专注和极致这两点上是到位的,电商这块做的远不如TV通路,比如组合包装销售,视频话术提炼等等。然而我们会发现在口碑上,传统口碑与互联网口碑会形成强大的冲击力,路数和受众心理完全颠覆,传统口碑讲究统一口径,正规渠道严肃性。而互联网口碑更多的是讲究及时性、娱乐性和互动性。试想,我们的新闻稿在通过一二三级审核修改后再慎重地选择权威门户媒体发布,与三下五除二一事三篇各类网络媒体时间灵活地出现在头条哪个更能占据网民的视觉?传统媒介受众对媒介内容讲究品,网民对媒介内容讲究过目,全球无限的文字不间断地滚动出现在网站上,网民没有更多的精力每篇文字细品。传统媒体是公告,网络媒体是沙龙。家庭购物公司可能会觉得类似京东、淘宝、这些电商事真多,每天都有各类新闻,其实不然,大家都是一样的,只是互联网/电商企业更在意随时出现在网民眼前而已;当然正常情况下,还不排除另外一个互联网流量的大头—搜索引擎,搜索引擎里一个关键名词“权重”。试想某知名电商网站每天通过某安全套名从搜索引擎自然排名过去的流量在5千UV以上,为什么大家亏本都要上图书品类、游戏品类?这些品类的常规因素抛开,它们不约而同还有一个重要的因素是SKU数,他们不是为了SKU而网站内容丰富度。

家庭购物频道网上商城主要问题表现在:定位不具体且不稳定;域名策略复杂;互联网营销预算偏低;网络曝光不够;不擅长与网络新媒体打交道,和互联网变化节奏延迟,内部ERP系统尤其是老会员和历史订单信息跟网站的架构打通效率低,等等。当然与家庭购物最开始上互联网业务仅作为电视的辅助形象展示,进入电商业务较晚有很大关系了。

用户在哪里,我们就去往哪里开疆拓土,正如年前一夜之间,互联网公司们心有灵犀组团、陆续,去刷地方卫视的一档综艺娱乐节目,根本上是为了开发更本土的三四线城市用户。我想因为用户在那里,娱乐节目的姿态比行业媒体友好,形式更创新和娱乐化,更容易抓人眼球,互联网里的UGC不成章法,而传统电视节目,则更善于用娱乐的形式表达本来严肃的商业主旨。

 

家庭购物公司网上商城值得这样做

笔者认为家庭购物网上商城业务可以从以下几方面出发,进一步提升电商业务的竞争力:

1、 首先要从上至下给予网上商城更精准的统一定位,比如家有购物商城的精品家居商城定位,可以先让TV通路订购用户上官方商城查询更多商品,更丰富的介绍,追踪物流信息,在线退换货,在线客服,查询历史订单,商品与服务评价,推荐给亲朋好友,并结合专职化微博、微信等社会化新媒体,等等。这些基础资源整合特别突出自身优势,甚为重要。

2、从行业特征出发,网购用户对商城的品牌识别度高,忠诚度偏低,根本不在乎你是普通电商网站还是家庭购物网上商城。家庭购物公司固有其不可多得的垄断型优势与资源,商城需要更好的利用好这些资源,整合互联网电商积累的多年网购流程与体验,培养的网购人群习惯,更加呵护这些网购群体,增加更高的附加值。家庭购物公司的域名可以更亲民一些,网络曝光更丰富一些,微博、微信社会化媒体专职运营,这些社会化互联网产品的加速出现让人们发现仅仅是普通的(互联网项目)产品人员、运营人员已经跟不上时代了,技术变得更加重要,微信自身还没准确定位时,星巴克、国航等已经在微信上开发出自助式小趣味互动应用和自助CRM管理应用了,这在大多数企业里会办或签呈还没走到一半,技术团队在这个变化也越来越快的时代急需构建高效反应机制,和项目人员一道迅速拿出产品的能力有待加强。

2、 从行业现状与趋势看,TV、WEB、DM结合整合企业业务数据通过二维码的尝试是很有趣味并值得的,移动商城这块正处在市场热恋期,APP客户端软件成为品牌标配,当然市场反应的结果恰恰是2.0WAP网站更胜一筹,当然PCWEB、APP、WAP都和购物频道一样拥有完全独立的商品展示、文案、运营和推广逻辑,虽然目前京东、淘宝也还在摸索中,但很有必要专业的团队与资源倾斜,投入比旁观来的回报预期肯定更高。

3、 更丰富、亲和的网络品牌运作,新闻稿见天有,就如前几天北京电商经理人聚会我对大家讲为什么企业的客户群更多在腾讯微博,但是不约而同地把新浪微博作为官方主阵地呢?答案很简单:新浪里更多是舆论引导者,品牌发酵场,而我们处在一个缺乏主见的群氓时代里,一切变得那么理所当然。同理,家庭购物的网上商城可以与互联网上核心几家媒介机构、组织结下姻缘,包括但不限于咨询顾问、沙龙、发布会、行业研究、新闻稿,等等。最最重要的是一切营销推广最终都是为了形成口碑、品牌。所以千万不能忘记互动。

4、 未来在于精细化的整合运营,大数据的前提下整合企业各个通路资源,数据整合与分析研究相结合进行错综复杂的采样、调研、分析、辩证、引导、服务,商品描述不再仅仅是图文并茂,生动活泼那么简单,我们还需要为初次怀孕的妈妈提供供尿布的试用技巧与新生儿护理书籍或知识,为第二次购买尿布的妈妈提供奶粉和瘦身的产品,等等。网站的商品不能再是千篇一律,需要向购物频道那样每款商品都是有精美的组合与场景详情,以飨消费者。

5、 持续的创新,正如TCL李东生先生在微博上针对电视发展见解那样:硬件升级是基础,智能化应用以及颠覆性的尝试更是重要的着力点。硬件都在持续的升级换代,我们家庭购物更要敢于创新突破,做一头奶牛中的“紫牛”,如果我们的购物频道每集视频里都有一些网上网下结合的微型互动游戏或话题,如果我们商城上每款商品介绍都与别人有不一样的特色点,如果我们的客服人员都有一句开头都“亲”,如果我们的品牌调性是open且独一无二之时,家有style风靡,一切都将变得更简单,让我们以紫牛的思维去战斗!

 

结语

未来,无论是家庭购物还是电子商务,所有竞争都将是品牌的竞争。随着多屏融合、社会化大数据整合以及行业的良性发展下,将会带来的是规模的不断扩大和竞争的日益加剧,类似家有购物一样具备权威性的和品牌影响力的家庭购物商城必将脱颖而出。下篇将探讨更多细节的内容,尽请留意。

本文作者:贾思军 www.jiasijun.com

管窥中国互联网的地下世界:黑客、色!情、黑公关

四月 9, 2013 by · 2 Comments
Filed under: 商业观察 

本文是作者见过对中国互联网形态最有见地详细阐述的一篇文章,虽然里边还省去了很多更丰富的内容以及另外一个更大的形态。作为普通读者能了解到这些内容应该也算结构性知悉大陆互联网形态部分雏形了。本文来自虎嗅网,转来仅供本博客读友参考,版权归原作者。Fenng曾在其微信公众帐号小道消息上分享了一则关于“黑&客”的故事,文章颇具传奇小说的风格,不少人读过之后表示“无法相信”。质疑的人或许并非无知,只是事情超过了他们的认知范围。中国互联网的三个世界,在地下世界发生地事情,地面上的人永远不知道是怎么回事。

而关于“中国互联网”的三个世界,有人早在2005年就提出过这个归类方法:“在中国,存在三个互联网形态。一种是媒体给人灌输的互联网,以海外IPO为目标的;一种是草根互联网,低调掘金,如迅猛龙般彪悍;一种是深藏地下的互联网。”

这个分法,大致上是合理的,如果对应其实际的案例,第一类是属于“空中互联网”,通常保持在媒体视野之内活动,有着从西方借鉴过来的成熟的商业模式,比如大家熟知的百度淘宝微博等。第二类是“地面互联网”,贴着地气生长出来的原生态产物,极具草根和市井特色,一般都在埋头挣钱,鲜有媒体关注——过多的媒体关注对它们而言也不算利好之事,代表有9158(年营收破10亿的视频交友网站)、5173(中国最大的网络游戏交易平台)、雨林木风(以盗版Windows系统发家,现已洗白)等。

第三类的“地下互联网”,尽管涉及许多见不得光、游离在法律边缘的行当,但它也并不完全等同于一个法外之地。更多时候,无论是为了自保还是业务的安全需求,他们都不会主动的浮到地面上头让人发现。然而,在很多时候,地下互联网都无意中直接或者间接的影响着普通网络用户的生活环境,甚至参与制定过一些地上互联网世界也必须遵从的规则。

在这里,我可以讲一下我所接触或者经历过的,地下互联网庞大冰山里的三座山头,它们平时可能只是以书面上的词汇形式为人所知,然而,毫不夸张的说,它们真正意义上左右着中国互联网的某些时局。

第一座山头,叫做“黑&客(Hacker)”

在理论上,目前对于黑&客的定义存在着比较重大的误读,简单来说,这个源自美国计算机业界的舶来名词本意上是用来形容对计算机技术有着深入研究、捍卫自由共享的网络精神、偶尔会利用技术优势做做恶作剧的电脑高手。只是猛兽易伏,人心难降,在私欲的牵引下,有些具备黑&客技术的人走上了恶意破解商业软件、入侵服务器系统以谋取利益的道路,这些人被称为Cracker,而这里所讲述的山头,正是Cracker的领地,但是为了便于理解,暂时也将Cracker译为黑&客,大家知道实际区别就好。

许多媒体曾经或多或少披露过的“黑&客”新闻,多半也是属于这类,在媒体的笔端,这类黑&客似乎都是来自鼠标和键盘的混种天才,足不出户便能闯入任意网民的电脑里,盗取各种信息资料,或是轻易入侵各大网站,还能删改网站首页留下“到此一游”的得意战绩。这些报道,多以道听途说、或是采访已被公安抓$捕的网络敲诈犯为信息来源,既有夸大之处——黑&客通常必须要有“木马”等程序作为桥梁进行入侵,否则无法单凭网线就去操作任意指定用户的电脑,也不乏低估的地方——很多因为犯事而被曝光的小黑&客其实属于黑&客产业链的最下游,只是凭借在交易平台购买的暴力破解或攻击软件,以极小几率入侵了某些防御力量实在薄弱的网站数据库,实现了盗取帐号密码的目的。

真正入流的顶级黑&客,他们其实都是一群生意人。

生意人有个特点,他们擅长玩的是交易,用一些东西换另一些东西,再用另一些东西换别的更多东西,最后获得自己想要的最大利益,而这个看似是技术密集型的行当,在他们的掌控下沦为了一个劳动密集型的行当。

 

2009年5月19日,这是中国互联网历史上的一个标志性刻度。有印象的网民应该都还记得,在这一天晚上9点左右,全国范围内出现了大面积断网事件,超过23个省份陆续出现网络中断或访问受阻的现象,持续了数个小时之久。而后,电信运营商和工信部把黑锅盖到了暴风影音头上,称“由于暴风影音客户端软件存在缺陷,在暴风影音域名授权服务器工作异常的情况下,导致安装该软件的上网终端频繁发起域名解析请求,引发DNS拥塞,造成大量用户访问网站慢或网页打不开。”而事情背后的真相却是,暴风影音虽然也应当为此承担部分责任,但它的确也是货真价实的受害者之一。后来有少数媒体对事件缘由作了较深的挖掘,发现是黑&客在攻击DNS服务商的时候,致其服务器宕机,而暴风影音的域名解析正好处在这台服务器上,而拥有千万级用户规模暴风影音当时会在用户的计算机上残留一个用于监测状态和弹出广告的进程,这个进程在回传信息的时候遇到服务器堵塞,继而因为暴风影音的设定机制不断累计往回发送请求,最后直接弄瘫了中国电信的DNS服务器,让全国网友都断了网。

为什么黑&客攻击能够引起如此震动的影响?这背后的利益关系核心,却是另一个行业:网络游戏。这里所称的网络游戏,是所谓的“私服”。中国曾经最大的网络游戏产品《传奇》在源代码发生泄漏之后,实际上就变相的成为了一个“开源”的游戏产品,任何稍具技术的用户都能自主的搭建《传奇》游戏的私人服务器,提供经过修改后的、在某些方面比官方更加“刺激”的《传奇》游戏。而基于庞大的用户付费基础,中国大地上如雨后春笋般一度出现了千万个《传奇》私服——具体数字比后来的团购网站巅峰数量更多,于是有些大的黑&客就盯上了这个群体。

《传奇》私服在宣传时一般都需要搭建一个网站,用来提供游戏服务器的IP或登录器下载——这是用户进入其游戏的唯一入口,而黑&客就瞄准了这个为私服运营者提供收入支持中不可或缺的入口,每天扫描新开的私服网站,向手底下的“操作者”发送攻击指令,后者通过常规DDOS或其他更高明点的手段将目标私服的网站攻击瘫痪,中断用户入口,再联系私服运营者,索要数千甚至上万元的“放弃费”。如若遭到拒绝,则进一步攻击游戏服务器,导致玩家无法正常游戏,彻底断掉私服运营者的财路。高峰时期,中国每天都有上百万台服务器受到这类黑&客的操控,用于威慑和打击私服网站及服务器,而私服运营者方面因为本身就是违法生意,根本无法寻求警方协助。(这从侧面似乎也证明了私服行业的惊人暴利,在黑&客、官方的双重打击下仍能前仆后继……)

而519断网事件,就是由一伙黑&客在打某家《传奇》私服的时候,直接攻击到了后者服务器所在的DNS服务商身上,进而引发暴风影音的连锁反应,酿成大祸。这让工信部第一次意识到了互联网在政治之外的风险,曾有网警单位试图打入黑&客关系以及病毒产销链的内部,但皆因身份伪装失败而遭泄漏,不过也起到了一定的威慑作用。2010年3月,工信部低调推出了中国通信行业网络安全的首个部级指令《通信网络安全防护管理办法》,确定了电信管理机构的行政权力,还给公安部门下了任务指标,不少地区兴起“抓$捕黑&客”热,最终的结果可想而知:一些在网吧里自学简陋的攻击软件的青年被当作涉案重量级黑&客锒铛入狱,而真正有能力的黑&客则开始将研究重点由“入侵”转移到“隐匿”上,反倒间接的推动了中国加密数据网络技术的水平提升。

还有更多单打独斗的黑&客从事的是“信封”交易,通过自己编写的软件将恶意代码注入某些防范不严的网站数据库,造成用户数据的外泄(或者入侵大型网站后在网页上挂木马)。2011年年底CSDN遭到“拖库”攻击被黑&客拉出600万用户的明文帐号密码,即为一例。经过这种方式拿到的帐号和密码,通常会由黑&客使用另外的程序进行各种主流的软件或游戏进行交叉验证,比如,你在某论坛的帐号和密码被捕捉到之后,黑&客会用此帐号和密码去撞QQ、各大邮箱、各大网络游戏等地,如果恰好有人帐号和密码在这些地方亦保持一致的话,则被封装为信,成为一件商品。这些被称为“信封”的文件被拿到批发市场上进行交易,由购买者再去挖掘更多用途的价值——比如购买了某网游信封后,就可以去盗取该网游帐号的装备,而在购买了某QQ信封后,则可以操纵这些QQ号去找好友行骗等等。一名已经洗手不干的黑&客曾透露说,中国市场上待价而沽或正在交易的“信封”超过了二十亿封,年产值在百亿人民币规模。

逐利的黑&客更有着“养号”的习俗,若是将木马或者后门程序种到用户的计算机内,则会盯上一些暂时没有价值、但可能会有升值空间的资料,比如级别并不高的网游帐号,待到该帐号成长起来产生价值之后再来“收割”。这类黑&客倒是对360等安全软件抱有某种程度上的“谢意”,因为就他们的样本来看,没有安装安全软件的用户,重装系统的频率要比装了安全软件的用户高出太多——很多用户会将重装系统当作清理电脑的一项手段,而重装系统对于90%以上的本地木马或是后门程序都有着毁灭性的打击。

在中国,广东、福建是黑&客聚集较多的地区,产业链上游的黑&客,基本上都有着实业,我所知道的一名黑&客,开着三家夜总会和一个茶庄,泡着古玩和书画市场,每个月抽一天的时间去他控制的工作室查账、开会,连他的老婆都不知道他的真实面貌。还有一名黑&客,白天在一所专业学校里教计算机课程,曾在一个晚上打掉某著名游戏厂商的整个数据库,被该游戏厂商悬红百万人民币通缉,而他就在自己被通缉的期间,迎娶了该游戏厂商的一名女策划,后者对他愤恨说某黑&客让自己公司蒙受损失并影响了自己的年终奖,他只是笑着安慰。

在黑&客这个圈子,大的瞧不起小的,认为后者太过张狂,不仅扰乱市场,而且会招来不必要的政府关注。而小的都憧憬大的,并希望自己能够早日成为大的,所以常有急功近利的事情发生。一名年仅十九岁的黑&客曾经黑掉了某个地区政府的官方网站,目的只是想要将成果展示给他的朋友欣赏,后来他被警察逮到,预计直到不惑之年才能再见天日。

另外,在媒体的渲染下让很多人谈“黑”色变的直接盗取网银钱财的黑&客行为并不多见,因为此时,黑&客的攻击对象并不是毫无议价能力的普通用户,而是国家金融机构,一旦被发现,后果不太能够承受,而且当越来越多的网银将手机验证作为交易环节之一,网银的壁垒也的确相对较高。与其冒着风险和难度来入侵银行的对外系统,一些小黑&客更喜欢借助钓鱼页面的形式来诱导用户在虚假的网站上展开交易,再来借机引导被欺瞒的用户将钱打入指定账户。而大点儿的黑&客,他们可以私下演示如何入侵大型商业公司甚至国家安全系统的能力,但是一般不会动里面的东西,只是不留痕迹的出入而已。

基本上,因为某些行规和自我保护的因素,中国的黑&客圈子秘密很多,外流的极少,甚至有时会有意放出一些极其夸张或者与事实大相径庭的消息,干扰外界视线,达到隐蔽目的。他们大多认为黑&客是一门吃青春饭的生意,希望早日当上“老板”,指挥后辈在前线冲锋陷阵,自己坐享其成,而出于职业习惯,他们也对生活中的许多事物保持相当高的敏感神经,每周注册一个新的QQ、重要代码写在本子上不往电脑里存、笔记本电脑的摄像头永远贴着不透明的胶布等,都是常见的现象,因为过度紧张和集中注意力,神经衰弱、睡眠质量奇差、脾气不好都是黑&客们的职业病。

 

色!情

接下来要说的第二座山头,叫作“色!情(Porn)”

在世界上的绝大多数国家,色!情业都是合法的存在,而在中国,由于国家体制的原因,色!情业仍然处于法律的敌对阵营里。但是,食色性也,作为人性的原始需求,色!情网站满足了网民对于欲望的部分需求,根据BusinessInsider的一份报告数据显示,色!情网站占全球网站整体数量的12%,其总体流量占比可能逼近整个互联网流量的三成左右。

尽管在中国,色!情行业(及网站)都是非法产物,但这也无法遏制某些城市成为举世闻名的“性!都”,也造就了如草!榴#社%区这样的色!情网站集群。

草榴社区创建于2006年,服务器在美国的科罗拉多州,时值中国曾经最大的色!情论坛情!色#六$月%天^东窗事发——其服务器虽然设在美国,但是论坛的主要管理员却都是不折不扣的中国人,又因内部斗争(主要为收入的分配)而造成不和,最后被山西省公安厅将部分论坛管理者抓获在案。草榴社区充分吸收了前辈失足的经验和教训,基本上不会设置太多的论坛管理者角色,即使需要存在的某些拥有管理权限的帐号,也都是不会在社区里发言和互动的(早期有过,但是后来就隐匿掉了),这样就尽可能的避免了信息外泄或者产生纷争的风险。而草榴社区的实际控制者,都有着海外国籍,受到他国法律保护。

因为目睹太多由利益而起的纠纷最终牵连网站的案例,加上草!榴#的主要创始人(几名美籍华人)家境尚好本就不算缺钱,所以并没有在盈利上花太大功夫。因为草榴社区一直是免费运营的政策——除了小范围内的展示型广告、网盘链接分成之外,都没有太多商业化的机制,这使得草!榴#社%区的“名声”一直很好,一个不弹广告窗口、也不限定用户购买VIP方可浏览的色!情论坛,怎么可能不受欢迎呢?2011年6月,草榴社区曾经尝试开放注册一天,结果一夜之内多了十三万新注册用户,管理方发现这样下去数据库会崩溃,于是就继续采用邀请注册的机制至今。

但是草!榴#社%区并非是中国色!情网站行业的翘楚,它只是色!情影片进行分销的一个主要渠道,更上游的,是那些收费运营、更加隐蔽的色!情网站。借助P2P的共享模式,下载色!情影片成为了中国网民接触色!情信息的主流方式,而影片并非凭空出现的,它的片源在日本、欧美等国家以商品的形式存在,那么这中间就需要当地华人掏钱去将光碟购买下来,再将其转码成为网络流行的AVI或RMVB等文件格式,制作成种子之后上传到色!情网站提供P2P下载,这些人属于“发片员”。“发片员”少数是义务性质,大多还是会从色!情网站的运营方那里拿到费用补贴,而后者则利用他们带来的影片更新内容,吸引用户下载、传播、付费。而有些用户则以这些种子作为资源,将其分享到草榴社区等网站,造就了后者的繁荣。

能力出众的“发片员”,甚至会在论坛里享有至高的特权,比如18P2P著名的“n i k e”(用户ID),这是一名香港网友,本身从事的就是色!情影片光碟租售业务(在香港合法),因其能够以每天几十G的网络发片规模持续了好几年而闻名于世,在网络上一度有80%以上的日本有码片源都是出自他那里。18P2P对此贵客也是多方担待,明文告示任何人不得打扰nike,包括在其帖子下面回复攻击性言论、或是发送论坛短消息给他求片等,都会直接遭到封杀ID的处理。nike最终因为自己要结婚以及其最爱的AV女#优#松%岛^枫传出退役消息,而退出江湖,真正的“深藏功与名”,只留下传说。

苍!井@空#在中国走红,日本A@V圈内其实是不太待见的,因为作为一个在日本完全合法的行业,色!情影视业仍然是一个通过销售光碟赖以为生的产业,对从业者、发行商的回报完全由顾客购买决定。色!情AV在中国市场几乎是一个纯P2P的分享模式,在一个无视版权、甚至连色!情本身都不合法的国家转而借助从影片中积累的名声进行变现,无疑释放出一种“鼓励中国人继续盗版日本的色!情AV”的信号。不过苍井空也只是个案,无论是政治还是性文化上都呈保守姿态的中国,对待色!情产业并未出现与它对待其他经济产业表现出“大力招商引资”的积极态度,2CH(日本最大的综合社区)上曾有一名日本网友十分疑惑,“为什么中国可以将土壤和河流都污染到百年后仍会残留剧毒的程度,却在色!情信息上试图建设一个谁都知道真相但谁都不说出真相的伊甸园呢?”除了苍井空之外,与中国走得比较近的,还有常被中国一些酒吧请来站台甚至还和某情趣用品品牌合作亲自充当模特的小!泽@玛#莉$亚、分别出演过香港电影《3D#肉@蒲$团》和《一路#向@西》的原@纱#央$莉和希!崎@杰#西%卡、以及同样在新浪微博上拥有大批拥趸的长相酷似周杰伦的A%V男优东尼大木等人。

在中国市场,运营得比较好的色!情网站,一年收入大概可以达到千万人民币的规模,扣掉服务器及兼职人员(版主、发片员等)的成本,运营方可以入手数以百万计的净利,如果除开法律隐患,还是非常吸引人的,而且色!情网站的运营方能够收获独有的荣誉感——整个社区的用户都将管理员们当做神一般进行膜拜,这种体验更是让人很为受用。去年,某色!情网站的一名版主(美籍华人)回国探亲,天天都有当地网友排着队请其吃饭,其中不乏富有的私企老板,开着奔驰带他体验家乡变化,还说“虽然(自己)现在也常远赴东莞,但是发迹之前都是靠着他(指这名版主)在论坛上发的片子度日,实在感激不尽……”

除此之外,还有一些网友并不满足于对着电脑屏幕的异国女#优浪费卫生纸,于是有着更多类型的网络经济,用于迎合这种寂寞和欲望交织的需求,包括真人视频、买%chun交流、fuqi换#偶等。但由于更加踩住了法律的黄线,所以多数都只局限于小圈子范围内,除非运营方想钱想疯了,否则不会做出过多的声张。我认识一名无业的中年男性,全靠他的妻子通过在网上出售原味丝袜养活,一个月的家庭收入可以超过30万人民币。

 

黑公关

第三座山头,是“黑公关(Gangsterdom PR)”

和“骇客(Cracker)”牵连了“黑&客(Hacker)”一样,“黑公关(Gangsterdom PR)”也干扰到了人们对于“公关(PR)”的定义和看法。

“公关(Public Relations,简称PR)”是由美国传媒行业在20世纪初创造出来的概念,属于管理功能,意指“组织机构与公众环境之间的沟通与传播关系”,随着舆论经济的发达、Edward L.Bernays这类学者的推动以及《公关第一,广告第二》等营销经典教材的风靡,正式成为政府和企业的一门必修课。

从事公关行业能够明显察觉,公关对于其理念的忠实程度和它所在的地缘政治的媒体自由及社会民主程度呈标准的正比趋势。也就是说,一个国家或者地区的媒体越是落后、越受限制,政治体制距离民主精神越远,那么公关在这片土壤上就越容易演变成为一个与其原生概念完全不同的产物。这个不仅是在公关行业,干过啤酒渠道拓展业务的应该也都能体会,想要在中国一个县级城市的餐馆里推广某个品牌的啤酒,与其啤酒的口味、品牌、广宣等内容都完全无关,只要搞定当地负责某个片区的地头蛇,后者自然会带着人马去帮你规定区域内的餐馆必须买进什么啤酒。

在中国互联网这个受法律和体制约束更小的世界里,有很多实际上是公关无法实现的功能需求,都是在由“黑公关”以“公关”的名义在行事。和“黑&客”利用技术实现目的的方式不同,“黑公关”里的技术含量甚少,更多的是在四两拨千斤,用资源作为杠杆,对目标进行打击和讹诈。

神州租车曾计划在2012年启动上市,但是几乎是在消息传出的一夜之间,各大主流媒体、社交网络上都出现了关于神州租车的负面新闻,且用词相当激烈。神州租车的董事长陆正耀后来在微博上咆哮,“没完没了的水军攻击、伪装成客户向媒体爆料,居然还买广告版面发我们的负面,我怒了!”也是出于对“黑公关”的不堪招架。2012年4月,神州租车估值被一级级的调低,最后基本上缩水得看不到回报率,只得临时退出上市程序。

《深圳商报》曾经有过一篇《黑心公关“猎杀”上市公司》的简单报道,揭露了一些企业在上市前夕会被人为的盯上,瞄准企业为了顺利上市而“谨小慎微、希望顺风顺水”的心态,以胁迫的方式谋取利益,如果企业配合,“黑公关”机构就愿意顺水推舟高抬贵手,做一笔人情买卖,若是企业拒绝配合,那就会有“从中作梗”、“故意找茬”的事件频频发生,在企业上市的步履下使绊子。

“黑公关”一般掌握有多种形式的资源,平面及网络媒体、业界名流、水军都是常见资源,3.15等特殊时期更是有着堪称“核武器”的曝光机会,用“翻手为云、覆手为雨”来形容并不过分。向筹划上市的商业公司进行“勒索”虽然单笔利润丰厚,但从频率上来讲却是可遇而不可求,更多的时候他们都会“自造”机会。

包括很多门户在内的一些网站,由于人力成本的原因,一些有着长尾价值的二级频道无法自营,便会外包给一些公司,由后者每年缴纳一定“代理费”,然后独立运作代理的频道,自负盈亏。不少“黑公关”也盯上了这块肥肉,拿下代理之后,利用该频道因为隶属门户网站而能够被百度等搜索引擎的新闻栏目爬虫索引收录的资格,逐家的找频道主题相关的企业索要广告费用,如若遭到拒绝,就会开始不断的曝光企业负面,而中国的很多网络新闻站点又存在着“采集”这一内容组织模式——即为了填充内容更新,网站和网站之间会互相转载新闻信息,这导致企业的负面信息会在短时间内变得极其庞杂,进而影响企业的订单、投资等收益。这时,“黑公关”再会以另一家壳公司的名义,上门“点拨”企业,贩卖删帖生意。这就是为什么我们会从很多地方看到对删帖公司“神通广大”的渲染,其实有些时候并不是他们有能力去“删”帖,而是帖子本身就出自他们,他们只是将帖子作为商品进行“下架”处理而已。

当然,也有“黑公关”出过事,当一个狠人遇到比自己更狠的人时,如果察觉不到危险,一定会吃亏。360的周鸿祎就是这么一个更狠的人,故事其实业内都知道,周鸿祎说你把你的老大叫上一起等我,我带钱过来,然后自己没去,叫手下带了警察过去,人赃俱获的把对方给端掉了。但更多的企业没有这个胆识,一来在中国这个环境,没有一点小辫子存在的企业实在少之又少,二来企业本身也会顾虑能否做事做得“太绝”,用钱能够解决的问题在大多数情况下其实都不算太大的问题,如果惹怒了对方,导致用钱解决不了的报复上门,那时的摊子才更加难以收拾。

至于一些杯弓蛇影的媒体,将“黑公关”描绘为日进斗金的暴利的产业,倒也没有那么夸张。有从业人士对我吐过苦,寻找要黑的目标其实也是一件十分困难的事情,小的企业,它根本不在乎,你发他成百上千篇负面,可能反倒帮它做了宣传,而大点的企业,也都开始重视对法务部门的建设和投入了,万一引火烧身,也是得不偿失。而且在中国做生意并非完全靠市场,像蒙牛这样的厂商,无论是真的出事还是被黑,它的业绩还是很好,原因很简单,它搞定了工商(政治渠道)和货架(销售渠道),给消费者提供的是一个单选局面,又怎么会真的害怕舆论口碑呢。

可以说,“黑公关”只是一种极端的、越界的灰色模式,它的内核精神——“强买强卖,否则就不客气”在地上互联网世界也有着文明形态的存在:做过网站的人都知道,哪一天百度竞价排名的销售打电话上门来了,就意味着好日子的终结,如果不成为百度的付费客户,那么很快,你的网站在百度那里的收录数量将会急剧减少,你的客户无法或者很难从百度上找到你;而当美国互联网的“门户”模式都濒临破产的时候,中国的“门户”网站仍然茁壮成长,这里面也有美国互联网难以企及的一些因素,很多广告位在卖给企业的时候,企业投放的心态都是“花钱消灾”……

“黑&客”、“色!情”、“黑公关”并非地下互联网世界的全部,还有一些与“炒股”、“赌博”等主题相关的产业链,也在大众视野之外很是滋润的运转着。换句话说,只要能够保证利润的灰暗地带,都会有真菌孢子的滋生。中国媒体曾经从卡尔·马克思的《资本论》中引申出一句话,说的是“如果有100%的利润,资本家们会挺而走险;如果有200%的利润,资本家们会藐视法律;如果有300%的利润,那么资本家们便会践踏世间的一切。”这句话本身逻辑存在硬伤,而且其实也不是《资本论》里的原文(而是中国当年在翻译中增加的注解),但是它所指向的现象是被广泛证明了的,环境污染、食品隐患等社会矛盾的原因皆出于此,地下互联网的存活根源也不例外。

德国哲学先贤黑格尔在《Grundlinien der Philosophie des Rechts》中提出了“存在即合理”的辩证逻辑,所谓“合理”,常被曲解为“合乎道理”,实际意指的应当是“并非偶然”。在本文末尾,我想借用来解释地下互联网世界的存在:互联网不是一个脱离现实社会的时空,恰恰相反,它由现实社会中拔根而起,同时汲取了文明的黑白两面,无论是地上、地面还是地下,生长出来的果实都是同根同种,有一些无法公开的需求和意图,并不会凭空消失,陷到地下,自然有被满足的机会。我们没有必要上纲上线,时间的流逝、法制的完善、、科技的进化、文化的变迁会来解决这些,在那之前,不妨安然旁观,“让上帝的归上帝,让凯撒的归凯撒。”

浅析个性化推荐十大挑战

四月 3, 2013 by · 2 Comments
Filed under: 电子商务运营 

个性化推荐很多读者都知道,但其中不乏认识上的误区。有的人觉得个性化推荐就是细分市场和精准营销,实际上细分市场和精准营销往往是把潜在的用户分成很多群体,这固然相比基于全体的统计有了长足的进步,但是距离“给每一个用户量身定做的信息服务”还有很大的差距,所以,只能说个性化推荐是细分市场的极致!实际上,信息服务经历了两次理念上的变革,第一次是从总体到群体,第二次是从群体到个体。第二次变革正在进行中,所要用到的核心技术就是这篇文章要讨论的个性化推荐技术。

还有读者觉得个性化推荐就等同于协同过滤,这可能是因为协同过滤应用比较广泛并且比较容易为大众理解。实际上协同过滤只是个性化推荐技术中的一个成员。它与很多更先进技术相比,就好像流行歌曲和高雅音乐,前者广受欢迎,而且一般人也可以拿个麦克风吼两声,但是说到艺术高度,流行歌曲还是要差一些。当然,流行歌曲经济价值可能更大,这也是事实。总的来说,协同过滤只是个性化推荐技术中的一款轻武器,远远不等于个性化推荐技术本身。

信息服务的两次变革:从总体到群体,从群体到个体。

信息服务的两次变革:从总体到群体,从群体到个体。

有些读者可能不是很了解个性化推荐,我先推荐一些阅读的材料。中文的综述可以看我们2009年在《自然科学进展》上的综述[1]。这篇文章质量不能说很好,但是可以比较快得到很多信息,了解个性化推荐研究的概貌。有了这个基础,如果想要了解突出应用的算法和技术,我推荐项亮和陈义合著的《推荐系统实践》[2]。百分点科技出版过一本名为《个性化:商业的未来》的小册子[3],应用场景和商业模式介绍得比较细致,技术上涉及很少,附录里面介绍了一些主流算法和可能的缺陷,或许能够稍有启发。国外的专著建议关注最近出版的两本[4,5],其中[4]实际上是很多文章的汇总,因为写这些文章的都是达人,所以质量上佳。Adomavicius和Tuzhilin的大型综述特别有影响力,不仅系统回顾了推荐系统研究的全貌,还提出了一些有趣的开放性问题[6]——尽管我个人不是很喜欢他们对于推荐系统的分类方法。我们今年发表了一篇大综述,应该是目前最全面的综述,所强调的不仅仅是算法,还有很多现象和思路[7]——大家有兴趣不妨看看。

有些读者认为个性化推荐技术的研究已经进入了很成熟的阶段,没有什么特别激动人心的问题和成果。恰恰相反,现在个性化推荐技术面临很大的挑战,这也是本文力图让大家认识的。接下来进入正题!我将列出十个挑战(仅代表个人观点),其中有一些是很多年前就认识到但是没有得到解决的长期问题,有一些事实上不可能完全解决,只能提出改良方案,还有一些是最近的一些研究提出来的焦点问题。特别要提醒读者注意的是,这十个挑战并不是孤立的,极有可能一个方向上的突破能够对若干重大挑战都带来进展。

挑战一:数据稀疏性问题

现在待处理的推荐系统规模越来越大,用户和商品(也包括其他物品,譬如音乐、网页、文献……)数目动辄百千万计,两个用户之间选择的重叠非常少。如果用用户和商品之间已有的选择关系占所有可能存在的选择关系的比例来衡量系统的稀疏性,那么我们平时研究最多的MovieLens数据集的稀疏度是4.5%,Netflix是1.2%。这些其实都是非常密的数据了,Bibsonomy是0.35%,Delicious是0.046%。想想淘宝上号称有近10亿商品,平均而言一个用户能浏览1000件吗,估计不能,所以稀疏度应该在百万分之一或以下的量级。数据非常稀疏,使得绝大部分基于关联分析的算法(譬如协同过滤)效果都不好。这种情况下,通过珍贵的选择数据让用户和用户,商品和商品之间产生关联的重要性,往往要比用户之间对商品打分的相关性还重要[8]。举个例子来说,你注意到一个用户看了一部鬼片,这就很大程度上暴露了用户的兴趣,并且使其和很多其他看过同样片子的用户关联起来了——至于他给这个片子评价高还是低,反而不那么重要了。事实上,我们最近的分析显示,稀疏数据情况下给同一个商品分别打负分(低评价)和打正分的两个用户要看做正相关的而非负相关的,就是说负分扮演了“正面的角色”[9]——我们需要很严肃地重新审查负分的作用,有的时候负分甚至作用大于正分[10]。

这个问题本质上是无法完全克服的,但是有很多办法,可以在相当程度上缓解这个问题。首先可以通过扩散的算法,从原来的一阶关联(两个用户有多少相似打分或者共同购买的商品)到二阶甚至更高阶的关联[11-13],甚至通过迭代寻优的方法,考虑全局信息导致的关联[14-15]。这些方法共同的缺点是建立在相似性本身可以传播的假设上,并且计算量往往比较大。其次在分辨率非常高的精度下,例如考虑单品,数据可能非常稀疏。但是如果把这些商品信息粗粒化,譬如只考虑一个个的品类,数据就会立刻变得稠密。如果能够计算品类之间的相似性,就可以帮助进行基于品类的推荐(图2是品类树的示意图)。在语义树方面有过一些这方面的尝试[16],但是很不成熟,要应用到商品推荐上还需要理论和技术上的进步。另外,还可以通过添加一些缺省的打分或选择,提高相似性的分辨率,从而提高算法的精确度[17]。这种添加既可以是随机的,也可能来自于特定的预测算法[18]。

随机的缺省分或随机选择为什么会起到正面的作用呢,仅仅是因为提高了数据的密度吗?我认为仔细的思考会否决这个结论。对于局部热传导的算法[19],添加随机连接能够整体把度最小的一些节点的度提高,从而降低小度节点之间度差异的比例(原来度为1的节点和度为3的节点度值相差2倍,现在都加上2,度为3的节点和度为5的节点度值相差还不到1倍),这在某种程度上可以克服局部热传导过度倾向于推荐最小度节点的缺陷。类似地,随机链接可以克服协同过滤或局部能量扩散算法[20]过度倾向于推荐最大度节点的缺陷。总之,如果拉小度的比例差异能够在某种程度上克服算法的缺陷,那么使用随机缺省打分就能起到提高精确度的作用。

品类树的示意图

品类树的示意图

挑战二:冷启动问题

新用户因为罕有可以利用的行为信息,很难给出精确的推荐。反过来,新商品由于被选择次数很少,也难以找到合适的办法推荐给用户——这就是所谓的冷启动问题。如果我们能够获得商品充分的文本信息并据此计算商品之间的相似性,就可以很好解决冷启动的问题[21],譬如我们一般不担心图书或者论文推荐会遇到冷启动的问题。不幸的是,大部分商品不同于图书和文章本身就是丰富的内容,在这种情况下通过人工或者自动搜索爬取的方法商品相应的描述,也会有一定的效果。与之相似,通过注册以及询问得知一些用户的属性信息,譬如年龄、居住城市、受教育程度、性别、职业等等,能够得到用户之间属性的相似度,从而提高冷启动时候推荐的精确度[22,23]。

最近标签系统(tagging systems)的广泛应用提供了解决冷启动问题的可能方案[24]。因为标签既可以看作是商品内容的萃取,同时也反映了用户的个性化喜好——譬如对《桃姐》这部电影,有的人打上标签“伦理”,有的人打上标签“刘德华”,两个人看的电影一样,但是兴趣点可能不尽相同。当然,利用标签也只能是提高有少量行为的用户的推荐准确性,对于纯粹的冷启动用户,是没有帮助的,因为这些人还没有打过任何标签。系统也可以给商品打上标签,但是这里面没有个性化的因素,效果会打一个折扣。从这个意义上讲,利用标签进行推荐、激励用户打标签以及引导用户选择合适的标签,都非常重要[25]。

要缓解冷启动的问题,一种有效的办法是尽可能快地了解用户的特点和需求,所以如何设计问卷调查本身以及如何利用其中的信息也是一门大学问[26]。与之相对应,对于一个新商品,怎么样让用户,特别是有影响力的用户,对其给出高质量的评价,对于解决冷启动问题也有重大价值[27]。如何在保证一定推荐精度的情况下,让新用户和新商品的特性尽快暴露,是一个很有意义也很困难的研究难题[28]。

最近一个有趣的研究显示,新用户更容易选择特别流行的商品[29]——这无论如何是一个好消息,说明使用热销榜也能获得不错的结果。冷启动问题还可以通过多维数据的交叉推荐和社会推荐的方法部分解决,其精确度和多样性又远胜于热销榜,这一点我们在后面会进一步介绍。

 

挑战三:大数据处理与增量计算问题

尽管数据很稀疏,大部分数据都包含百千万计的用户和商品,与此同时,新商品也不断加入系统,新用户不停进入系统,用户和商品之间还不停产生新的连接。数据量不仅大,而且数据本身还时时动态变化,如何快速高效处理这些数据成为迫在眉睫的问题。在这个大前提下,算法时间和空间的复杂性,尤其是前者,获得了空前重视。一般而言,一个高效的算法,要么自身复杂性很低,要么能够很好并行化,要么两者兼具。

提高算法的效率,有很多途径。大致上可以分为两类,一是精确算法,二是近似算法。需要注意的是,精确算法中“精确”这次词,并不是指算法的推荐精确度有多大,而是相对于近似算法而言,强调这个算法并不是以牺牲算法中某些步骤的精确性而提高效率的。譬如说计算n的阶乘,可以有不同的高精度算法,凡是得出最后精确值的就是精确算法,而如果利用斯特林公式进行计算,就属于近似算法了。一般而言,近似算法的效率会明显高于精确算法。

通过巧妙的方法,可以设计出效率很高的精确算法。譬如Porteous等人设计了一种可以用于潜层狄利克雷分配(Latent Dirichlet Allocation, LDA)算法的新的采样方法,比传统吉布斯采样算法快8倍[30]。Cacheda等人设计了一种预测算法,只考虑一个用户与其他用户打分的差异以及一个商品与其他商品得分的差异,这个算法远远快于协同过滤算法,却能够得到比标准的基于用户的协同过滤算法更精确的预测效果,其预测精度有时候甚至可以和SVD分解的方法媲美[31]。提高精确算法的另外一条途径就是并行化——很多算法的并行化,一点都不简单。谷歌中国成功将LDA算法并行化并应用于Orkut的推荐中,取得了很好的效果[32]。最近Gemulla等人提出了一种随机梯度下降法,可以并行分解百万行列的矩阵,该方法可以应用在包括推荐在内的若干场景下[33]。

近似算法往往基于增量计算,也就是说当产生新用户,新商品以及新的连接关系时,算法的结果不需要在整个数据集上重新进行计算得到,而只需要考虑所增加节点和连边局部的信息,对原有的结果进行微扰,快速得到新结果[34]。一般而言,这种算法随着加入的信息量的增多,其误差会积累变大,最终每过一段时间还是需要利用全局数据重新进行计算。更先进但也更苦难的办法,是设计出一种算法,能够保证其误差不会累积,也就是说其结果与利用全部数据重新计算的结果之间的差异不会单调上升。我们不妨把这种算法叫做自适应算法,它是增量算法的一个加强版本[35],其设计要求和难度更高。增量算法已经在业界有了应用,譬如百分点推荐引擎中的若干算法都采用了增量技术,使得用户每次新浏览、收藏或者购买商品后其推荐列表立刻得到更新。但是自适应算法目前还只是在比较特殊的算法上面才能实现,更勿谈工业界应用了。

兼顾精确性和多样性的混合扩散推荐算法示意图

兼顾精确性和多样性的混合扩散推荐算法示意图

挑战四:多样性与精确性的两难困境

如果要给用户推荐他喜欢的商品,最“保险”的方式就是给他特别流行的商品,因为这些商品有更大的可能性被喜欢(否则也不会那么流行),往坏了说,也很难特别被讨厌(不要举凤姐的例子)。但是,这样的推荐产生的用户体验并不一定好,因为用户很可能已经知道这些热销流行的产品,所以得到的信息量很少,并且用户不会认同这是一种“个性化的”推荐。Mcnee等人已经警告大家,盲目崇拜精确性指标可能会伤害推荐系统——因为这样可能会导致用户得到一些信息量为0的“精准推荐”并且视野变得越来越狭窄[36]。事实上,让用户视野变得狭窄也是协同过滤算法存在的一个比较主要的缺陷。已经有一些实证研究显示,多样性、新颖性、偶然性这些从未获得过如精确性一般重要地位的因素,对于用户体验都十分重要——譬如用户希望音乐推荐更多样更偶然[37]。与此同时,应用个性化推荐技术的商家,也希望推荐中有更多的品类出现,从而激发用户新的购物需求。多样性和新颖性的要求在大多数情况下具有一致性,一些商家更喜欢引导用户关注一些销量一般的长尾商品(这些商品的利润往往更多),这种新颖性的要求往往和多样性的要求一致。还有一些特别的需求非常强调多样性和新颖性,譬如类似于“唯品会”这样的限时抢购模式或者最近非常流行的团购模式,广受欢迎的热销商品很快就抢购/团购一空,推荐引擎能够发挥作用的只能是推荐那些不太被主流消费者关注的小众产品。对于新浪微博这类的社会网络,相当部分新用户很快就不活跃了,很大程度上是因为得不到其他人关注。类似地,世纪佳缘和百合网这类的网站中,一个用户如果很长时间没有机会得到任何异性的青睐,也会失去动力。在这种情况下,我们要考虑的不仅仅是向某些用户推荐,而是如何把一些至少目前还不是特别受欢迎的用户推荐出去——这时候,在多样性和新颖性上表现出色的算法意义更大。最近Ugander等人的工作显示,一个用户要向其他若干用户推广某种互联网活动,在同等推广力度下(用推荐的朋友数目衡量),其所选择的推荐对象的结构多样性越大,效果往往越好[38]。

保证推荐的多样性很有价值,但是,推荐多样的商品和新颖的商品与推荐的精确性之间存在矛盾,因为前者风险很大——一个没什么人看过或者打分较低的东西推荐出手,很可能被用户憎恶,从而效果更差。很多时候,这是一个两难的问题,只能通过牺牲多样性来提高精确性,或者牺牲精确性来提高多样性。一种可行之策是直接对算法得到的推荐列表进行处理,从而提升其多样性[39-41]。Hurley和Zhang就是在推荐算法得到的前N个商品中进行一次组合优化,找出L个商品(L<N),使得这L个商品两两之间平均相似度最小[41]。目前百分点推荐引擎所使用的方法也是类似的。这种方法固然在应用上是有效的,但是没有任何理论的基础和优美性可言,只能算一种野蛮而实用的招数。更好的办法是在设计算法的时候就同时考虑推荐的多样性和精确性,这可以通过精巧混合能量扩散和热传导算法[19],或者利用有偏的能量扩散[42]和或有偏的热传导来实现[43]。图3是能量扩散与热传导混合算法的示意图。这个算法认为目标用户选择过的商品具有一定的“推荐能力”,在能量扩散过程中它们被赋予初始能量1,而在热传导的过程中它们被认为是初始热源,具有温度1。能量扩散是一个守恒的过程,每一个时间步节点上的能量都均匀分配给所有邻居(图3上半部分);与之相对的,热传导过程中每一个节点下一个时间步的温度等于其所有邻居温度的平均值(图3下半部分)。前者倾向于推荐热门商品,后者倾向于挖掘冷门商品,两相结合,精确性和多样性都能明显提高[19]。尽管上面提到的这些算法效果很好,似乎也能够比较直观地进行理解,但是我们还没有办法就相关结果提供清晰而深刻的见解。多样性和精确性之间错综复杂的关系和隐匿其后的竞争,到目前为止还是一个很棘手的难题。

对推荐系统实施攻击的示意图

对推荐系统实施攻击的示意图

挑战五:推荐系统的脆弱性问题

受推荐系统在电子商务领域重大的经济利益的驱动,一些心怀不轨的用户通过提供一些虚假恶意的行为,故意增加或者压制某些商品被推荐的可能性[44]。图4展示了一个攻击的实例。假设我们现在要决定是否向用户h推荐商品7,如果系统中只有那些合法用户(a-g),通过上表我们发现用户a和f与用户h的品味比较相似,由于用户a和f都喜欢商品7,那么系统应该把商品7推荐给用户h。如果受到恶意攻击,系统会发现大多数由攻击者生成的虚假用户(i-m)的品味都与用户h相似,并且他们对商品7都给了负面的评价,那么在这种情况下,系统就不会把商品7推荐给用户h。这样一来,就达到了那些攻击者降低对商品7推荐可能性的目的。上面的例子仅仅是众多攻击方案中比较简单的一员,Burke等人2011年的研究报告中就分析了4大种类8种不同的攻击策略[45]。除了如图4这样的简单方法外,攻击者还通过将攻击对象和热销商品或特定用户群喜欢的商品绑定而提高攻击效果,甚至通过持续探测猜测系统的计算相似性的算法,从而有针对性地开展攻击。

从上面的介绍可以看出,一个推荐算法能否在一定程度上保持对恶意攻击的鲁棒性,成为需要认真考虑的一个特征。以最简单的关联规则挖掘算法为例,Apriori算法的鲁棒性就远胜于k近邻算法[46]。有一些技术已经被设计出来提高推荐系统面对恶意攻击的鲁棒性,譬如通过分析对比真实用户和疑似恶意用户之间打分行为模式的差异,提前对恶意行为进行判断,从而阻止其进入系统或赋予疑似恶意用户比较低的影响力[47-49]。总体来说,这方面的研究相对较少,系统性的分析还很缺乏,反而是攻击策略层出不穷,有一种“道高一尺,魔高一丈”的感觉。

挑战六:用户行为模式的挖掘和利用

深入挖掘用户的行为模式有望提高推荐的效果或在更复杂的场景下进行推荐。譬如说,新用户和老用户具有很不一样的选择模式:一般而言,新用户倾向于选择热门的商品,而老用户对于小众商品关注更多[29],新用户所选择的商品相似度更高,老用户所选择的商品多样性较高[50]。上面曾经介绍过的能量扩散和热传导的混合算法[19]可以通过一个单参数调节推荐结果的多样性和热门程度,在这种情况下就可以考虑给不同用户赋予不同的参数(从算法结果的个性化到算法本身的个性化),甚至允许用户自己移动一个滑钮调节这个参数——当用户想看热门的时候,算法提供热门推荐;当用户想找点很酷的产品时,算法也可以提供冷门推荐。

用户行为的时空统计特性也可以用于提高推荐或者设计针对特定场景的应用(关于人类行为时空特性的详细分析请参考文献[51])。最简单的例子是在推荐前考虑用户从事相关活动随时间变化的活跃性。举个例子,在进行手机个性化阅读推荐的时候,如果曾经的数据显示某个用户只在7点到8点之间有一个小时左右的手机阅读行为(可能是上班时在地铁或者公交车上),那么9点钟发送一个电子书阅读的短信广告就是很不明智的选择。从含时数据中还可以分析出影响用户选择的长期和短期的兴趣,通过将这两种效应分离出来,可以明显提高推荐的精确度[52-54]。事实上,简单假设用户兴趣随时间按照指数递减,也能够得到改进的推荐效果[55,56]。随着移动互联网的飞速发展以及GPS及其他手机定位技术的发展和普及,基于位置的服务成为一个受到学术界和业界广泛关注的问题。基于位置信息的推荐可能会成为个性化推荐的一个研究热点和重要的应用场景,而这个问题的解决需要能够对用户的移动模式有深入理解,包括预测用户的移动轨迹和判断用户在当前位置是否有可能进行餐饮购物活动等[57,58],同时还要有定量的办法去定义用户之间以及地点之间的相似性[59,60]。事实上,即便简单把位置信息作为一个单独属性加以考虑,也可以明显提高广告推荐[61]和朋友推荐[62]的精确度。特别要提醒各位读者,知道了用户的位置信息,并不意味着可以随时向用户推荐近处的餐饮购物等等场所,因为频繁而不精确的推荐会让用户有一种被窥探和骚扰的感觉。从这个意义上讲,把握进行推荐的时间和地点非常重要!一般而言,在用户经常出没的地点,譬如工作地点、学校、住家等等进行推荐的效果往往是比较差的,因为用户对于这些地点比系统还熟悉,而且很难想象用户在上下班的路上会有特别地情致购物或者进餐。实际上可以预测的时空信息往往是商业价值比较低的,而用户在吃饭时间去了一个平常不太去的地方,往往有更大的可能是和朋友聚会就餐。这就要求系统更加智能,能够对用户当前行为所蕴含的信息量进行估计(要同时考虑时间和空间),并且在信息量充分大的时候进行推荐。

另外,不同用户打分的模式也很不一样[63,64],用户针对不同商品的行为模式也不一样[65,66](想象你在网上下载一首歌和团购房子时的区别),这些模式都可以挖掘刻画并利用来提高推荐的效果。总而言之,推荐引擎要做的是针对合适的对象在合适的时间和合适的地方推荐合适的内容(4S标准)。通过分析不同用户在选择、评价、时间、空间等等行为模式上的不同,我们最终的目的是猜测目标用户当前的意图,并且针对不同的意图匹配或组合不同的算法结果,将其推荐给用户。这不仅需要更高级的数据分析能力,还需要有丰富经验了解业务逻辑的工作人员配合完成。这种称为“情境计算”的思路,有可能较大程度提高推荐及其他信息服务(譬如搜索)的质量,百分点的推荐引擎就是在这种思路下架构的[67]。

推荐系统评价指标一览

推荐系统评价指标一览

挑战七:推荐系统效果评估

推荐系统的概念提出已经有几十年了,但是怎么评价推荐系统,仍然是一个很大的问题。常见的评估指标可以分为四大类,分别是准确度、多样性、新颖性和覆盖率,每一类下辖很多不同的指标,譬如准确度指标又可以分为四大类,分别是预测评分准确度、预测评分关联、分类准确度、排序准确度四类。以分类准确度为例,又包括准确率、召回率、准确率提高率、召回率提高率、F1指标和AUC值。图5总结了文献中曾经出现过的几乎所有的推荐系统指标[68]。之所以对推荐系统的评价很困难,是因为这些指标之间并不是一致的,一般而言,多样性、新颖性和覆盖率之间一致性较好,但不绝对,而这三者往往都和准确度有冲突。如前所述,解决多样性和精确性之间的矛盾本身就是一个重大的挑战!更不幸的是,即便是同一类指标,其表现也不完全一致。举个例子说,一些基于SVD分解的算法,以降低均方根误差(参考图5)为目标,在预测评分精确性方面表现上佳,但是在推荐前L个商品的准确率和召回率(参考图5)方面则表现得很不如人意,有些情况下甚至还不如直接按照流行度排序的非个性化算法[69]。

图5介绍的那些指标都是基于数据本身的指标,可以认为是第一层次。实际上,在真实应用时,更为重要的是另外两个层次的评价。第二个层次是商业应用上的关键表现指标,譬如受推荐影响的转化率,购买率,客单价,购买品类数等等,第三个层次是用户真实的体验。绝大部分研究只针对第一个层次的评价指标,而业界真正感兴趣的是第二个层次的评价(譬如到底是哪个指标或者哪些指标组合的结果能够提高用户购买的客单价),而第三个层细最难,没人能知道,只能通过第二层次的效果来估计。如何建立第一层面和第二层面指标之间的关系,就成为了关键,这一步打通了,理论和应用之间的屏障就通了一大半了。

Facebook页面上用户注意力集中的区域的分布,其中红色的区域是用户注意力最集中的区域,黄色次之,绿色再次之,白色最次

Facebook页面上用户注意力集中的区域的分布,其中红色的区域是用户注意力最集中的区域,黄色次之,绿色再次之,白色最次

挑战八:用户界面与用户体验

这个问题更多地不是一个学术性质的问题,而是从真实应用中来的问题。十年前就有学者指出[70,71],推荐结果的可解释性,对于用户体验有至关重要的影响——用户希望知道这个推荐是怎么来的。基于相似性的推荐(例如协同过滤)在这个问题上具有明显的优势,譬如亚马逊基于商品的协同过滤的推荐[72]在发送推荐的电子邮件时会告诉用户之所以向其推荐某书,是因为用户以前购买过某些书,新浪微博基于局部结构相似性的“关注对象推荐”[73]在推荐的同时会说明哪些你的朋友也关注过他们。相对地,矩阵分解或者集成学习算法就很难向用户解释推荐结果的起源。一般而言,用户更喜欢来自自己朋友的推荐而不是系统的推荐,这一点在后面讲社会推荐的时候还会详细提到。另外,好的界面设计,能够让用户觉得推荐的结果更加多样化[74],更加可信[75]。

实际应用时,推荐列表往往含有很多项,这些推荐项最好能够区分成很多类别,不同类别往往来自于不同的推荐方法,譬如看过还看过(浏览过本商品的客户还浏览过的商品)、买过还买过(购买过本商品的客户还购买过的商品)、看过最终购买(浏览过本商品的客户最终购买的商品)、个性化热销榜(个性化流行品推荐)、猜你喜欢(个性化冷门商品推荐)等等。当然,每个推荐项呈现的结果往往都来自复杂的算法,绝不仅仅象它们的名字听起来那么简单。另外,推荐栏呈现的位置对于推荐的结果影响也很大,因为同一个网页上不同位置对于用户注意力的吸引程度大不一样。图6给出了EyeTrackShop针对Facebook个人页面不同位置受关注程度的示意,可以看出,不同的位置受到的关注相差很大。

如何更好呈现推荐,是一个很难建立理论模型和进行量化的问题,对于不同被推荐品而言,用户界面设计的准则也可能大不相同。建立一个可以进行A/B测试的系统(随机将用户分为两部分,各自看到不同的推荐页面和推荐结果),可以积累重要的实验数据,指导进一步地改善。

 

挑战九:多维数据的交叉利用

目前网络科学研究一个广受关注的概念是具有相互作用的网络的结构和功能。网络与网络之间的相互作用大体可以分成三类:一类是依存关系[76],譬如电力网络和Internet,如果发生了大规模停电事故,当地的自主系统和路由器也会受到影响,导致网络局部中断;第二类是合作关系[77],譬如人的一次出行,可以看作航空网络、铁路网络和公路网络的一次合作;第三类是交叠关系[78],主要针对社会网络,这也是我们最关注的。我们几乎每一个人,都参与了不止一个大型的社会网络中,譬如你可能既有新浪微博的帐号,又是人人网的注册用户,还是用手机,那么你已经同时在三个巨大的社会网络中了。与此同时,你可能还经常在淘宝、京东、麦包包、1号店、库巴网……这些地方进行网购,因此也是若干张用户-商品二部分图中的成员。

想象如果能够把这些网络数据整合起来,特别是知道每个节点身份的对应关系(不需要知道你真实身份,只需要知道不同网络中存在的若干节点是同一个人),可以带来的巨大的社会经济价值。举个例子,你可能已经在新浪微博上关注了很多数据挖掘达人的微博,并且分享了很多算法学习的心得和问题,当你第一次上当当网购书的时候,如果主页向你推荐数据挖掘的最新专著并附有折扣,你会心动吗?交叠社会关系中的数据挖掘,或称多维数据挖掘,是真正有望解决系统内部冷启动问题的终极法宝——只要用户在系统外部的其他系统有过活动。单纯从个性化商品推荐来讲,可以利用用户在其他电商的浏览购买历史为提高在目标电商推荐的精确度——当然,每一个电商既是付出者,也是获利者,总体而言,大家能够通过提高用户体验和点击深度实现共赢。与此同时,可以利用微博和其他社会网络的活动提高商品推荐的精度,还可以反过来利用商品浏览历史提高微博关注对象推荐的精度。给一个经常购买专业羽毛球和浏览各种专业羽毛球设备的用户推荐关注羽毛球的专业选手和业余教练的成功率应该很高,而且不会陷入“总在一个圈子里面来回推荐”的毛病中。

从机器学习的角度,杨强等人提出的“迁移学习”算法有望解决这种跨邻域的推荐[79],因为这种算法最基本的假设就是在一个领域所学习的知识在其他领域也具有一定的普适性。Nori等人最近的分析显示[80],在某系统中特定的行为(比如说在Delicious上收藏标签)可以被用于预测另外系统中的特定行为(比如说在Twitter上的信息选择),其核心的思想与杨强等人一致。事实上,这种跨网的学习已经被证明可以提高链路预测的效果[81,82]。尽管有上面的有利的证据,我们还是需要特别注意,迁移学习在不同领域间的效果差异很大,还依赖于相关系统内部连接产生的机制,并不是普遍都能产生良好地效果,因为有的时候在一个商品品类上表现出高相似性的用户在另外一些商品品类上可能表现出完全不同的偏好[83]。

我们分析了百分点科技服务客户的真实数据,发现有相当比例的用户都具有交叉购物的习惯,即在多个独立B2C电商有浏览和购买行为,如图7所示[84,85]。即便只考虑两个点上,例如利用麦包包的浏览购买数据为名鞋库的用户进行个性化推荐(这些用户在名鞋库上是没有任何历史记录的新用户,但是在麦包包上有浏览购买行为),就可以明显提高推荐的准确度(比完全冷启动的随机推荐高数十倍)[84],而如果利用3家或以上的外部电商的数据,其推荐的精确度可以明显高于热销榜(注意,热销榜一点个性化都没有),特别在团购类网站上表现非常好[85]。拥有交叉用户使得不同系统之间的“迁移”更加容易(注意,“迁移学习”原始的方法[79]不要求系统之间具有相同的用户和商品),Sahebi和Cohen最近测试同时评价了书和电影的用户,也发现利用对书的评分信息可以相当程度上预测对电影的评分[86]。虽然针对多维数据挖掘的研究刚刚起步,但我相信其必将成为学术研究和商业应用上的双料热点和双料难点。

挑战十:社会推荐

很早以前,研究人员就发现,用户更喜欢来自朋友的推荐而不是被系统“算出来的推荐”[87]。社会影响力被认为比历史行为的相似性更加重要[88,89],例如通过社会关系的分析,可以大幅度提高从科研文献[90]到网购商品[91],从个人博客到[92]手机应用软件[93]推荐的精确度。最近有证据显示,朋友推荐也是淘宝商品销售一个非常重要的驱动力量[94]。来自朋友的社会推荐有两方面的效果:一是增加销售(含下载、阅读……)[95],二是在销售后提高用户的评价[96]。当然,社会推荐的效果也不是我们想象的那么简单:Leskovec等人[95]在同一篇论文中指出针对不同类型的商品社会推荐的效果大不一样;Yuan等人指出不同类型的社会关系对推荐的影响也不同[97];Abbassi等人指出朋友的负面评价影响力要大于正面评价[98];等等。

在社会推荐方向存在的挑战主要可以分为三类:一是如何利用社会关系提高推荐的精确度[89,99],二是如何建立更好的机制以促进社会推荐[100-102],三是如何将社会信任关系引入到推荐系统中[103-107]。社会推荐的效果可能来自于类似口碑传播的社会影响力,也可能是因为朋友之间本来就具有相似的兴趣或者兴趣相投更易成为朋友,对这些不同的潜在因素进行量化区别,也属学术研究的热点之一[108]。

作者:百分点周涛

参考文献:

[1] 刘建国,周涛,汪秉宏,个性化推荐系统的研究进展,自然科学进展19 (2009) 1-15.

[2] 项亮,陈义,推荐系统实践,图灵出版社,2012.

[3] 苏萌,柏林森,周涛,个性化:商业的未来,机械工业出版社,2012.

[4] F. Ricci, L. Rokach, B. Shapira, P. B. Kantor, Recommender Systems Handbook: A Complete Guide for Scientists and Practioners, Springer, 2011.

[5] D. Jannach, M. Zanker, A. Felfernig, G. Friedrich. Recommender Systems: An Introduction. Cambridge University Press, 2011.

[6] G. Adomavicius, A. Tuzhilin, Toward the next generation of recommender systems: a survey of the state-of-the-art and possible extensions, IEEE Transactions on Knowledge and Data Engineering 17 (2005) 734-749.

[7] L. Lü, M. Medo, C. H. Yeung, Y.-C. Zhang, Z.-K. Zhang, T. Zhou, Recommender Systems, Physics Reports (to be published).http://dx.doi.org/10.1016/j.physrep.2012.02.006

[8] M.-S. Shang, L. Lü, W. Zeng, Y.-C. Zhang, T. Zhou, Relevance is more significant than correlation: Information filtering on sparse data, EPL 88 (2009) 68008.

[9] W. Zeng, Y.-X. Zhu, L. Lü, T. Zhou, Negative ratings play a positive role in information filtering, Physica A 390 (2011) 4486-4493.

[10] J. S. Kong, K. Teague, J. Kessler, Just Count the Love-Hate Squares: a Rating Network Based Method for Recommender Systems, in: Proceedings of the KDD Cup’11. ACM Press, New York, 2011.

[11] Z. Huang, H. Chen, D. Zeng, Applying associative retrieval techniques to alleviate the sparsity problem in collaborative filtering, ACM Transactions on Information Systems 22 (2004) 116-142.

[12]T. Zhou, R.-Q. Su, R.-R. Liu, L.-L. Jiang, B.-H. Wang, Y.-C. Zhang, Accurate and diverse recommendations via eliminating redundant correlations, New Journal of Physics 11 (2009) 123008.

[13]J.-G. Liu, T. Zhou, H.-A.Che, B.-H.Wang, Y.-C. Zhang, Effects of high-order correlations on personalized recommendations for bipartite networks, Physica A 389 (2010) 881-886.

[14] J. Ren, T. Zhou, Y.-C. Zhang, Information filtering via self-consistent refinement, EPL 82 (2008) 58007.

[15] D. Sun, T. Zhou, J.-G. Liu, R.-R. Liu, C.-X. Jia, B.-H. Wang, Information filtering based on transferring similarity, Physical Review E 80 (2009) 017101.

[16] 田久乐,赵蔚,基于同义词词林的词语相似度计算方法,吉林大学学报(信息科学版) 28 (2010) 602-608.

[17] J. S. Breese, D. Heckerman, C. Kadie, Empirical analysis of predictive algorithms for collaborative filtering, in: Proceedings of the 14th Conference on Uncertainty in Artificial Intelligence, 1998, pp. 43-52.

[18] I. Esslimani, A. Brun, A. Boyer, Densifying a behavioral recommender system by social networks link prediction methods, Social Network Analysis and Mining 1 (2011) 159-172.

[19] T. Zhou, Z. Kuscsik, J.-G.Liu, M. Medo, J.R. Wakeling, Y.-C. Zhang, Solving the apparent diversity–accuracy dilemma of recommender systems, Proceedings of the National Academy of Sciences of the United States of America 107 (2010) 4511-4515.

[20] T. Zhou, J. Ren, M. Medo, Y.-C. Zhang, Bipartite network projection and personal recommendation, Physical Review E 76 (2007) 046115.

[21] M. J. Pazzani, D. Billsus, Content-Based Recommendation Systems, Lect. Notes Comput. Sci. 4321 (2007) 325-341.

[22] A. I. Schein, A. Popescul, L. H. Ungar, D. M. Pennock, Methods and metrics for cold-start recommendations, in: Proceedings of the 25th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, ACM Press, New York, 2002, pp. 253-260.

[23] X. N. Lam, T. Vu, T. D. Le, A. D. Duong, Addressing cold-start problem in recommendation systems, in: Proceedings of the 2nd International Conference on Ubiquitous Information Management and Communication, 2008, pp. 208-211.

[24] Z.-K. Zhang, C. Liu, Y.-C. Zhang, T. Zhou, Solving the cold-start problem in recommender systems with social tags, EPL 92 (2010) 28002.

[25] Z.-K. Zhang, T. Zhou, Y.-C. Zhang, Tag-Aware Recommender Systems: A State-of-the-Art Survey, Journal of Computer Science and Technology 26 (2011) 767-777.

[26] A. De Bruyn, J. C. Liechty, E. K. R. E. Huizingh, G. L. Lilien, Offering online recommendations with minimum customer input through conjoint-based decision aids, Marketing Science 27 (2008) 443-460.

[27] S. S. Anand, N. Griffiths, A Market-based Approach to Address the New Item Problem, in: Proceedings of the 5th ACM Conference on Recommender Systems, ACM Press, New York, 2011, pp. 205-212.

[28] J.-L. Zhou, Y. Fu, H. Lu, C.-J. Sun, From Popularity to Personality—A Heuristic Music Recommendation Method for Niche Market, Journal of Computer Science and Technology 26 (2011) 816-822.

[29] C.-J. Zhang, A. Zeng, Behavior patterns of online users and the effect on information filtering, Physica A 391 (2012) 1822-1830.

[30] I. Porteous, D. Newman, A. Ihler, A. Asuncion, P. Smyth, M. Welling, Fast Collapsed Gibbs Sampling for Latent Dirichlet Allocation, in: Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, ACM Press, New York, 2008, pp. 569-577.

[31] F. Cacheda, V. Carneiro, D. Fernández, V. Formoso, Comparison of Collaborative Filtering Algorithms Limitations of Current Techniques and Proposals for Scalable, High-Performance Recommender Systems, ACM Transactions on the Web 5 (2011) 2.

[32] W.-Y. Chen, J.-C. Chu, J. Luan, H. Bai, Y. Wang, E. D. Chang, Collaborative Filtering for Orkut Community: Discovery of User Latent Behavior, in: Proceedings of the 18th International Conference on World Wide Web, ACM Press, New York, 2005, pp. 681-690.

[33] R. Gemulla, P. J. Haas, E. Nijkamp, Y. Sismanis, Large-scale matrix factorization with distributed stochastic gradient descent, in: Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, ACM Press, New York, 2011, pp. 569-577.

[34] B. Sarwar, J. Konstan, J. Riedl, Incremental singular value decomposition algorithms for highly scalable recommender systems, in: International Conference on Computer and Information Science, 2002, pp. 27-28.

[35] C.-H. Jin, J.-G. Liu, Y.-C. Zhang, T. Zhou, Adaptive information filtering for dynamics recommender systems, arXiv:0911.4910.

[36] S. M. Mcnee, J. Riedl, J. A. Konstan, Being accurate is not enough: how accuracy metrics have hurt recommender systems, in: Proceedings of the CHI’06 Conference on Human Factors in Computing Systems, ACM Press, New York, 2006, pp. 1097-1101.

[37] Y. C. Zhang, D. O. Seaghdha, D. Quercia, T. Jambor, Auralist: introducing serendipity into music recommendation, in: Proceedings of the 5th ACM International Conference on Web Search and Data Mining, ACM Press, New York, 2012, pp. 13-22.

[38] J. Ugander, L. Backstrom, C. Marlow, J. Kleinberg, Structural diversity in social contagion, Proceedings of the National Academy of Sciences of the United States of America 109 (2012) 5962-5966.

[39] B. Smyth, P. Mcclave, Similarity vs. diversity, in: D.W. Aha, I. Watson (Eds.), Case-Based Reasoning Research and Development, Springer, 2001, pp. 347-361.

[40] C.-N. Ziegler, S.M. Mcnee, J.A. Konstan, G. Lausen, Improving recommendation lists through topic diversification, in: Proceedings of the 14th International Conference on World Wide Web, ACM Press, New York, 2005, pp. 22-32.

[41] N. Hurley, M. Zhang, Novelty and diversity in top-N recommendation—analysis and evaluation, ACM Transactions on Internet Technology 10 (2011) 14.

[42] L. Lü, W. Liu, Information filtering via preferential diffusion, Physical Review E 83 (2011) 066119.

[43] J.-G. Liu, T. Zhou, Q. Guo, Information filtering via biased heat conduction, Physical Review E 84 (2011) 037101.

[44] B. Mobasher, R. Burke, R. Bhaumik, C. Williams, Towards trustworthy recommender systems: an analysis of attack models and algorithm robustness, ACM Transactions on Internet Technology 7 (2007) 23.

[45] R. Burke, M. P. O’mahony, N. J. Hurley, Robust Collaborative Recommendation, in: F. Ricci, L. Rokach, B. Shapira, P. B. Kantor (Eds.), Recommender Systems Handbook, Part 5, Springer, 2011, pp. 805-835 (Chapter 25).

[46] J. J. Sandvig, B. Mobasher, R. Burke, Robustness of collaborative recommendation based on association rule mining, in: Proceedings of the 2007 ACM Conference on Recommender Systems, ACM Press, 2007, pp. 105-112.

[47] S. K. Lam, D. Frankowski, J. Riedl, Do You Trust Your Recommendations? An Exploration of Security and Privacy Issues in Recommender Systems, Lecture Notes in Computer Science 3995 (2006) 14-29.

[48] P. Resnick, R. Sami, The influence limiter: provably manipulation-resistant recommender systems, in: Proceedings of the 2007 ACM Conference on Recommender Systems, ACM Press, 2007, pp. 25-32.

[49] C. Shi, M. Kaminsky, P. B. Gibbons, F. Xiao, DSybil: Optimal Sybil-Resistance for Recommendation Systems, in: Proceedings of the 30th IEEE Symposium on Security and Privacy, IEEE Press, 2009, pp. 283-298.

[50] M.-S. Shang, L. Lü, Y.-C. Zhang, T. Zhou, Empirical analysis of web-based user-object bipartite networks, EPL 90 (2010) 48006.

[51] 刘怡君,周涛,社会动力学,科学出版社,2012.

[52] S.-H. Min, I. Han, Detection of the customer time-variant pattern for improving recommender systems, Expert Systems with Applications 28 (2005) 189-199.

[53] L. Xiang, Q. Yuan, S. Zhao, L. Chen, X. Zhang, Q. Yang, J. Sun, Temporal recommendation on graphs via long-and short-term preference fusion, in: Proceedings of the 16th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, ACM Press, New York, 2010, pp. 723-732.

[54] N. N. Liu, M. Zhao, E. Xiang, Q. Yang, Online evolutionary collaborative filtering, in: Proceedings of the 4th ACM Conference on Recommender Systems, ACM Press, New York, 2010, pp. 95-102.

[55] J. Liu, G. Deng, Link prediction in a user-object network based on time-weighted resource allocation, Physica A 39 (2009) 3643-3650.

[56] Y. Koren, Collaborative filtering with temporal dynamics, in: Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, ACM Press, New York, 2009, pp. 447-456.

[57] C. Song, Z. Qu, N. Blumm, A.-L. Barabási, Limits of predictability in human mobility, Science 327 (2010) 1018-1021.

[58] E. Cho, S.A. Myers, J. Leskovec, Friendship and mobility: user movement in location-based social networks, in: Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, ACM Press, New York, 2011, pp. 1082-1090.

[59] V. W. Zheng, Y. Zheng, X. Xie, Q. Yang, Collaborative location and activity recommendations with GPS history data, in: Proceedings of the 19th International Conference on World Wide Web, ACM Press, New York, 2010, pp. 1029-1038.

[60] M. Clements, P. Serdyukov, A. P. De Vries, M. J. T. Reinders, Personalised travel recommendation based on location co-occurrence, arXiv:1106.5213.

[61] T. H. Dao, S. R. Jeong, H. Ahn, A novel recommendation model of location-based advertising: context-aware collaborative filtering using GA approach, Expert Systems with Applications 39 (2012) 3731-3739.

[62] S. Scellato, A. Noulas, C. Mascolo, Exploiting Place Features in Link Prediction on Location-based Social Networks, in: Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, ACM Press, New York, 2011, pp. 1046-1054.

[63] Y. Koren, J. Sill, OrdRec: An ordinal model for predicting personalized item rating distributions, in: Proceedings of the 5th ACM Conference on Recommender Systems, ACM Press, New York, 2011, pp. 117-124.

[64] Z. Yang, Z.-K. Zhang, T. Zhou, Uncovering Voting Patterns in Recommender Systems (unpublished).

[65] J. Vig, S. Sen, J. Riedl, Navigation the tag genome, in: Proceedings of the 16th International Conference on Intelligent User Interfaces, ACM Press, New York, 2011, pp. 93-102.

[66] L. Chen, P. Pu, Critiquing-based recommenders: survey and emerging trends, User Modeling and User-Adapted Interaction 22 (2012) 125-150.

[67] T. Lau,张韶峰,周涛,推荐引擎:信息暗海的领航员,中国计算机学会通讯 8(6) (2012) 22-25.

[68] 朱郁筱,吕琳媛,推荐系统评价指标综述,电子科技大学学报 41 (2012) 163-175.

[69] P. Cremonesi, Y. Koren, R. Turrin, Performance of Recommender Algorithms on Top-N Recommendation Tasks, in: Proceedings of the 4th ACM Conference on Recommender Systems, ACM Press, New York, 2010, pp. 39-46.

[70] R. Sinha, K. Swearingen, The role of transparency in recommender systems, in: Proceedings of the CHI’06 Conference on Human Factors in Computing Systems, ACM Press, New York, 2002, pp. 830-831.

[71] A. D. J. Cooke, H. Sujan, M. Sujan, B. A. Weitz, Marketing the unfamiliar: the role of context and item-specific information in electronic agent recommendations, Journal of Marketing Research 39 (2002) 488-497.

[72] G. Linden, B. Smith, J. York, Amazon.com recommendations: item-to-item collaborative filtering, IEEE Internet Computing 7 (2003) 76-80.

[73] L. Lü, T. Zhou, Link prediction in complex networks: a survey, Physica A 390 (2011) 1150-1170.

[74] R. Hu, P. Pu, Enhancing recommendation diversity with organization interfaces, in: Proceedings of the 16th international conference on Intelligent user interfaces, ACM Press, New York, 2011, pp. 347-350.

[75] G. Lenzini, Y. van Houten, W. Huijsen, M. Melenhorst, Shall I trust a recommendation? Lecture Notes in Computer Science 5968 (2010) 121-128.

[76] S. V. Buldyrev, R. Parshani, G. Paul, H. E. Stanley, S. Havlin, Catastrophic cascade of failures in interdependent networks, Nature 464 (2010) 1025-1028.

[77] C.-G. Gu, S.-R. Zou, X.-L.Xu, Y.-Q.Qu, Y.-M.Jiang, D.-R.He, H.-K.Liu, T. Zhou, Onset of cooperation between layered networks, Physical Review E 84 (2011) 026101.

[78] M. Mognani, L. Rossi, The ML-model for multi-layer social networks, in: Proceedings of 2011 International Conference on Advances in Social Networks Analysis and Mining, IEEE Press, 2011, pp. 5-12.

[79] S. J. Pan, Q. Yang, A survey on transfer learning, IEEE Transactions on Knowledge and Data Engineering 22 (2010) 1345-1359.

[80] N. Nori, D. Bollegala, M. Ishizuka, Exploiting user interest on social media for aggregating diverse data and predicting interest, Artificial Intelligence 109(B3) (2011) 241-248.

[81] M. A. Ahmad, Z. Borbora, J. Srivastava, N. Contractor, Link Prediction Across Multiple Social Networks, in: Proceedings of the 2010 IEEE International Conference on Data Mining Workshop, IEEE Press, 2010, pp. 911-918.

[82] B. Cao, N. N. Liu, Q. Yang, Transfer learning for collective link prediction in multiple heterogeneous domains, in: Proceedings of the 27th International Conference on Machine Learning, 2010.

[83] B. Xu, J. Bu, C. Chen, D. Cai, An exploration of improving collaborative recommender systems via user-item subgraphs, in: Proceedings of the 21st International Conference on World Wide Web, ACM Press, New York, 2012, pp. 21-30.

[84] 张亮,柏林森,周涛,基于跨电商行为的交叉推荐算法,电子科技大学学报(已接收).

[85] T. Zhou, L. Gong, C. Li, L.-S. Bai, L. Zhang, S. Huang, S. Guo, M.-S. Shang, Information filtering in interacting networks (unpublished).

[86] S. Sahebi, W. W. Cohen, Community-Based Recommendations: a Solution to the Cold Start Problem (unpublished).

[87] R. Sinha, K. Swearingen, Comparing recommendations made by online systems and friends, in: Proceedings of the DELOS-NSF Workshop on Personalization and Recommender Systems in Digital Libraries, 2001.

[88] M.J. Salganik, P.S.Dodds,D.J.Watts, Experimental study of inequality and unpredictability in an artificial culturalmarket, Science 311 (2006) 854-856.

[89] P. Bonhard,M.A. Sasse, “Knowingme knowing you”—using profiles and social networking to improve recommender systems, BT Technology Journal 24 (2006) 84-98.

[90] S.-Y. Hwang, C.-P.Wei, Y.-F.Liao, Coauthorship networks and academic literature recommendation, Electronic Commerce Research and Applications 9 (2010) 323-334.

[91] P. Symeonidis, E. Tiakas, Y.Manolopoulos, Product recommendation and rating prediction based onmulti-modal social networks, in: Proceedings of the 5th ACM Conference on Recommender Systems, ACM Press, New York, 2011, pp. 61-68.

[92] A. Seth, J. Zhang, A social network based approach to personalized recommendation of participatory media content, in: Proceedings of the 3rd International AAAI Conference on Weblogs and Social Media, AAAI Press, 2008, pp. 109-117.

[93] W. Pan, N. Aharonym, A. S. Pentland, Composite Social Network for Predicting Mobile Apps Installation, in: Proceedings of the 25th AAAI Conference on Artificial Intelligence, AAAI Press, 2011, pp. 821-827.

[94] S. Guo, M. Wang, J. Leskovec, The role of social networks in online shopping: information passing, price of trust, and consumer choice, in: Proceedings of the 12th ACM Conference on Electronic Commerce, ACM Press, New York, 2011, pp. 157-166.

[95] J. Leskovec, L.A. Adamic, B.A. Huberman, The dynamics of viral marketing, ACM Transactions on Web 1 (2007) 5.

[96] J. Huang, X.-Q.Cheng, H.-W.Shen, T. Zhou, X. Jin, Exploring social influence via posterior effect of word-of-mouth recommendations, in: Proceedings of the 5th ACM International Conference on Web Search and Data Mining, ACM Press, New York, 2012, pp. 573-582.

[97] Q. Yuan, L. Chen, S. Zhao, Factorization vs. Regularization: Fusing Heterogeneous Social Relationships in Top-N Recommendation, in: Proceedings of the 5th ACM Conference on Recommender Systems, ACM Press, New York, 2011, pp. 245-252.

[98] Z. Abbassi, C. Aperjis, B. A. Huberman, Friends versus the crowd: tradeoff and dynamics (unpublished).

[99] H. Ma, D. Zhou, C. Liu, M. R. Lyu, I. King, Recommender Systems with Social Regularization, in: Proceedings of the 4th ACM International Conference on Web Search and Data Mining, ACM Press, New York, 2011, pp. 287-296.

[100] M. Medo, Y.-C.Zhang, T. Zhou, Adaptive model for recommendation of news, EPL 88 (2009) 38005.

[101] T. Zhou, M. Medo, G. Cimini, Z.-K.Zhang, Y.-C. Zhang, Emergence of scale-free leadership strcuture in social recommender systems, PLoS ONE 6 (2011) e20648.

[102] G. Cimini, D.-B. Chen, M. Medo, L. Lü, Y.-C. Zhang, T. Zhou, Enhancing topology adaptation in information-sharing social networks, Physical Review E 85 (2012) 046108.

[103] J. O’Donovan, B. Smyth, Trust in recommender systems, Proceedings of the 10th international conference on Intelligent user interfaces, ACM Press, 2005, pp. 167-174.

[104] P. Massa, P. Avesani, Trust-aware recommender systems, in: Proceedings of the 2007 ACM conference on Recommender systems, ACM Press, 2007, pp. 17-24.

[105] H. Ma, I. King, M. R. Lyu, Learning to Recommend with Social Trust Ensemble, in: Proceedings of the 32nd international ACM SIGIR conference on Research and development in information retrieval, ACM Press, New York, 2009, pp. 203-210.

[106] M. Jamali, M. Ester, TrustWalker: A Random Walk Model for Combining Trust-based and Item-based Recommendation, in: Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, ACM Press, New York, 2009, pp. 397-406.

[107] M. Jamali, M. Ester, A Matrix Factorization Technique with Trust Propagation for Recommendation in Social Networks, in: Proceedings of the 4th ACM Conference on Recommender Systems, ACM Press, New York, 2010, pp. 135-142.

[108] J. He, W. W. Chu, A Social Network-Based Recommender System (SNRS), Data Mining for Social Network Data 12 (2010) 47-74.