|
主题:一款用于改进图片搜索效果的标注游戏 [收藏主题] |
![]() ![]() 【摘要】:
图片搜索由于在搜索目标上的特殊性,往往依赖于图片所在网页的文本来判断图片的内容(我们成为图片周边文本)。而周边文本往往不能很好的表达图片的内容,并且一张图片往往在多个网页中被引用,图片周边文本也不太一致,甚至于很多图片并没有周边文本,因此给图片搜索算法提出了更高挑战。 通过“众包”的方式(百度众测平台)为图片进行信息标注,从而提高搜索引擎的准确性和召回率往往是一个比较有效的方法,并且标注的数据可以作为图片机器学习的样本数据,对于提高图片机器学习的准确率也有很大的效果;但是在图片标注的过程中也有很多问题需要解决,例如: (1)用户***问题:在“众包”平台中,有因为兴趣爱好参与标注的,也有因为平台激励机制而参与标注的,因此会存在部分用户为了获取奖励而进行***的行为,这些***行为会给标注数据的准确率带来很大的影响; 本文所提到的就是一种带有防***功能的,能够对用户的标注信息进行细分引导,从而使得标注数据越来越精确的图片标注方法。 [p=23, null, left]在本文所描述的图片标注游戏中,用户被区分为两种类型: (1)描述者:对系统展现的一张图片用一段文字或者几组关键字进行描述,表达出图片的内容和特点; 用户可以随时在“描述者”和“判断者”之间切换身份,但是不会出现用户自己判断自己所描述的图片的情况。系统将“描述者”描述的图片分配给“判断者”的时候有一套算法确保不会分配给“原描述者”,并且也不会分配给距离“描述者”较近或者可能认识的“判断者”。我们在文章后面会描述这个分配算法。 一、“描述者”描述图片的过程[p=23, null, left]![]() ![]() [p=23, null, left] ![]() ![]() ![]() (1)“描述者”判断自己所标注的图片; 系统的处理方法如下: (1)“描述者”在标注图片的时候,系统会记录描述者的账号和IP地址; (1)不能出现极度相似甚至重复的图片; 对于第1点不难理解,因为出现极度相似甚至重复图片的时候,那么“判断者”就没法选择图片。对于第2点我们举个例子说明一下,例如下面这张图片(甲壳虫汽车): [p=23, null, left]![]() ![]() 系统在选择展现图片的时候,会根据标注中的关键字从图片库中进行组合选取,例如标注文字中可以提取出关键字K1、K2和K3,系统会对关键字进行组合(K1,K2)、(K2、K3)和(K1,K2,K3)等从图片库中提取相关的图片,这是一个根据关键字检索图片的过程。 选取出相关的候选图片后,我们会用“感知哈希函数”对图片进行相似度计算,我们选用基于DCT离散余弦变换的图像感知哈希,计算出两张图片的汉明距离,并且设置阈值为26(可以调整),小于26的情况下我们认为两张图片极度相似,从而不选择这张图片,例如如下两张图片的计算结果: [p=23, null, left]![]() ![]() 如图10,图片标注系统划分为三层结构:表现层、逻辑层和数据层,各层的功能如下: (1)表现层:图片标注系统包括Web前端、Android前端和IOS前端等不同终端,用户可以通过这些终端参与图片标注; ![]() (1)数据预处理: A、为了改善一些图片所在服务器响应慢导致终端用户等待时间过长的问题,数据预处理模块会对原始图片URL进行探测,检测响应速度,筛选出响应时间慢的URL,并且对响应时间慢的图片进行后台抓取保存,当终端请求这些图片的时候会向后台请求,而不请求原URL地址; B、数据预处理模块还会对原始数据中的图片URL发送请求获取图片,然后计算其基于DCT的感知哈希值,哈希值用于后面核心调度模块选择图片的时候对比图片之间的汉明距离,从而决定选取哪些图片给“判断者”; (2)核心调度: A、核心调度模块的第一个功能是为“描述者”选择展示图片,当一个用户作为“描述者”加入系统之后,核心调度模块会为其随机挑选100张图片; B、核心调度模块的第二个功能是为“描述者”标注的图片找到一个或者多个“判断者”,“判断者”是随机选取的,和“描述者”之间互不认识,并且选取的“判断者”的IP在物理距离上离“描述者”比较远,并且会优先选择之前未判断过该图片的“判断者”; C、核心调度模块的第三个功能是为“判断者”提供标注文字、标注文字对应的图片以及经过组合搜索和相似度计算之后挑选出来的另外几张图片,首先核心模块会将标注文字进行切词和关键字提取,然后对关键字进行一组随机组合之后从系统中检索出相关的候选图片,根据这些图片的感知哈希值挑选出和标注文字对应图片的汉明距离超过阈值的图片,避免出现极度相似甚至相同的图片(图片的感知哈希值是之前通过“数据预处理”计算得出的)。 (3)标注管理: 标注管理负责将用户的标注数据更新到后台标注数据集中,数据是以图片的URL作为Key,一个图片可以对应多段标注文字(如表1),每段标注文字可以被多个“判断者”判断,系统会记录每个“判断者”的判断结果(如表2): [p=23, null, left]![]() ![]() 通过本文所描述的标注游戏能够快速地获得大量较为准确的图片标注信息,对于提高图片搜索效果有很大的作用,体现在两个方面: (1)图片搜索准确率:由于引入精确度较高的标注数据,使得图片的信息更为全面,搜索准确度更高; 游戏采用的标注方法具有如下特点: (1)防标注***功能:由于“描述者”和“判断者”是通过系统的“核心调度”模块按照一定的算法进行选取,使得用户***的成本很高,从而避免了用户***行为,使得最终的图片标注数据准确度较高; |
|
http://www.zhongaimei.com/
http://www.meishang8.com/
http://www.huamei5.com/
http://www.longxiongxiufu.com/
http://www.boniaosuan.net.cn/ | |
![]() ![]() ![]() ![]() |
![]() |
|
![]() ![]() ![]() ![]() |
<上一主题 | 下一主题 > |