分分一分快三APP下载ICPR 2018 上,阿里巴巴举办首届深度学习文本分析与识别研讨会 | 雷锋网

  • 时间:
  • 浏览:5

雷锋网 AI 科技评论按,日前,第 24 届国际模式识别大会 ICPR 2018 在北京国家会议中心召开,这也是其创办以来第一次在中国内地召开。讲者包括南京大学周志华教授,香港科技大学权龙教授,福特汽车公司高级技术主管 K. Venkatesh Prasad,牛津大学 Alison Noble 教授。除了阵容强大的讲者,这次会议还包括多个研讨会、讲习班等,其中不乏中国企业和高校的身影。

会议首日,阿里巴巴「图像和美」团队联手华中科技大学、中科院自动化所一块儿举办首届 Deep Learning for Document Analysis and Recognition 研讨会。此外,阿里巴巴「图像和美」团队联合华南理工大学一块儿举办的 ICPR MTWI 2018 分分一分快三APP下载挑战赛也在当天进行了报告和颁奖,你这名 挑战赛基于阿里标注并公开的 MTWI 数据集,这是现有难度最大、内容最充裕的网络图片 OCR 数据集,也是阿里首个公开的 OCR 数据集。阿里巴巴「图像和美」团队然后你这名 分分一分快三APP下载系列活动,在雷锋网旗下学术频道 AI 科技评论数据库产品「AI 影响因子」上有相应加分。

Deep Learning for Document Analysis and Recognition 研讨会主席王分分一分快三APP下载永攀目前是阿里巴巴「图像和美」团队读光 OCR 负责人,她对雷锋网(公众号:雷锋网) AI 科技评论表示,举办此次研讨会的愿因有二,「一方面,希望向我门展示阿里在 OCR 上的一系列工作;我人个面,想把阿里关注 OCR 这件事情告诉我门,吸引到更多的学者教授来关注阿里所关注的疑问。」

她进一步说道,阿里 OCR 团队对外发声不用说多,但实际上,在阿里集团内内外部,读光 OCR 的应用然后非常广泛,早在 2016 年,我门就然后实现了大规模的集团内系统。目前,读光 OCR 在办公自动化、文档电子化、数据智能等场景均有应用。

华中科技大学白翔教授也是此次研讨会主席,负责每段讲者的邀请以及进程上的安排。他的主要研究领域为计算机视觉与模式识别、角度学习,已在相关领域一流国际期刊和会议如 PAMI、IJCV、CVPR、ICCV、ECCV、NIPS、ICML、ICDAR 上发表论文 500 余篇。

对于与阿里携手举办这次研讨会的契机,他表示,此前他曾与阿里「图象和美」团队进行过一次学术交流,阿里在 OCR 产品落地方面所取得的成绩令他印象深刻。「王永攀和阿里巴巴的小伙伴成功将我然后的工作 CRNN 落地于中文识别,在网络文本识别上取得了 90% 以上的惊人识别精度。这在 CRNN 原著论文里也不 曾做到。」

但我门双方都感到 OCR 的实际需求和学术研究之间趋于稳定着两大方面鸿沟:1)现有的公开 OCR 测试集不用说能完整反映实际应用后面 临的所以瓶颈疑问;2)工业界时不时 有在关注学界关于 OCR 的研究进展,但面对面交流的然后太少,影响了 OCR 产业化的进程。

针对以上疑问,我门经太少次反复协商,一块儿完成了 ICPR 2018 MTWI 挑战赛和 OCR 学术研讨会。「非常高兴阿里巴巴起到了表率作用,免费开放一大批数据给学界,并参与组织了一次成功的学术研讨会。希望这次成功的尝试是未来工业界与学术界更加紧密合作协议协议的一一个多多 多多良好开端。」白翔如是表示。

这次研讨会的报告嘉宾有 IAPR 主席 Simone Marinai 副教授、华南理工大学分分一分快三APP下载金连文教授、海得拉巴信息技术国际研究所(IIIT Hyderabad)C.V.Jawahar 教授、码隆首席科学家黄伟林、阿里高级算法专家赵华厦、阿里读光 OCR 负责人王永攀,讨论内容涉及文档图像分析、端到端识别、信息提取等多个话题。

王永攀表示,希望能和我门一块儿合作协议协议,让这次研讨会发挥实际意义,让更多 OCR 产品与技术走出去。

研讨会特别设立圆桌讨论环节,议题是角度学习在 OCR 和 DAR 上的未来发展趋势。对于分分一分快三APP下载那先 疑问,王永攀、白翔也与雷锋网 AI 科技评论进行了更进一步的探讨。以下为问答环节:

问:文字识别任务场景众多,例如手写、场景、文档,追求端到端统一的解决方案不是可行?是不是必要?

王永攀:在特定场景,端到端的方案是可行的,但然后后会最优解法。端到端的土土办法看起来比较优雅,然后会愿因更大的不选用性,比如然后会愿因疑问定义不清,网络参数和训练数据后会剧增。我门也在尝试所以端到端的方案,端到端的本质是打破算法之间的壁垒。以文字识别为例,端到端外皮上看似乎是加在了检测的流程,直接由整图得到文字内容,实际上这是一一个多多 多多试图打破检测和识别壁垒甚至矛盾的过程。在研究者意识到检测和识别之间有不可调和的矛盾时,我门试图解决你这名 矛盾的过程中,会诞生出所以新的思想和土土办法。我门我确实在尝试打破检测识别壁垒这条道路上走下去是没疑问的,至于最终是后会端到端反而不沒有重要。

角度学习目前取得的突破也得益于数据集的发展,基于此,圆桌讨论上也提出如下疑问:为了有益于学术发展,学术界还要那先 数据集,还要那先 样的数据集?如保不能激励数据拥有方提供数据?

王永攀:首先,我门认为数据集不仅是数据,构建数据集是一一个多多 多多系统工程,「图像和美」团队在《视觉求索》上发表的文章「如保做一一个多多 多多实用的图像数据集」对数据集的建立有系统的描述:

数据集奠定的技术发展,建立系统的数据集是学术界和工业界一块儿得话题。

构建一一个多多 多多数据集,首沒有考虑数据集的知识价值和应用价值,知识价值有的然后都不能理解为学术价值,指的是该数据集不是映射特定的知识点,那先 知识点不是值得去研究。应用价值是指数据集都不能解决实际需求。其次,从知识价值和应用价值角度出发,不能做好数据埋点、标注、标准制定等后续工作。我门所构建的 MTWI 数据集,来源于真实的工业界,侧重埋点那先 具有普适性难点的数据。所以,在我门看来,无论是学术界的数据集还是工业界的数据集后会考虑到对方的需求,沒有只看研究知识点,也不 能只解决工业应用疑问。

未来工业界和学术界要有更多的交流,学术界了解技术落地时遇到的新疑问,工业界去学习如保把疑问抽象成通用的知识难点。最后说所以,我门应该鼓励更多的数据持有者贡献非机密数据,也希望数据使用者能让数据提供者有知情权,尊重知识产权。

OCR 涉及文字识别与文本理解,与计算机视觉(CV)以及自然语言解决(NLP)紧密相关,沒有 CV 和 NLP 该如保结合,一一个多多 多多领域应该如保建立长效合作协议协议?

王永攀:视觉是捕捉信息最常用最直接的土土办法,而语言是人类对信息进行抽象思维的媒介,对于几滴 的真实的人工智能应用来说,两者是密不可分的前后步骤。文字识别和文档分析也不 一一个多多 多多典型的案例。然而 CV 和 NLP 现在是完整独立的研究领域,人个后会几滴 疑问沒有解决,沒有强烈的意愿进行合作协议协议,然后如保建立长效合作协议协议机制是一一个多多 多多很困难的疑问,也是我门时不时 在探索的方向。

要想解决你这名 疑问,我门认为首先还要有一批勇敢的跨界研究者,我门熟悉一一个多多 多多领域的疑问和土土办法,不能定义清楚转过身的理论疑问,进而还都不能清晰地划分出 CV 和 NLP 适用的边界。原来不能降低门槛,吸引到更多的参与者,包括那先 专精 CV 或 NLP 领域的研究者。

其次还还要逐渐完善跨界研究的基础设施,例如公开的有挑战性的数据集和竞赛,长期的学术讨论会议,以及从研究到产业化的落地渠道等。沒有原来不能让合作协议协议变得长久。

目前阿里在实践中对传统算法和角度学习算法的使用清况 如保?

王永攀:现在主流的偏应用的土土办法基本上后会角度学习,传统土土办法更多的是做研究,然后做 baseline。当涉及到一一个多多 多多新疑问时,我门然后会先用传统土土办法去尝试,看传统土土办法不是能解决你这名 疑问,然后再做 baseline。这然后,然后传统土土办法能做到 70%,我门会用角度学习的土土办法尝试都不能把结果提升到更高,如 500%、90% 以上。

此外,传统土土办法对我门还具有所以借鉴意义。角度学习土土办法所以然后是一一个多多 多多黑盒子,选用输入,约束好输出,实际上后面 并我也不 知道趋于稳定了那先 。在原来一一个多多 多多清况 下,我门沒有去提升。通过传统土土办法,我门基本上都不能理清疑问的脉络,有所以都不能分析借鉴的每段。

目前将角度学习用于 OCR 的局限性有那先 ?在 OCR 领域,有那先 值得我门研究和思考的疑问?

白翔:目前角度学习在 OCR 领域的局限性仍然比较大,当前有几块比较迫切的方向值得我门深入思考:

1)不规则排列的文字检测与识别仍然非常棘手。然后不结合足够的先验知识,仅仅通过几滴 的标注样本学习不用说能彻底解决。

2)角度学习模型的泛化能力有限。你这名 疑问在文本检测任务上尤为明显,现有的土土办法基本是在与测试场景相关的数据上进行训练,更换一一个多多 多多场景然后会完整沒有土土办法使用。

3)非拉丁文识别,尤其是中文识别仍然是难点疑问,这反映在中文的长短效应、样本类别多、相近汉字的细粒度差别等方面。

(完)

雷锋网原创文章,未经授权禁止转载。详情见转载须知。