百度大脑OCR手艺加持白描App:让AI成为视障者的眼睛_科技新闻

2021-08-29 网络
浏览
[科技新闻]百度大脑OCR手艺加持白描App:让AI成为视障者的眼睛_科技新闻

现实中,你可以轻松无障碍的阅读各种平面印刷文字以及身边的一切,或许你未曾想过,视障人群该怎么办呢?

  统计数据显示,中国约莫有1700万的视障群体,相当于每100小我私人中就有跨越1位是视障人士。但我们在一样平常生涯中却很少见到他们,那是由于视障群体在一样平常生涯中会有诸多未便,出门对他们而言危急四伏。AI有可能成为他们的“眼睛”吗?

  成为他们的眼睛:白描App与视障群体的故事

  若是手机上只能有一款App,你会选择哪一款?视障人士安之坚定地给出了谜底——白描。由于白描App让视力不佳的他用另一种方式“看”清天下,文字不再遥不能及。他用白描“看”过优美的诗篇,“听”过悦耳的乐章,甚至在独自上楼看不清所在楼层时,白描也准确地将谜底告诉了他,将他从逆境中解救出来。一个App让曾经望“字”兴叹的他加倍勇敢的走出家门,介入厚实多彩的生涯。

  “白描是我的眼。”同为视障人士的小杰从不小气对白描的夸赞,甚至直言白描是视障同伴赖以生计的工具。白描辅助他解决了生涯的难题,从各种电器、数码产物、药品说明书到种种洗漱用品包装都可以识别,他还可以给可爱的小侄女讲绘本故事。若是没有白描,这种事情是他难以想象的。

  白描是若何做到被视障群体视若至宝的呢?白描App是一款精练高效的OCR文字识别软件,不仅简朴好用,而且设计雅观,可以轻松实现“摄影-识别文字-朗读效果”一系列流程。同时,白描适配了手机无障碍辅助功效,视障者可以在手机上异常轻松地操作。

  “白描”这个词本意是一种文学写作手法,鲁迅先生曾把这种手法归纳综合成十二个字,即“有真意,去掩饰,少做作,勿虚伪”。白描App的开发者陶新乐正是这样的一小我私人,他考察到了差异人群的现实需求,用虚拟天下的代码知足了现实天下有需求的人,让他们的生涯变得加倍美妙、便捷。

  白描App开发者的心路历程:切入差异场景、优化产物细节

  你或许很难想象,作为一名小我私人开发者的陶新乐,他最早开发白描App是为了女同伙。陶新乐的女友热爱阅读,经常做念书条记。为了减轻缮写压力,她实验使用了那时市面上的各种文字识别软件,但她发现:有的软件操作流程繁琐,有的用度高昂,有的则识别禁绝确……看到女同伙痛苦不已,陶新乐当下决议亲自做个体验好、效果佳的OCR文字识别工具给女同伙使用,而且很快付诸了行动。这或许就是开发者独占的浪漫。

, ,

  然而,一款App的开发历程是充满未知与挑战的。在那时的条件下,开发一款具有OCR功效的软件,面临的一个伟大挑战是:若何让文字识其余又快又准。因此,他调研了市面上提供此服务的厂商,并对差异厂商的产物举行了对比,实验识别差异场景的图片,找出识别效果最好的谁人。于是他发现,百度大脑AI开放平台的OCR手艺能力和使用体验都是最好的,尤其是识别准确度更领先于其他厂商,以是在2017年他就绝不犹豫的选择了百度OCR手艺,并一直使用至今。

  然则优异的底层手艺并不意味着所有,百度大脑OCR已提供近60项手艺能力,好的手艺也需要应用于匹配的场景才气施展更大的价值。

  于是,陶新乐首先对白描的使用场景做了细分研究,好比:学生上课拍PPT提取文字记条记、企业员工把纸质条约扫描成电子版而且制作PDF、把纸质表格转成Excel电子版、翻译图片上的文字、先生拍摄并识别试题后对试题再加工、状师用来提取纸质文书上的文字等等。特其余是,视障人群特殊的使用需求,他都有关注和调研。

  思量完用户的使用场景之后,再者就是对产物的不停打磨。那时,图片转文字经常会有识别错误的情形发生,为了填补这一问题,在识别之前,白描APP会举行一些手艺上的处置,好比图像压缩若何保证清晰度又只管减小图片巨细;若何在举行长图自动裁剪时,检测到长图的空行位置自动裁剪,且不会裁到文字;若何针对文章举行自动分段,更便于读者阅读等等。这些细腻化的产物设计保证了图片的清晰度,让文字信息更易于被识别。而在识别之后,白描的校对功效,可以让识别效果与原图显示在统一界面上,利便用户快速找到需要修改的地方,在此基础上举行编辑。

  依托百度优异的深度学习算法和基于海量优质数据的预训练模子,以及白描App的图像预处置能力,最终实现了要害字段识别准确率99% 。看到女友使用白描时绽放的笑颜,陶新乐以为一切都是值得的,他也希望更多人能够享受到这份快乐。

  乐成的背后:用“匠人”之心雕琢产物之光

  程序员身世的陶新乐在做产物这件事上一直怀揣一颗“匠人”之心。陶新乐提到,AI在落地的历程中会遇到许多的难题,许多时刻都是一边踩坑一边向前走。当遇到无法解决的问题时,就需要不停学习,攻坚克难。

  百度大脑OCR手艺与无数像陶新乐一样的开发者并肩偕行。作为最早规模化应用的AI手艺之一,OCR手艺的产业级应用连续取得突破。百度大脑OCR手艺可提供多场景、多语种、高精度的文字检测与识别服务,多项ICDAR指标居天下第一,已普遍适用于远程身份认证、财税报销、文档电子化等场景,为企业降本增效,为用户带来更智能化的应用体验。

  固然,AI手艺的应用落地,除了需要有百度大脑这样提供领先AI手艺能力的平台外,还需要更多像陶新乐这样的开发者们,施展想象将AI应用在更多真实场景中,知足差异用户群体,甚至是容易被忽视的残障人群的需求,让社会更有“AI”。同时,为了降低自力开发者和企业自主训练OCR文字识别模子的门槛,百度大脑推出业界首个EasyDL OCR自训练平台,提供零门槛、定制化、低成本的一站式OCR模子训练服务。保证高准确率的同时,知足多元化的场景需求,并有用保障数据平安。

  在这个科技为民众生涯赋能的时代,产物的设计更是一种普惠理念的输出。已拥有跨越800万用户的白描App,已经成为业界的口碑产物。信托,未来还将有越来越多的开发者通过百度大脑AI开放平台提供的AI手艺与服务,缔造出更多与场景相连系的智能应用,让更多人生涯更便捷、更美妙。

国美零售发布2021年中期财报:品类扩张卓有成效