Создан алгоритм, который убирает "Воду" из текста.
Дипломы спасены!
Metamind разработала алгоритм на базе нейросетей, который сканирует англоязычный текст и делает из него краткую выжимку. Такие алгоритмы существовали давно, однако в Salesforce заявили, что им удалось сделать прорыв.
Для оценки используется показатель Rouge, который получается при помощи обработки стандартного массива статей сайтов CNN и Daily Mail. Для этих массивов уже написаны выжимки руками человека, а метод оценки работает так: то, что получилось у алгоритма, сравнивается с "Человеческой Выжимкой" (в ней ищут упоминания слов и выражений), и оценка показывает то, насколько результат близок к "рукотворному идеалу".
Выжимки создаются двумя способами: убиранием лишних слов из текста или пересказом при помощи введения новых слов (и выражений. Для второго подхода и требуется машинное обучение.
По мнению журналистов из MIT Technology Review, алгоритм Salesforce производит "Удивительно Связные и Точные" выжимки. Например, новость The New York Times длиной в 345 слов превратилась в три предложения из 50 слов. Источник: Metamind.