Точность речи: Точность речи — примеры и нарушения

Содержание

Точность речи — примеры и нарушения

Правильной речью (письменной или устной) можно считать речь, созданную в зависимости от целей, условий и задач общения.

Характерными качествами правильной речи являются ее:

Точность речи — определение и качества

Точность — это такое качество речи, которое требует от говорящего или пишущего соответствия фактов действительности и соответствия слов, употребляемых автором, их значениям.

Фактическая точность речи

Точность как качество речи бывает фактической, т.е. речь соответствует фактам действительности, а ее отсутствие приводит к фактическим ошибкам.

Например, в сочинении ученик пишет: «Действие комедии «Горе от ума» А.С. Грибоедова разворачивается в век царствования Екатерины П», а это фактическая ошибка.

Словесная точность

Второе значение определения такого качества обозначает словесную точность, т.е. соответствие употребляемых слов их лексическим значениям

(например, в предложении Мы достигли ворот Мадрида все слова употреблены в своем прямом значении, употребление каждого слова соответствует тому, что хотел сказать автор).

При создании текста автор должен быть чрезвычайно внимательным, иначе может возникнуть фактическая или словесная неточность.

Причины возникновения неточности в речи

Такие  нарушения могут возникать из-за:

• незнания фактов или небрежного отношения к ним;

«Кенгуру отправляются в ковбойское путешествие по саваннам». –

В этом предложении допущены фактические ошибки, так как в нем соединены реалии трех континентов.

• смешения понятий;

• неверного выбора синонима;

• неверного употребления многозначного слова или омонима;

«Слабеющая лира» — заголовок заметки о падении курса итальянской лиры — создает двусмысленность.

• смешения паронимов — слов, близких по звучанию, но различных по значению;

«Вечный командировочный» — заголовок в журнале об одном американском журналисте. Слово «командировочный» относится только к неодушевленным существительным, для обозначения одушевленного существительного используется слово «командированный»

• неправильного порядка слов;

«Стулья заменяли ящики из-под помидоров» — неточность возникает из-за того, что при таком порядке слов существительное «стулья» воспринимается как подлежащее, слово «ящики» как дополнение, хотя по смыслу эти слова выполняют противоположные функции.

Наша презентация:

Материалы публикуются с личного разрешения автора — к.ф.н. О.А.Мазневой

Вам понравилось? Не скрывайте от мира свою радость — поделитесь

Точность речи

Речь может быть
признана хорошей только тогда, когда
она понятна адресату. Поэтому соответствие
критерию понятности – одно из основных
условий, учёт которых необходим при
оценке качества речи.

Речь можно назвать
понятной только в том случае, когда она
максимально полно отражает коммуникативное
намерение говорящего, но при этом
передаваемая мысль должна быть ещё и
адекватно воспринята слушающим. Поэтому
реализацию критерия «понятность»
обеспечивают два качества хорошей речи:
точность и ясность (см. раздел «Ясность
речи»).

Для того чтобы
составить начальное представление о
том, как в речи нарушается точность,
рассмотрим следующие высказывания.

У тебя фантастика
плохая.

Рано нам ещё
меморандум петь.

В приведённых
примерах говорящий для выражения своей
мысли подобрал слова, которые в языке
не закреплены за обозначением того
понятия, которое нужно было назвать.
Так, в первом предложении говорящий,
судя по контексту, оценивает не
представления и образы, созданные
воображением, а способность адресата
выдумывать, представлять что-то, поэтому
для адекватной передачи своей мысли он
должен был использовать слово фантазия,
а не фантастика
(ср. фантазия:
‘способность выдумывать, представлять
что-л.; творческое воображение’,
фантастика:
‘представления,
образы, созданные воображением,
изображение явлений действительности
в преувеличенном и сверхъестественном
виде’).

Во втором предложении
речь идёт об опасениях говорящего по
поводу неоправданных восторгов, для
чего в русском языке существует выражение
петь дифирамбы,
говорящий же – по созвучию – выбирает
из предоставляемого ему языком
лексического набора слово меморандум,
которое обозначает ‘дипломатический
документ с изложением взглядов
правительства на какой-либо вопрос’.

Таким образом,
можно констатировать имеющиеся в
указанных примерах нарушения точности
речи, поскольку точной является речь,
в которой мысли и чувства говорящего
переданы с помощью тех языковых средств,
которые в данном языке закреплены за
обозначением определённой реалии
окружающей действительности. Поэтому,
чтобы речь была точной, слова следует
употреблять в полном соответствии с
теми значениями, которые за ними
закреплены в языке [Головин: 126].

При чётком выражении
мысли слова полностью соответствуют
своему предметно-логическому значению,
а неправильный выбор слова искажает
смысл высказывания.

Следовательно,
точность включает в себя умения

  1. точно отражать в
    речи реальную действительность;

  2. точно выражать
    мысли и оформлять их с помощью языковых
    средств.

Точность – это
коммуникативное качество хорошей речи,
предопределяющее соответствие способов
выражения описываемой действительности
и проявляющееся в умении эксплицировать
мысль с помощью такого подбора языковых
средств, который бы максимально полно
соответствовал выражаемому понятию.

Точность как
качество речи связывается прежде всего
с лексическим уровнем в системе языка,
значит, можно понимать точность как
соблюдение в речи норм словоупотребления.
Но в таком случае пришлось бы
классифицировать точность как вариант
правильности (совершенно другого
качества речи).

Как различать
точность
и правильность?

Необходимо отметить,
что эти качества характеризуют речь в
разных аспектах.

Правильность
как качество речи репрезентирует
соотношение язык
– речь
. Она
опирается исключительно на лингвистические
факторы. Правильной является речь,
структура которой соответствует нормам
литературного языка.

Точность
как качество речи опирается на иные
отношения: эта категория основана на
связи речь
– действительность
.

Условия,
способствующие созданию точной речи:

  • знание предмета
    речи (экстралингвистическое условие),

  • знание системы
    языка (лингвистическое условие),

  • умение
    соотнести знание предмета со знанием
    языковой системы и её возможностей в
    конкретном акте коммуникации.

Данные условия
предполагают строгое соответствие слов
обозначаемым предметам (явлениям)
действительности. Следовательно,
говорящий должен заботиться о
верном выборе языкового средства (в
частности, слова), которое бы максимально
точно соотносилось с требующим обозначения
предметом или явлением реальной
действительности

Речь может быть
охарактеризована как понятная в случае,
если говорящий в процессе произнесения
осуществил единственно верный выбор
из предоставляемых ему языком возможностей.
При выборе точной номинации следует не
только учитывать наличие нескольких
лексических парадигм, но и осуществлять
точный выбор нужного варианта из ряда
предлагаемых языком (например, выбор
синонима из синонимического ряда или
выбор паронима из паронимической пары).
Неправильный выбор языкового варианта
ведёт к нарушению фактической или
коммуникативной точности.

Исследователи
выделяют несколько видов точности. В
частности, Б.Н.Головин предлагает
различать две
её разновидности [Головин: 129].

предметная
точность

понятийная
точность

Соответствие
содержания речи тому кругу предметов,
явлений действительно­сти, о которых
сообщается.

Достигается
доскональным знанием предмета речи
(человек должен хорошо знать то, о чём
говорит).

Соответствие содержания речи той
системе понятий, которая в ней
обозначена.

Слово отражает не только предмет, оно
отражает (выражает) нашу мысль, работу
нашего сознания.

Но термины
«предметная точность» и «понятийная
точность» при всех их достоинствах
(краткость, единообразие) имеют и
недостатки. Совершенно справедливым
будет возражение такого рода: разве
предметная точность не является
одновременно и понятийной? Ведь говорящий
в процессе общения передаёт не понятие
(отдельное, изолированное, логически
очищенное от всего несущественного), а
комплекс-представление, куда входят не
только признаки понятия, но и эмоциональные,
волевые устремления, т.е. он транслирует
содержание, сформированное им при
познании реалий окружающего мира
[Мучник: 83]. Другой термин – «предметная
точность» – тоже сужает ту область,
которую он призван обозначать. Ведь
отражаться могут не только предметы,
но и, например, процессы.

Представляется,
что более адекватным поэтому будет
термин А.Э.Мильчина «фактическая
точность». Вместо выражений «предметная
точность» – «понятийная точность»
Б.С.Мучник предлагает использовать пару
терминов: фактическая
точность

коммуникативная
точность
[Мучник:
83].

Фактическая
точность

свойство, присущее правильному
(адекватному, истинному) отражению мира
мыслью автора.

Коммуникативная
точность

свойство, возникающее при выражении
мысли автора, когда эта мысль адекватно
схвачена словом и передана адресату.
Это полное соответствие фрагмента речи
именно мысли автора даже в том случае,
когда слово использовано в ненормативном
значении20(см. как В.Луговской разбирает пример
из Гоголя: «“–Вспомнил,
вспомнил! – закричал он в страшном
веселье и, размахнувши топор, пустил им
со всей силой в старуху. Топор на два
вершка вбежал в дубовую дверь
”.
Послушайте, как слово вбежал
определяет страшную силу удара; казалось
бы, странное слово для топора, а какую
значимость придаёт оно всей фразе»).

Таким образом,
следует говорить не о точности
словоупотребления, а о точном выражении
мысли, или о коммуникативной точности
речи. При достижении коммуникативной
точности важно иметь в виду, насколько
соответствует «актуализированное
автором значение высказывания
передаваемому смыслу» [Мучник: 87].

Различие двух
видов точности представлено в следующей
таблице.

Фактическая

точность

Коммуникативная
точность

пример

комментарий

+

нарушена
комм.

точность

Катерина
прыгнула (вм. бросилась) с обрыва в
Волгу.

Очевидно, автор не имел в виду, что
Катерина прыгнула с обрыва, чтобы,
например, искупаться. Поэтому
употреблённое им слово прыгнула
неточно передаёт его (верную, точную)
мысль.

Автор
имел точную мысль, вполне соответствующую
реальной действительности, но не сумел
«схватить», обозначить её словом.

нарушена
факт.

точность

+

У
меня бумеранг настоящий, сделанный в
Австралии бедуинами21

Мысль неточна по отношению к реальной
действительности.

Автор
имел неверное представление о
действительности, но выразил свою
мысль точно

+

+

Нет
ошибок, нарушающих точность речи.

Безупречное
отражение действительности и безупречное
выражение мысли

Такое
сочетание наблюдается лишь в
исключительных случаях:

Там,
где травы жухлые

Не
метали колоса,

Зашумит
пшеница

Морем
золотым.

Разве
травы метают
колос
? Это
может делать только пшеница, да и то
– не метать, а выметывать
(‘выпускать
наружу побег, соцветие и т.п.’), т.к.
метать
– ‘кидать, бросать; бросать с целью
попасть в кого-л., что-л.’.

Автор
имел неверное представление о
действительности и при этом выразил
его неточно

Примеры

Сегодня по телеку
коронацию
президента будут показывать

(вм. инаугурация).
Нарушение фактической точности.

Между тем
надвигались
радостные события

(вм. приближались).
Нарушение коммуникативной точности.

Рассмотрим причины
нарушения точности подробнее.

Указанное качество
речи может быть нарушено в результате
неточного выбора лексемы из антонимической
парадигмы.

Такая ошибка
называется смешение
антонимов
.

Она навзничь
упала на землю, видны были только её
вздрагивающие лопатки.

Из антонимической
пары навзничь
ничком
говорящим была выбрана номинация,
неверно отражающая действительность,
и это ясно видно из контекста: если бы
человек упал навзничь, то есть на спину,
лицом вверх, то наблюдатель не мог бы
видеть вздрагивающих лопаток упавшего.
Следовательно, для точного отражения
действительности говорящий должен был
выбрать из антонимической пары навзничь
ничком
лексему ничком,
т.е. ‘лицом вниз’.

Описываемое
качество речи может быть также нарушено
в результате неточного выбора лексемы
из синонимической или паронимической
парадигмы, что влечёт за собой появление
ошибки, называющейся неточный
выбор синонима / паронима
.

Знание синонимических
возможностей позволяет выбрать нужное
слово из синонимического ряда и тем
самым добиться строгого соответствия
речи передаваемому содержанию, а значит
– достичь точности выражения. Необходимо
помнить: чтобы выбрать из синонимического
ряда единственно верное слово, нужно
учитывать его семантические и
стилистические оттенки.

Так, в предложении
Илья Муромец
дрался
с Соловьем-разбойником
говорящим
не учтена разница в смыслах, передаваемых
словами драться
/
сражаться
:
‘бить друг друга’ / ‘вступить в бой, в
единоборство’. Представляется, что в
данном контексте для более точной
передачи смысла необходимо использовать
лексему сражаться,
поскольку она, в отличие от лексемы
драться,
принадлежит концептуальному полю
богатырь,
и реализует множество ассоциативных
связей данного концепта. Ср.: Тёма
так отчаянно сражался с негром, аж дух
захватывало!

Аналогичен механизм
выбора паронимического варианта из
имеющейся в языке парадигмы. Так, в
предложении Если
забастовка состоится, график воздушных
перевозок будет
сломлен
говорящим
был неверно выбран вариант из паронимической
пары сломан
/ сломлен. Сломленный

– причастие от сломить
(‘одолеть, победить кого-л. или подавить,
преодолеть что-л.’) – неточно отражает
мысль автора: невозможно подавить график
воздушных перевозок, его можно сломать.
Следовательно, в данном предложении
нужно было использовать форму сломанный
– причастие от сломать
(‘решительно отбросить что-л. устоявшееся,
укоренившееся; уничтожить, разрушить’).

Особым случаем в
ряду ошибок, приводящих к нарушению
точности, является неверный выбор
говорящим лексической единицы из
совокупности единиц, принадлежащих
одной лексико-семантической группе,
эксплицирующей определённое понятийное
пространство.

Причина ошибки в
том, что говорящий в процессе спонтанного
общения осуществляет неточный выбор
из слов, не имеющих ничего общего в
звучании, но относящихся к одной
предметной области. Основной
парадигматической особенностью подобных
лексических единиц является то, что «в
их значениях имеется единая
категориально-лексическая сема. Эта
сема составляет семантическую основу
группы и в каждом отдельном слове
уточняется с помощью дифференциальных
сем» [Кузнецова: 75].

Механизм данной
ошибки состоит в следующем: говорящий
должен выбрать определённое, навязываемое
ему экстралингвистической и лингвистической
ситуацией слово из группы лексем,
принадлежащих одному семантическому
полю. Эти слова объединены тем, что в их
значениях есть общая интегральная сема,
но дифференцирующие семы разные.
Говорящий в процессе коммуникации
(когда он одновременно должен учитывать
множество условий как экстралингвистических,
так и лингвистических) ошибочно выбирает
лексему, дифференцирующий компонент
значения которой не соответствует
данной ситуации высказывания.

Речевая ошибка,
возникающая в результате, называется
смешение
слов, относящихся к одной понятийной
области, в результате неверной актуализации
дифференцирующего компонента значения
.

Проанализируем
предложение, в котором говорящий нарушил
точность, ошибочно выбрав слово с
неверной актуализацией дифференцирующей
семы.

В.Путин так отозвался
о ликвидации руководителя бандформирований
Ш.Басаева: Есть
люди, достойные такого возмездия. Это
слишком мало для него – быть просто
уничтоженным.

Представляется, что слово достойный
употреблено говорящим неточно: невозможно
быть достойным возмездия, поскольку
лексема достоин
при реализации синтагматических
отношений требует лексемы с положительным
компонентом значения. Следовало сказать
заслуживает
такого возмездия.

смысловая точность речи | Чисто по-русски

Мар 19

adminкоммуникативные качества речи коммуникативные качества речи

     Точность речи — это одно из важнейших коммуникативных качеств.

     Понятийная, смысловая точность является одним из видов точности речи. Отражая связь речи с мышлением, она зависит от того, как действительность осмыслена говорящим, а также связана с умением найти такие компоненты речи, которые наилучшим образом выразят мысль говорящего, его восприятие и оценку действительности.

Точное употребление слов

     Лишь глубокое знание значений слов во всех их тонкостях, а также сложная — и при этом ясная — мыслительная деятельность, напряжённая интеллектуальная работа могут обеспечить достижение такого качества речи, как точность.

     Выражая свои мысли, говорящий должен употреблять слова точно, в полном соответствии с их значениями, зафиксированными в словарях. Таким образом, смысловая точность речи отражает соблюдение лексико-семантических норм русского языка. Знание системы лексических значений — важнейшее условие точности речи. Персонаж романа «Двенадцать стульев», обозначив словом «пеньюар» бальное платье, нарушил именно это условие.

Синонимы и смысловая точность речи

     Для смысловой точности речи также необходим учёт оттенков значений слов, входящих в синонимический ряд. С помощью синонимов, обозначающих одно и то же понятие, можно разнообразить речь, придать ей стилистическую окраску. Правильный подбор синонимов показывает говорящему, каким образом выбор слова может помочь ему выразить виденье предмета, его осмысление и оценку. Если же говорящий не имел цели представить предмет в определённом виде и употребил, скажем, слово бережливый там, где лучше, точнее было бы использовать прилагательное скупой, то это ведёт к неточности речи. Например, Плюшкин скупой или бережливый? Бережливый — бережно относящийся к имуществу, расчётливый, экономный; скупой— чрезмерно, до жадности бережливый, избегающий расходов. Разница в словоупотреблении очевидна.

Сочетаемость слов и смысловая точность речи

     Так как слово обладает способностью сочетаться не со всеми, а с определёнными словами, то выбор слова должен соответствовать его окружению. Так, например, синонимичные слова замашки и повадки, обозначающие способ, манеру поведения, при точном употреблении потребуют разных условий. Если речь идёт о животном, то должно быть выбрано существительное повадки (заячьи повадки, лисьи повадки). Если имеется в виду человек, то можно использовать оба существительных, при этом способ поведения человека и в одном, и в другом случае будет оцениваться негативно. Существительное замашки будет характеризовать манеру определённым образом действовать (у него барские замашки, этот человек с замашками высокопоставленной особы), слово повадки будет характеризовать наклонности ( узнаю повадки этого отъявленного лгуна).

Многозначные слова и смысловая точность речи

     Трудности словоупотребления, приводящие к неточности речи, возникают при употреблении многозначных(полисемичных) слов. Сравните, например, такой ответ на вопрос о больном: «Только что отошёл» . Если это высказывание будет произнесено с нейтральной интонацией и не будет сопровождаться какими-либо невербальными средствами выражения эмоций: жестами, мимикой, то адресат не поймёт, о чём речь, так как глагол отойти может иметь два значения: «прийти в нормальное состояние, почувствовать себя лучше» и « умереть».

Паронимы и смысловая точность речи

     Вызывает затруднения употребление в речи паронимов — это слова, имеющие сходство в морфологическом составе и поэтому похожие по звучанию, но не совпадающие по значению. Дружеский (относящийся к другу) дружеский обед — дружественный (основанный на дружбе) дружественный визит. Скрытый (тайный,невидимый) скрытый фронт — скрытный (неоткровенный) скрытный человек. Невежа (невоспитанный, бестактный) — невежда (необразованный, несведующий).

Функциональные стили и смысловая точность речи

     Требования к точности речи различны в зависимости от разных функциональных стилей. В наименьшей степени требует точности разговорная речь, так как непосредственный контакт говорящего и слушающего позволяет уточнить смысл сказанного. Повышенные требования к точности предъявляются в речи деловой, научной, публицистической. Например, научная речь должна точно и ясно передавать мысль учёного, его гипотезу или результаты научного эксперимента. В научной речи максимально точно должны употребляться термины. Терминам, однако, иногда свойственна многозначность, поэтому автор должен чётко определить, в каком значении данный термин употребляется в его речи. Перегруженность научной речи терминами затрудняет её понимание.

     Для обретения речью точности необходимо также хорошее знание значений слов узкой сферы употребления: иноязычных, профессиональных, архаичных.

Также на эту тему Вы можете почитать:

Оценка и улучшение Пользовательское распознавание речи точность — служба речи — Azure Cognitive Services



  • Чтение занимает 7 мин

В этой статье

В этой статье вы узнаете, как количественно измерять и улучшать точность моделей преобразования речи в текст Майкрософт или пользовательских моделей. Для проверки точности требуются звуковые данные для записи звука и пользователя с метками, а 30 минут — 5 часов репрезентативного звука.

Оценка точности службы пользовательского распознавание речи

Отраслевый стандарт для измерения точности модели — это Частота ошибок Word (WER). WER подсчитывает количество недопустимых слов, выявленных во время распознавания, а затем делит их на общее число слов, введенных в транскрипции (показанные ниже как N). Наконец, это число умножается на 100% для вычисления WER.

Неверно распознанные слова делятся на три категории:

  • Вставка (I): слова, неправильно добавленные в запись гипотезы
  • Удаление (D): слова, которые не обнаруживаются в записи гипотезы
  • Подстановки: слова, которые были заменены на ссылку и гипотезу

Приведем пример:

Если вы хотите локально реплицировать измерения WER, можно использовать склите из сктк.

Устранение ошибок и улучшение WER

Вы можете использовать WER из результатов распознавания машин, чтобы оценить качество модели, используемой в приложении, средстве или продукте. Объект WER с 5%-10% считается хорошим качеством и готов к использованию. Объект WER, соблюдающий 20%, приемлем, но вам может потребоваться дополнительное обучение. WER на 30% или более сигналов имеет низкое качество и требует настройки и обучения.

Степень распространения ошибок важна. При возникновении большого количества ошибок удаления обычно это обусловлено низкой интенсивностью звукового сигнала. Чтобы устранить эту проблему, необходимо будет сохранять звуковые данные ближе к источнику. Ошибки вставки означают, что звук был записан в бесшумной среде и кроссталк, что вызывает проблемы распознавания. Ошибки подстановки часто встречаются, когда недостаточный выбор терминов для конкретных доменов предоставляется как транскрипция или связанный текст.

Анализируя отдельные файлы, можно определить, какой тип ошибок существует и какие ошибки являются уникальными для конкретного файла. Основные сведения о проблемах на уровне файлов помогут вам ориентироваться на улучшения.

Создание теста

Если вы хотите проверить качество базовой модели перевода речи в текст Майкрософт или настраиваемой модели, вы можете сравнить две модели рядом, чтобы оценить точность. Сравнение включает в себя WER и результаты распознавания. Как правило, пользовательская модель сравнивается с базовой моделью Майкрософт.

Для параллельного вычисления моделей:

  1. Войдите на портал пользовательское распознавание речи.
  2. Перейдите в раздел > преобразования речи в текст Пользовательское распознавание речи > [имя проекта] > тестирования.
  3. Нажмите кнопку добавить тест.
  4. Выберите оценить точность. Присвойте тесту имя, описание и выберите набор данных для транскрипции и звука.
  5. Выберите до двух моделей, которые вы хотите протестировать.
  6. Нажмите кнопку Создать.

После успешного создания теста можно сравнить результаты рядом.

Параллельное сравнение

После завершения теста, обозначенного состоянием «изменено» на » выполнено«, вы найдете номер WER для обеих моделей, включенных в тест. Щелкните имя теста, чтобы просмотреть страницу сведений о тестировании. На этой странице подробностей перечислены все фразы продолжительностью в наборе данных, указывающие результаты распознавания двух моделей вместе с прознаком из отправленного набора данных. Чтобы проверить параллельное сравнение, можно переключить различные типы ошибок, включая вставку, удаление и подстановку. Прослушивая звук и сравнивая результаты распознавания в каждом столбце, в котором показана транскрипция с отметкой и результаты для двух моделей преобразования речи в текст, можно решить, какая модель соответствует вашим потребностям и где требуется дополнительное обучение и улучшения.

Повышение точности результатов службы «Пользовательское распознавание речи»

Сценарии распознавания речи различаются по качеству и языку звука (словарю и стилю речи). В следующей таблице рассматриваются четыре распространенных сценария.

Сценарий Качество звука Словарь Стиль речи
Центр обработки вызовов Низкая, 8 кГц, может быть 2 человеком на один канал звука, может быть сжато Узкие, уникальные для домена и продуктов Слабо структурированный
Голосовое помощник (например, Кортана или окно с диском) Высокий, 16 кГц Большая сущность (названия песен, продукты, расположения) Четко зачисленные слова и фразы
Диктовка (мгновенное сообщение, заметки, поиск) Высокий, 16 кГц Изменяем Примечание. принятие
Субтитры видео Различные, включая различные использование микрофона, добавленную музыку Различные, с собраний, измененные речевые функции, музыкальные песни Чтение, подготовка или слабо структурированный

Различные сценарии дают разные результаты качества. В следующей таблице рассматривается, как из этих четырех сценариев оценивается Частота ошибок слов (WER). В таблице показано, какие типы ошибок наиболее часто встречаются в каждом сценарии.

Сценарий Качество распознавания речи Ошибки вставки Ошибки удаления Ошибки подстановки
Центр обработки вызовов Средний (< 30% WER) Низкая, за исключением случаев, когда другие люди говорят в фоновом режиме Может быть высокой. Центры обработки вызовов могут быть шумами, а перекрывающиеся колонки могут запутать модель Средняя. Продукты и имена людей могут вызывать эти ошибки
Голосовой помощник Высокая (может быть < 10% WER) Низкий Низкий Средние, из-за названий песен, названий продуктов или расположений
Диктовка Высокая (может быть < 10% WER) Низкий Низкий Высокий
Субтитры видео Зависит от типа видео (может быть < 50% WER) Низкий Может быть высокой из-за музыки, шума, качества микрофона Жаргоне может вызвать эти ошибки

Определение компонентов WER (число вставок, удалений и ошибок подстановки) помогает определить, какой тип данных следует добавить для улучшения модели. Используйте портал пользовательское распознавание речи для просмотра качества базовой модели. На портале отображаются ставки ошибок вставки, замены и удаления, которые объединяются в ставке качества WER.

Улучшение распознавания модели

Можно уменьшить количество ошибок распознавания, добавив обучающие данные на портале пользовательское распознавание речи.

Запланируйте поддержание пользовательской модели, периодически добавляя исходные материалы. Для вашей пользовательской модели требуется дополнительное обучение, чтобы обеспечить осведомленность об изменениях в сущностях. Например, могут потребоваться обновления названий продуктов, названий песен или новых расположений служб.

В следующих разделах описывается, как каждый вид дополнительных обучающих данных может сократить количество ошибок.

Добавление связанных текстовых предложений

При обучении новой настраиваемой модели Начните с добавления связанного текста, чтобы улучшить распознавание слов и фраз, относящихся к домену. Связанные текстовые предложения в первую очередь уменьшают количество ошибок подстановки, связанных с неверной назначением слов и слов, зависящих от домена, отображая их в контексте. Слова, зависящие от домена, могут быть нераспространенными или состоять из слов, но их произношение должно быть простым для распознавания.

Примечание

Избегайте связанных текстовых предложений, содержащих такие помехи, как нераспознаваемые символы или слова.

Добавление звука с помощью речевых транскрипций

Звук с речевыми транскрипциями обеспечивает наибольшую точность, если звук поступает из целевого варианта использования. Примеры должны охватывать всю область речи. Например, центр обработки звонков для розничного магазина будет получать больше вызовов о Свимвеар и своему солнцезащитных очков в течение летнего месяца. Убедитесь, что ваш пример включает всю область речи, которую нужно обнаружить.

Рассмотрим следующие сведения:

  • Обучение с помощью аудио позволит получить наиболее выгодные преимущества, если звук также трудно понять для людей. В большинстве случаев необходимо начать обучение, просто используя связанный текст.
  • Если вы используете один из самых широко используемых языков, таких как US-English, существует хороший шанс, что обучение с аудио-данными не требуется. Для таких языков в большинстве случаев базовые модели предлагают уже хорошие результаты распознавания. возможно, это достаточно для обучения со связанным текстом.
  • Пользовательское распознавание речи может записывать только контекст Word для сокращения ошибок подстановки, отсутствия вставки или ошибок удаления.
  • Избегайте выборок, которые содержат ошибки записи, но включают разнообразие качества звука.
  • Избегайте предложений, которые не связаны с проблемным доменом. Несвязанные предложения могут повредить вашу модель.
  • Когда качество записи изменяется, можно дублировать весьма хорошие предложения (например, отличных от ключевых фраз), чтобы увеличить их вес.
  • Служба распознавания речи автоматически использует записи для улучшения распознавания слов и фраз, относящихся к домену, как если бы они были добавлены в качестве связанного текста.
  • Для выполнения операции обучения может потребоваться несколько дней. Чтобы повысить скорость обучения, обязательно создайте подписку на службу речи в регионе с выделенным оборудованием для обучения.

Примечание

Не все базовые модели поддерживают обучение с помощью аудио. Если базовая модель не поддерживает ее, служба распознавания речи будет использовать только текст из записей и игнорировать звук. Список базовых моделей, поддерживающих обучение с аудио-данными, см. в разделе Поддержка языков . Даже если базовая модель поддерживает обучение с помощью звуковых данных, служба может использовать только часть звука. Все еще будут использоваться все записи.

Примечание

В случае изменения базовой модели, используемой для обучения, и наличия звука в наборе данных для обучения, всегда проверяйте, поддерживает ли новая выбранная базовая модель обучение с помощью звуковых данных. Если ранее использованная базовая модель не поддерживала обучение с использованием звуковых данных, а набор данных для обучения содержит звук, то время обучения с новой базовой моделью значительно увеличится, и его можно легко переключиться с нескольких часов на несколько дней и многое другое. Это особенно верно, если ваша подписка на службу речи не находится в регионе с выделенным оборудованием для обучения.

Если вы сталкиваетесь с проблемой, описанной выше в приведенном выше абзаце, можно быстро уменьшить время обучения, уменьшив количество звука в наборе данных или полностью удалив его, и покинуть только текст. Второй вариант настоятельно рекомендуется, если подписка службы речи не находится в регионе с выделенным оборудованием для обучения.

Добавить новые слова с произношением

Слова, внесенные или очень специализированные, могут иметь уникальные произношение. Эти слова можно распознать, если слово можно разбить на слова меньшего размера. Например, чтобы распознать Xbox, произносится как поле X. Такой подход не позволит повысить общую точность, но может увеличить распознавание этих ключевых слов.

Источники по сценарию

В следующей таблице приведены сценарии распознавания речи и приведены исходные материалы, которые следует учитывать в трех категориях обучающих материалов, перечисленных выше.

Сценарий Связанные текстовые предложения Звуковые и пользовательские записи с метками Новые слова с произношением
Центр обработки вызовов маркетинговые документы, веб-сайты, обзоры продуктов, связанные с деятельностью центра обработки вызовов центр обработки вызовов вызывает расшифрованной по людям термины с неоднозначными произношениями (см. раздел Xbox выше)
Голосовой помощник Вывод списка предложений с использованием всех сочетаний команд и сущностей запись голосовых команд в устройство и транскрипция в текст имена (фильмы, песни, продукты) с уникальными произношением
Диктовка записанные входные данные, например мгновенные сообщения или сообщения электронной почты Аналогично предыдущему Аналогично предыдущему
Субтитры видео Сценарии ТЕЛЕПЕРЕДАЧ, фильмы, маркетинговые материалы, сводки видео точные записи видео Аналогично предыдущему

Дальнейшие действия

Дополнительные ресурсы

Точность и выразительность речи (критерий 6) — ОСОБЕННОСТИ НАПИСАНИЯ СОЧИНЕНИЯ-РАССУЖДЕНИЯ ПО РУССКОМУ ЯЗЫКУ — ЕГЭ 2018. Русский язык. Алгоритм написания сочинения! — ЕГЭ 2018

ЕГЭ 2018. Русский язык. Алгоритм написания сочинения

Точность и выразительность речи (критерий 6)

Обращаю ваше внимание на то, что максимальный балл по критерию 6 будет выставлен в том случае, если по критерию 10 будет получен высший балл: «Работа экзаменуемого характеризуется точностью выражения мысли, разнообразием грамматического строя речи. Высший балл по этому критерию экзаменуемый получает только в случае, если высший балл получен по критерию К10».

Что оценивается в этом критерии?

К основным качествам речи профессор Б.Н. Головин относил «правильность, точность, чистоту, ясность, логичность, богатство, выразительность и уместность речи». Определение, данное в современном словаре, тоже не сильно отличается от предыдущего. «Качества речи — реальные свойства содержательной и формальной сторон речи: правильность, точность, логичность, чистота, выразительность, богатство и уместность».

Таким образом, можно сделать вывод, что правильность речи говорящего — это умение красиво, образно, выразительно, точно и логично, благодаря знанию норм литературного языка и внимательному их применению при построении речи, построить высказывание.

Принято выделять девять коммуникативных качеств, в соответствии с которыми речь оценивается как «хорошая» и «плохая»:

1) правильность;

2) разнообразие;

3) чистота;

4) точность;

5) логичность;

6) выразительность;

7) уместность;

8) доступность;

9) действенность.

Поэтому совершенно точно можно сказать, что точность речи говорящего будет напрямую зависеть от того, насколько правильно было подобрано слово в контексте, использован нужный синоним или антоним и вообще насколько всё логично и сочетаемо.

Причины нарушения точности речи:

• использование длинных однотипных грамматических конструкций;

• нарушение порядка слов в предложении;

• обилие обособленных оборотов и вставных конструкций;

• речевая избыточность и недостаточность.

Выразительность речи — качество речи, которое заключается в правильном подборе таких слов, которые помогают усилить впечатление от высказывания, вызвать и поддержать внимание и интерес у слушателей, воздействовать на их разум и чувства.

Как правило, в этом помогают самостоятельность суждений говорящего, умение убедительно, используя яркие примеры, доказывать свою мысль. Конечно же, в этом случае мы никак не можем обойтись без художественных приёмов, речевых фигур и тропов, пословиц, фразеологических оборотов, крылатых фраз.

Ясная речь никогда не вызовет затруднений в её восприятии, именно поэтому ясную речь, понятную многим, удобнее всего использовать для действенности речи.

Наиболее часто встречающиеся ошибки.

• Незнание значения слова. Иногда кажется, что если мы насытим сочинение «умными» словами, то оно будет выглядеть более привлекательно, а мы будем казаться умнее и начитаннее.

• Незнание фразеологизмов. К нарушению точности приводит не только незнание значения слов, но и незнание фразеологизмов, их внешнего вида, значений, сочетаемости. Например:

Работать засунув рукава (вместо «засучив»). Подобные ошибки возникают из-за незнания значения того или иного слова.

• Смешение паронимов, то есть однокоренных или сходно звучащих слов с различными значениями. Например: Книга даёт гуманитарное воспитание человеку. (Книга сама по себе не может «давать гуманитарное воспитание», она может быть использована человеком, получающим гуманитарное образование, или человеком, который выражает гуманное отношение к окружающим, почерпнутое из произведений литературы, а значит, из книг.)

• Незнание смысловых оттенков значений слова. Например: Мы пришли к консолидации (вместо к конценсусу). Консенсус — принятие решения на основе общего согласия. Консолидация — укрепление, объединение, интеграция, сплочение чего-либо.

• Нарушение лексической сочетаемости слов. Лексическая сочетаемость — это способность слов стоять рядом друг с другом. Особенно это касается слов с ограниченной лексической сочетаемостью. Очень часто можно услышать «имеет роль» или «играет значение»; постоянно путают сочетания «оплатить проезд» и «заплатить за проезд». Например, учащийся пишет: «Прочитав встречу Онегина и Татьяны», забывая о том, что слово «встреча» не сочетается со словом «прочитав». Прочитать можно либо эпизод, где говорилось о встрече Онегина и Татьяны, либо прочитать сцену встречи Онегина и Татьяны. Кстати, именно такой вариант предложения будет оценен ещё и как грамматическая ошибка (ошибка в построении деепричастного оборота).

• Стилистическая окраска слова. Внимательно следите за наличием жаргонной, просторечной лексики. Нужно заботиться о чистоте речи, то есть об отсутствии в ней лишних слов, слов-паразитов, нелитературных слов (жаргонных, диалектных, нецензурных): значит, так сказать, так, собственно говоря, как бы, типа, как говорится, в общем и т.д.

Стилистические ошибки

Большую часть речевых ошибок составляют ошибки, которые являются собственно стилистическими. Это анахронизмы, то есть ошибки вследствие смешения лексики разных исторических и социальных эпох. Например: Штольц был занят с утра до вечера. У него был ненормированный рабочий день. А Обломов всё время релаксировал.

Собственно стилистическими являются и ошибки в результате смешения выражений разных стилей, немотивированное использование диалектных, просторечных выражений, что противоречит нормам литературного языка: Ленский забил стрелку Онегину. Они потолковали и порешали все вопросы.

Логические ошибки

В словаре мы найдём такое определение логичности речи: «Логичность речи — коммуникативное качество речи, характеризующее соотношение речи и мышления: соответствие общего логического строения текста замыслу автора». Иначе говоря, логичность высказывания — это соответствие всех частей сочинения друг другу, логичное «вытекание» одного из другого.

Надо обязательно проверять текст на логичность. Смотрите внимательно: соотносятся ли аргументы с основной идеей, проблемой текста. Логичные ли вы делаете выводы из аргумента, подходят ли они вашей точке зрения на проблему или просто затрагивают её каким-то образом. С одной стороны, при построении монологического высказывания можно чётко отслеживать логику изложения, а с другой стороны, можно отойти в сторону от основной идеи и уйти от темы или привести не те аргументы для доказательства вашей позиции по основной проблеме текста.

К характерным логическим ошибкам экзаменуемых относятся:

1) нарушение последовательности высказывания;

2) отсутствие связи между частями высказывания;

3) неоправданное повторение высказанной ранее мысли;

4) раздробление микротемы другой микротемой;

5) несоразмерность частей высказывания;

6) отсутствие необходимых частей высказывания и т.п.;

7) нарушение причинно-следственных связей;

8) нарушение логико-композиционной структуры текста.

Текст представляет собой группу тесно взаимосвязанных по смыслу и грамматически предложений, раскрывающих одну микротему. Текст имеет, как правило, следующую логико-композиционную структуру: зачин (начало мысли, формулировка темы), средняя часть (развитие мысли, темы) и концовка (подведение итога).

Но встречаются и тексты без какого-либо из этих компонентов. Текст имеет гибкую структуру, поэтому при его построении есть некоторая свобода выбора форм. Однако она не беспредельна. При написании сочинения необходимо логично и аргументированно строить монологическое высказывание, делать обобщения.

Приведём примеры логических ошибок в разных частях текста.

• Неудачный зачин

Текст начинается предложением, содержащим указание на предыдущий контекст, который в самом тексте отсутствует, например: Наиболее интересным эпизодом в романе «Евгений Онегин» мне кажется та сцена написания письма Татьяной, в которой она признаётся в любви Онегину. Наличие указательных словоформ в данных предложениях, а также степень сравнения (чего-то с чем- то — наиболее) отсылает нас к предшествующему тексту. Таким образом, сами предложения не могут служить началом сочинения.

• Ошибки в средней части

1. В одном предложении сближаются относительно далёкие мысли, например: Наташа очень любила природу, часто пела своим родным и вообще отличалась заботой и милосердием по отношению к окружающим.

2. Отсутствует последовательность в мыслях, нарушен порядок предложений, что приводит к бессвязности, например: Андрей Болконский часто встречался с Пъерот, они подолгу разговаривали о жизни. Вот и сейчас Болконский едет к Ростовым, чтобы кое-что обсудить.

3. Использованы разнотипные по структуре предложения, что ведёт к затруднению понимания смысла, например: Штольц старался разбудить Обломова. Толкать его и возя на санях по городу.

4. Учащийся не различает причину и следствие, часть и целое, смежные явления и другие отношения, например: Так как Онегин долго жил в Петербурге, у него было имение в окрестностях Москвы.

• Неудачная концовка

Вывод продублирован: Итак, Пьер и Андрей — ищущие, постоянно движущиеся натуры. Они всё время пытаются что-то понять и найти в жизни.

Конечно, это не все случаи нарушения логики высказывания, но наиболее частые.

Итак, логичность помогает сделать нашу речь ясной, точной и понятной для собеседника или читателя. Поэтому внимательно следим за этими нормами при написании сочинения-рассуждения, чтобы не потерять баллы.



ОГЭ по русскому языку — Учёба.ру

Я б в нефтяники пошел!

Пройди тест, узнай свою будущую профессию и как её получить.

Химия и биотехнологии в РТУ МИРЭА

120 лет опыта подготовки

Международный колледж искусств и коммуникаций

МКИК — современный колледж

Английский язык

Совместно с экспертами Wall Street English мы решили рассказать об английском языке так, чтобы его захотелось выучить.

15 правил безопасного поведения в интернете

Простые, но важные правила безопасного поведения в Сети.

Олимпиады для школьников

Перечень, календарь, уровни, льготы.

Первый экономический

Рассказываем о том, чем живёт и как устроен РЭУ имени Г.В. Плеханова.

Билет в Голландию

Участвуй в конкурсе и выиграй поездку в Голландию на обучение в одной из летних школ Университета Радбауд.

Цифровые герои

Они создают интернет-сервисы, социальные сети, игры и приложения, которыми ежедневно пользуются миллионы людей во всём мире.

Работа будущего

Как новые технологии, научные открытия и инновации изменят ландшафт на рынке труда в ближайшие 20-30 лет

Профессии мечты

Совместно с центром онлайн-обучения Фоксфорд мы решили узнать у школьников, кем они мечтают стать и куда планируют поступать.

Экономическое образование

О том, что собой представляет современная экономика, и какие карьерные перспективы открываются перед будущими экономистами.

Гуманитарная сфера

Разговариваем с экспертами о важности гуманитарного образования и областях его применения на практике.

Молодые инженеры

Инженерные специальности становятся всё более востребованными и перспективными.

Табель о рангах

Что такое гражданская служба, кто такие госслужащие и какое образование является хорошим стартом для будущих чиновников.

Карьера в нефтехимии

Нефтехимия — это инновации, реальное производство продукции, которая есть в каждом доме.

Онлайн тест по Русскому языку по теме Точность речи

Точность, как и логичность, является одним и наиболее важных свойств речи. Человек может похвастаться таковым, если он хорошо владеет языком, способен кратко и четко формулировать мысль, подбирать нужные и точные слова. Помимо этого, фразы не должны быть двусмысленными, чтобы собеседнику не приходилось додумываться, что же именно хотел сказать его оппонент.

Самой распространенной причиной неточности является недостаточная информированность говорящего. Абсолютно все знают, как это происходит – автор сообщения или доклада, будь то школьник, студент или любой другой человек, совершенно не понимает суть найденной им информации. А рассказать-то нужно, ведь на кону хорошая оценка за четверть, семестр или это способ продвижения по карьерной лестнице. Представим ситуацию – проходит важное совещание, и одному из сотрудников нужно дать отчет о проделанной работе, а он не совсем понимает, как вообще это делается. Человек не поинтересовался некоторыми нюансами, апеллировал неточными фактами, отсюда вытекает то, что он говорит не по делу, льет воду, как говорится. Проще говоря, увиливает от прямых ответов. Другой ошибкой может быть неумение применять синонимы. В русском языке не все они нейтральны, бывают и те, которые применяются лишь в конкретных ситуациях. Применение неудачных синонимов мешает понимать смысл высказывания.

Что ж, а насколько точно вы умеете выражать мысли? Если с этим нет никак проблем, то у вас не возникнет трудностей при прохождении небольшого тестирования на данную тему. В нем представлено пять вопросов с несколькими вариантами ответов. Каждый вопрос затрагивает тот или иной важный аспект, способный наиболее точно проверить ваши знания.



Пройти тест онлайн


Может быть интересно


Ещё никто не оставил комментария, вы будете первым.

Написать комментарий

Спасибо за комментарий, он будет опубликован после проверки

Как повысить точность преобразования речи в текст

Трудно представить более катастрофический сценарий для человека, транскрибирующего аудио или видео: вы завершили интервью и записали отличные цитаты для своего контента, но когда дело доходит до преобразования речи в текста, вы обнаружите, что качество вашей записи слишком низкое, чтобы его можно было расшифровать. Вся эта работа в конце концов превращается в непригодную для использования запись.

Если вы почувствовали укол этого сценария, значит, вы не одиноки — и может быть трудно избавиться от этого.Даже когда вы чувствуете, что сделали идеальную запись, вы никогда не слишком далеко от этого надоедливого ощущения, что со звуком что-то пошло не так — это бремя, которое на самом деле не снимается, пока не придет время. расшифруйте ваш файл.

Раньше мы много говорили о транскрипции ИИ и преобразовании речи в текст. Преимущества, которые дает транскрипция AI с точки зрения производительности и экономии времени, а также обнаружения нескольких выступающих и функций редактирования, значительно улучшают рабочую жизнь профессионалов отрасли.Однако даже лучшие автоматизированные сервисы не идеальны, точно так же, как ручные расшифровщики неизбежно совершают ошибки при расшифровке аудио- и видеоконтента.

Есть несколько вещей, которые могут отрицательно повлиять на точность автоматической расшифровки стенограммы, включая людей, говорящих в одно и то же время (повторный разговор) и фоновый шум во время записи. Хорошая новость заключается в том, что многие проблемы, с которыми мы сталкиваемся при получении идеального, кристально чистого преобразования аудио в текст, легко предотвратить.

По мере развития технологий искусственного интеллекта, связанных с преобразованием речи в текст, будет расти и точность транскрипции.Однако до тех пор, пока не наступит день, когда машины смогут генерировать стенограммы со 100% точностью, вы можете сделать кое-что, чтобы создать улучшенную среду и повысить точность автоматической транскрипции для непрерывной транскрипции.

Среда записи для наилучшего преобразования речи в текст

Перед загрузкой записи для мощного языкового алгоритма Trint для преобразования речи в текст вас просят отметить несколько полей, чтобы подтвердить качество файла. Этот контроль качества представляет собой контрольный список, чтобы гарантировать, что полученная транскрипция будет максимально точной.

Сначала пользователей спрашивают, свободен ли фон от шума. Возможно, это самая большая ловушка, в которую могут попасть пользователи, и в которую попадают даже самые компетентные профессионалы.

Многие факторы окружающей среды находятся вне вашего контроля. Если вы проводите журналистское интервью, найти хорошее взаимное расположение будет сложно. Многим профессионалам нравится обезоруживающая привлекательность кофейни или кафе, которая помогает собеседнику расслабиться и почувствовать себя достаточно комфортно, чтобы говорить долго, но в таких общественных местах повсюду слышен фоновый шум.

Если диалог, который вы записываете, не может происходить в уединенном месте, например дома или в офисе, убедитесь, что вы нашли место, которое, вероятно, не будет занято. У Google есть отличный алгоритм, который прогнозирует, насколько загружены определенные общественные места, и если вы можете найти место для встреч в то время, когда не ожидается, что будет слишком многолюдно, есть хороший шанс, что не будет никакого надоедливого фонового шума. в пути — или, по крайней мере, не так сильно.

Также важно расположить микрофон достаточно близко, чтобы записать разговор с минимальными помехами.Поощряйте собеседника четко говорить в устройство, которое вы используете для записи, и помните, что его слова — самая ценная вещь в этой ситуации — микрофон следует располагать там, где лучше всего записывать сначала их голос, а потом — ваш. . Когда приходит время преобразовывать речь в текст, многое определяет расстояние до микрофона.

Во многих других профессиях вам может не повезти найти тихую обстановку для записи чьих-то высказываний или мыслей; но не волнуйтесь, есть еще способы помочь оптимизировать звук после записи их слов в аудиофайл.

К счастью, программное обеспечение, такое как Audacity, всегда под рукой, чтобы помочь, если фоновый шум вызовет затруднения. Audacity — это бесплатная загрузка с открытым исходным кодом, которая специализируется на редактировании аудиофайлов. Благодаря функциям программы вы можете выбрать «шумоподавление», чтобы повысить резкость записи и дать ей наилучшие шансы на точную транскрипцию без прерываний.

По одному человеку

Еще один отличный способ сделать ваши записи максимально четкими — это уменьшить вероятность перехвата.

Overtalk происходит, когда два голоса говорят одновременно, иногда когда интервьюируемый начинает отвечать на вопрос до того, как интервьюер закончит задавать вопросы. Это также обычное явление, когда записываются голоса большего количества людей.

Лучший способ бороться с этим — задавать короткие острые вопросы и просить собеседника уточнить, нужен ли вам более развернутый ответ. Если вы записываете мысли и высказывания двух или более людей одновременно, полезно задавать вопросы одному человеку за раз, а в случае повторного разговора задать дополнительный вопрос интервьюируемому, скорее всего, вы получить цитату из.

Опять же, иногда невозможно контролировать получаемые ответы, и служба электронной транскрипции неизбежно запутается, если идентифицирует более одного голоса одновременно. Но, к счастью, лучшая речь для текстовых служб поставляется с редактором с метками времени, который позволяет вам слушать себя и расшифровывать отрывки, в которых несколько голосов входят в уравнение.

Наконец, мы подошли к другому вопросу, затрудняющему преобразование речи в текст: сильным региональным диалектам.Мы уверены, что если у вас есть опыт преобразования голоса в текст, значит, вы имели дело с расшифровкой различных диалектов и акцентов. Сколько времени вы потратили на запись, когда вам приходилось постоянно перематывать один и тот же трехсекундный отрывок, чтобы понять, какое слово произносится?

Как и следовало ожидать, нет четкого решения, когда дело доходит до преодоления проблем с записью людей с сильным акцентом.

Великая особенность человеческой психики состоит в том, что нам нравится подражать другим, чтобы наладить подсознательную связь с другим человеком или группой людей.Когда вы спрашиваете кого-то и записываете его ответы, отличный способ побудить его потерять акцент — это выбрать для себя более формальный тон.

Однако у нас в Trint есть альтернативный подход к английской транскрипции: позвольте нам ввести английский — со всеми акцентами. Эта мощная функция повышает точность транскрипции AI, когда в аудиофайле есть более одного акцента, а также с сильными региональными акцентами.

Хотя у автоматизированной транскрипции впереди светлое будущее, иногда результаты могут быть омрачены помехами.С помощью этого пошагового руководства по некоторым из самых неприятных проблем, с которыми сталкивается программное обеспечение для транскрипции, вы можете немного приблизить будущее бесшовной транскрипции.

Начните бесплатную пробную версию Trint сегодня

Тест на точность преобразования речи в текст

— результаты за июнь 2020 г.

[Обновление от 10.09.20 : у нас есть новое сообщение в блоге о результатах теста, проведенного в сентябре 2020 г. . Мы расширили набор тестов с 44 файлов до 64 файлов, и распознаватель Voicegain теперь лучше, чем распознаватель Amazon в тестовом наборе данных.]

«Какова точность вашего распознавателя?»

Это вопрос, который нам часто задают наши потенциальные клиенты. Часто мы отвечаем «это зависит от обстоятельств» и у нас возникает ощущение, что другая сторона думает, что «должно быть очень плохо, если они не дают прямого ответа». Однако «это зависит от обстоятельств» — действительно правильный ответ. Точность автоматического распознавания речи (ASR) во многом зависит от звука, и эффект немалый. В принципе, точность может быть повсюду в зависимости от таких факторов, как:

  • Соответствует ли речь правильной грамматике или говорящий придумывает то, что говорит.Подготовленные речи будут иметь лучшие, то есть более низкие оценки WER (коэффициент ошибок в словах) по сравнению с незашифрованной речью.

  • О чем идет речь. Редкие и непонятные слова или словосочетания, например люди или другие имена, усложнят жизнь NLM (модель естественного языка).

  • Есть более одного динамика? Они постоянно переключаются или даже обсуждают друг друга.

  • Есть ли в фоновом режиме музыка — очень часто используется для производства YouTube.

  • Есть ли фоновый шум? Что за шум?

  • Части речи звучат необычно медленно или быстро?

  • Есть ли в записи комнатная реверберация или эхо?

  • Очень низкая громкость записи. Есть ли различия в громкости записи (например, записывающее устройство помещено на край очень длинного стола)

  • Плохое качество записи, например, из-за кодека или безумных уровней сжатия архивов.

  • и т.д. и т.д. распознаватель речи. В качестве тестового набора можно выбрать набор аудиофайлов, которые точно представляют спектр речи, с которой распознаватель столкнется в ожидаемых случаях использования. Для каждого речевого аудиофайла из набора можно получить 100% точную расшифровку стенограммы / справки.После этого все можно автоматизировать — расшифровать каждый файл на оцениваемых распознавателях, вычислить WER по ссылке для каждой из сгенерированных расшифровок и сопоставить результаты. Объединенные результаты представят четкую картину того, как распознаватели работают с конкретным звуком речи, который нас интересует. Если вы собираетесь часто повторять этот процесс, например, для оценки новых кандидатов на маркере распознавания, хорошо стандартизировать набор тестов, в основном создавая повторяемый эталонный тест, на который можно будет ссылаться в будущем.

    Наш тест

    Результаты тестов, которые мы здесь представляем, несколько отличаются от тестов или тестов, основанных на сценариях использования. Поскольку мы создаем общий распознаватель для неопределенного варианта использования, мы намеренно решили использовать очень широкий набор аудиофайлов. Вместо того, чтобы собирать тестовые файлы самостоятельно, мы решили использовать набор данных, описанный в статье Джейсона Кинкейда « Какая служба автоматической транскрипции является наиболее точной? — 2018 » от сентября 2018 года.В статье представлено сравнение распознавателей речи от различных компаний, использующих набор из 48 видеороликов YouTube (для каждого из которых требуется 5 минут звука). К тому времени, когда мы решили провести повторное тестирование теста Джейсона, 4 видео уже были недоступны, поэтому наш тест, представленный здесь, использует данные только из 44 видео.

    Мы сравнили результаты, представленные Джейсоном, с результатами большой тройки — Google, Amazon и Microsoft — распознавателей по состоянию на июнь 2020 года. Конечно, мы также включили наш распознаватель Voicegain, потому что мы хотели увидеть, как мы сочетаемся с этими .Все протестированные распознаватели используют Deep Neural Networks. Распознаватель речи Voicegain работал на облачной платформе Google с использованием графических процессоров Nvidia T4. Все распознаватели были запущены с настройками по умолчанию, и не использовались подсказки или модели языка пользователя.

    Важно отметить, что ни один из файлов тестов не включен в обучающий набор, который использует Voicegain. Ни другой звук из динамиков из файлов тестов, ни тот же контент, но не воспроизводимый другими динамиками.

    Итак, каковы результаты? У кого лучший распознаватель?

    Опять же, лучший распознаватель — неправильный вопрос, потому что все зависит от вашего фактического речевого звука, в котором он используется.Но основные результаты тестирования на 44 файлах следующие:

    • Каждый распознаватель улучшил . Наибольшее улучшение () в среднем WER () произошло благодаря Microsoft Speech to Text.

    • Лучшим распознавателем в нашем наборе данных был Google Speech to Text — Enhanced (видео) , но новый Microsoft Speech to Text занимает второе место.

    • Принимая во внимание цену, Microsoft может быть объявлена ​​лучшей покупкой

    • Распознаватель Voicegain определенно Best Value .

    • Google Speech to Text — Standard, хотя и несколько улучшен, все же явно худший результат для набора данных.

    • Единственная неверная точка данных для Google Enhanced (видео) реальна. Мы провели повторный тест с файлом и получили тот же результат. Старый распознаватель Google Enhanced не имел проблем с этим файлом.

    Как складывается распознаватель Voicegain?

    Вот наши мысли и некоторые детали:

    • До октября 2019 года обучающий набор, который мы использовали для обучения нашего распознавателя, был относительно неизменным.Более того, наш обучающий набор был сильно смещен в сторону некоторых категорий речевого звука. Вы можете видеть это на диаграмме, например, по тому факту, что наши лучшие результаты были лучше, чем у старого Amazon Transcribe, но наши худшие результаты были немного хуже, чем у Amazon Transcribe.

    • Основываясь на первых результатах теста, мы проанализировали, какой тип звука доставляет нам проблемы, и собрали данные с конкретными характеристиками, но с очень широким источником (чтобы избежать обучения тестированию), чтобы сделать наш распознаватель более надежным.Эти усилия окупились, и вы можете видеть, что теперь распространение WER распознавателя Voicegain намного шире и в целом теперь очень близко к новому Amazon Transcribe.

    • Общее усиление голоса — это наиболее улучшенный распознаватель. Чуть более 6 месяцев назад мы были лучше, чем Google Standard, но сейчас мы закрываем Amazon Transcribe. Это результат как изменений в архитектуре нейронной сети, так и значительного увеличения времени набора обучающих данных.

    • Если вникнуть в детали, распознаватель Voicegain был лучше, чем новый Amazon на 11 из 44 файлов, лучше, чем Google Video на 5 файлах, и лучше, чем Microsoft, на 5 из 44 файлов.

    • Если учесть цену, мы считаем, что Voicegain представляет собой большую ценность. Мы поговорили с клиентами, которые не выполняли крупномасштабную транскрипцию из-за высокой стоимости трех больших платформ, и наша низкая цена внезапно сделала новые способы использования транскрипции жизнеспособными.

    Мы приглашаем всех протестировать нашу платформу и посмотреть, как она работает с типами речевого звука, которые важны для ваших сценариев использования.

    Любое программное обеспечение, которое может помочь мне в тестировании распознавателей?

    У нас есть открытый исходный код для ключевого компонента нашего набора тестов, утилиты python transcribe_compare.Он доступен здесь: https://github.com/voicegain/transcription-compare под лицензией MIT.

    Это полезно для автоматического тестирования производительности, но также может выводить данные в HTML-файл, который можно просматривать в веб-браузере. Мы часто используем его таким образом, чтобы вручную просмотреть ошибки транскрипции или различия в ошибках между двумя распознавателями или версиями распознавателей.

    Как я могу проверить голосовое усиление?

    Вы можете зарегистрировать учетную запись платформы Voicegain в Интернете по адресу https: // portal.voicegain.ai/signup

    Для создания учетной записи Voicegain кредитная карта не требуется. Каждая учетная запись включает уровень бесплатного пользования на 600 минут. Платформа Voicegain предлагает веб-API, которые можно вызывать из сценария тестирования. В качестве альтернативы, если вы предпочитаете проводить тестирование вручную, вы можете загрузить аудиофайлы на наш веб-портал и получить таким образом расшифровку.

    Мы рассчитываем наверстать упущенное в ближайшее время

    Мы все еще находимся в процессе интенсивного сбора данных, и обучение еще не закончено.Мы наблюдаем постоянное совершенствование нашего распознавателя: новые улучшенные версии акустической модели запускаются в производство примерно два раза в месяц. Мы опубликуем обновленные результаты тестов в нашем блоге через несколько месяцев.

    Пользовательская акустическая модель

    У нас запланирована еще одна запись в блоге, в которой будет дана количественная оценка выгоды, которую можно ожидать от использования дополнительных пользовательских данных для обучения акустической модели, используемой в распознавателе. Мы выбрали большой набор данных с очень специфическим английским акцентом, который в настоящее время имеет более высокий WER.Мы сообщим о влиянии обучения на WER на таком наборе данных. Мы количественно оценим улучшение на основе размера набора данных и продолжительности обучения.

    Voicegain предоставляет простые в использовании инструменты, которые позволяют пользователям создавать свои собственные акустические модели. Этот предстоящий пост даст четкое представление о том, каких улучшений ожидать и сколько данных необходимо, чтобы повлиять на снижение WER.

    Список литературы

    Свяжитесь с нами

    Если у вас есть какие-либо вопросы относительно этой статьи или нашей платформы и распознавателя, вы можете связаться с нами по info @ voicegain.ai

    Как сравнить точность речевого механизма

    ВВЕДЕНИЕ В SPEECH TECH

    Речевая технология — это игра в «то, что, скорее всего, здесь было сказано», и победителем становится речевой движок, который может предсказать результаты наиболее точно. Есть два основных метода создания программного обеспечения для распознавания речи; речевые движки с фонетическим и текстовым / фиксированным словарным запасом. Первое, что нужно определить при сравнении точности речевых машин, — это тип, который вы оцениваете.Речевые механизмы на основе фонетики построены с меньшим набором грамматики и используют фонемы в качестве основы для распознавания и поиска, в то время как механизмы фиксированного словарного запаса построены с использованием большего, фиксированного, предварительно определенного словаря. Чтобы узнать больше о различии этих двух методов, ознакомьтесь с нашим предыдущим блогом; Фонетическая и речевая технология с фиксированным словарным запасом.

    Как правило, фонетические движки, как правило, используются только в очень узких случаях, в то время как движки, основанные на тексте / большом словаре, как правило, более продвинуты.Каждый вариант использования индивидуален, но при запуске этого процесса помните о функциях, которые будут иметь для вас наибольшее значение.

    ЧТО СЛЕДУЕТ ИСКАТЬ?

    ‘WER’ (Word Error Rate) и ‘Word Accuracy’ — лучшие измерения для сравнения двух значений точности, обычно это значения в% и получаются путем сравнения эталонной расшифровки с расшифровкой ASR (или гипотезой) для аудио. . Используемый алгоритм называется расстоянием Левенштейна, оно вычисляется путем согласования ссылки с гипотезой и подсчета слов, которые являются вставками, удалениями и заменами (и правильными). В основном вы будете использовать этот метод для сравнения машинной транскрипции из каждого речевого движка с идеальной человеческой транскрипцией этого файла.

    Для точности определения ключевых слов, которую важно измерить, поскольку это то, для чего многие люди используют транскрипцию, вы должны использовать точность и отзывчивость. Это стандартные меры, используемые в науке поиска информации. Напоминание — это процент найденных слов, которые вы ищете (80% означает, что мы обнаружили, что 8 из 10 были найдены, а 2 пропущены).Точность — это процент совпадений, которые мы обнаружили, на самом деле были действительными совпадениями (таким образом, 90% означает, что 9 результатов в списке были истинными, а один — ложноположительным). Это важно измерять в дополнение к WER и точности слов, поскольку наиболее важные слова, которые нужно правильно расшифровать, — это термины, которые вам нужно найти или найти. Если речевой механизм не может распознать X finity или C omcast , и это важные термины для вашего варианта использования, другая точность не имеет значения.

    СОВЕТЫ ДЛЯ НАИЛУЧШИХ РЕЗУЛЬТАТОВ:

    Оптимизируйте свои стенограммы

    При сравнении стенограмм можно провести некоторую предварительную обработку текста как в справочной записи, так и в стенограмме гипотезы, чтобы их было легче сравнивать.Например, преобразование всего в нижний регистр, удаление поворотов и знаков препинания может помочь в сравнении исходной точности, особенно когда результаты очень близки. Точность справочных записей становится все более важным фактором по мере повышения уровня точности. На низких уровнях точности эти ошибки достаточно малы, чтобы потеряться в шуме.

    Также могут быть проблемы со словоформами, которые являются незначительными факторами при низких уровнях точности, но становятся более серьезной проблемой при сравнении более высоких уровней точности.Например:

    • Числовые форматы (10 или десять)
    • Форматы сокращений ATT или AT&T
    • Формы слов / варианты написания (voicebase.com или voicebase dot com)

    Лучшее, что можно сделать, — это определить все эти возможные термины в вашей записи (или справочная стенограмма) и выполните поиск и замените все идентифицированные термины, чтобы сделать их единообразным форматом.

    КАК НАЧАТЬ СРАВНЕНИЕ РЕЧНЫХ ДВИГАТЕЛЕЙ

    Как только вы преодолеете эти препятствия и узнаете, на что обращать внимание, вы будете готовы приступить к тестированию, выполнив следующие 6 шагов:

    Шаг 1. Определите правильные записи

    Найдите набор записей, представляющих звук, с которым вы будете работать.Убедитесь, что в этом контенте есть все уникальные термины и числа, которые вам нужно будет определить, чтобы получить лучшее сравнение для вашего бизнес-сценария. Этот набор данных должен быть лучшим представлением того, как звучат ваши настоящие звонки.

    Что включать в примеры звонков:

    • Номера счетов
    • Номер телефона
    • Данные PCI / SSN / Адрес
    • Сокращения
    • Торговые наименования

    Шаг 2: НЕ СЖАТЬ

    Для достижения наилучших результатов не сжимайте, не повышайте и не понижайте дискретизацию звука.Сжатие снизит уровень точности каждого двигателя и даст плохие результаты. Чем выше скорость передачи данных и чем выше частота, тем лучше результаты. Например; записи с частотой ниже 8 кГц имеют тенденцию давать гораздо худший результат. Для получения наилучших результатов рекомендуется установить параметры телефонии и записи на 16 кГц, если это возможно.

    Подробнее о сжатии аудиофайлов и типах кодеков можно узнать здесь.

    Шаг 3. Сравнение человеческих транскриптов

    Для каждого тестового файла вам понадобятся текстовые справочные расшифровки.Обратите внимание, что это отличается от человеческих тегов или оценок. Это должны быть полностью читаемые транскрипции, а не просто отметки о том, что было сказано. Есть много вариантов поставщиков для этой услуги, например Критерии вызова.

    Шаг 4: Отдельные машинные стенограммы

    Для всех тестируемых механизмов автоматического распознавания речи (ASR) вам необходимо получить текстовые расшифровки для каждого тестового файла. По сути, вам нужно пропустить каждый файл через каждый тестируемый вами речевой движок и загрузить простой.TXT-файл результатов.

    Шаг 5: Проведите сравнительные испытания

    Это можно сделать с помощью SCLITE, который является общедоступным программным обеспечением NIST. SCLITE является частью набора инструментов для оценки распознавания речи (SCTK). Если у вас нет доступа к этому программному обеспечению, инженеры по продажам VoiceBase могут обработать результаты ваших выступлений от разных поставщиков через наши системы оценки, чтобы предоставить вам результаты.

    Шаг 6. Просмотрите результаты

    Сравните плюсы и минусы приведенных выше данных; WER, точность слов, скорость результатов и стоимость, чтобы определить, какое распознавание речи соответствует потребностям вашего контента.

    Вот еще несколько характеристик, которые вы также можете сравнить:

    • Редактирование (возможность удаления конфиденциальных данных, таких как PCI, PII, SSN)
    • Пользовательский словарь (возможность добавлять акронимы, местоимения и имена в уникальный словарь на лету)
    • Автоматическая классификация / расположение вызовов (возможность для обнаружения событий в записи, таких как горячие лидеры, расстроенный клиент, назначенная встреча или агент, которому требуется обучение).
    • Возможность запросов — Можете ли вы создавать собственные запросы для управления данными?
    • Форматирование чисел (номера телефонов, адреса, почтовые индексы, SSN и т. Д.)

    ЧТО ВЫ

    ДЕЙСТВИТЕЛЬНО ИЩЕТЕ?

    Многие компании ищут транскрипцию и преобразование речи в текст, чтобы найти что-то еще в своих записях; рассерженные клиенты, назначенные встречи, грубые агенты и т. д.Транскрипция — это средство для достижения цели, средство найти слово, фразу или событие, которое вас действительно интересует. Если это так, вместо измерения точности измерьте, насколько хорошо речевые технологии могут определять важные события в вашей устной речи. контент, такой как «клиенты собираются отказаться» или «горячие лиды». Потому что не имеет значения, насколько хороша стенограмма, когда вы заботитесь о том, чтобы заметить, на самом деле события, которые трудно найти в любой стенограмме. Интересно, как это работает? Ниже приведено небольшое видео с описанием Predictive Insights:

    .

    Мощные идеи возникают, когда вы можете выявить ПОЧЕМУ за ключевыми словами и событиями телефонных звонков.Отсюда вы можете начать понимать и прогнозировать поведение клиентов, оптимизировать процессы и принимать более обоснованные бизнес-решения.

    Хотите узнать больше о решениях VoiceBase для распознавания речи и анализа речи? Свяжитесь с нами здесь, чтобы организовать демо-звонок сегодня, или посетите наш веб-сайт для получения дополнительной информации.

    Оценивайте и повышайте точность настраиваемой речи — Речевой сервис — Azure Cognitive Services

    • Читать 8 минут

    В этой статье

    В этой статье вы узнаете, как количественно измерить и повысить точность моделей преобразования речи в текст Microsoft или ваших собственных пользовательских моделей.Аудио + данные транскрипции, помеченные человеком, необходимы для проверки точности, и необходимо обеспечить репрезентативное аудио от 30 минут до 5 часов.

    Оценить точность пользовательской речи

    Промышленным стандартом для измерения точности модели является коэффициент Word Error Rate (WER). WER подсчитывает количество неверных слов, выявленных при распознавании,
    затем делится на общее количество слов, содержащихся в расшифровке стенограммы, помеченной человеком (показано ниже как N). Наконец, это число умножается на 100% для расчета WER.

    Неправильно идентифицированные слова делятся на три категории:

    • Вставка (I): слова, которые неправильно добавлены в текст гипотезы
    • Удаление (D): слова, не обнаруженные в расшифровке гипотезы
    • Замена (S): слова, которые были заменены между ссылкой и гипотезой

    Вот пример:

    Если вы хотите реплицировать измерения WER локально, вы можете использовать sclite из SCTK.

    Устранение ошибок и улучшение WER

    Вы можете использовать WER по результатам машинного распознавания, чтобы оценить качество модели, которую вы используете со своим приложением, инструментом или продуктом. WER 5% -10% считается хорошим качеством и готов к использованию. WER в 20% является приемлемым, однако вы можете рассмотреть возможность дополнительного обучения. WER 30% или более свидетельствует о низком качестве и требует настройки и обучения.

    Важно, как распределяются ошибки. Когда встречается много ошибок при удалении, это обычно происходит из-за слабого звукового сигнала.Чтобы решить эту проблему, вам необходимо собрать аудиоданные ближе к источнику. Ошибки вставки означают, что звук был записан в шумной среде и могут присутствовать перекрестные помехи, вызывающие проблемы распознавания. Ошибки замены часто встречаются, когда недостаточный образец предметно-ориентированных терминов был предоставлен либо в виде транскрипции, помеченной человеком, либо в виде связанного текста.

    Анализируя отдельные файлы, вы можете определить, какие типы ошибок существуют и какие ошибки являются уникальными для конкретного файла.Понимание проблем на уровне файлов поможет вам добиться улучшений.

    Создать тест

    Если вы хотите протестировать качество базовой модели преобразования речи в текст Microsoft или пользовательской модели, которую вы обучили, вы можете сравнить две модели бок о бок, чтобы оценить точность. Сравнение включает WER и результаты распознавания. Обычно пользовательская модель сравнивается с базовой моделью Microsoft.

    Для оценки моделей рядом:

    1. Войдите на портал Custom Speech.
    2. Перейдите к Преобразование речи в текст> Пользовательская речь> [название проекта]> Тестирование .
    3. Щелкните Добавить тест .
    4. Выбрать Оценить точность . Дайте тесту имя, описание и выберите свой набор данных аудио + транскрипции, помеченный людьми.
    5. Выберите до двух моделей, которые вы хотите протестировать.
    6. Щелкните Создать .

    После успешного создания теста вы можете сравнить результаты бок о бок.

    Параллельное сравнение

    После завершения теста, обозначенного изменением статуса на Успешно, , вы найдете номер WER для обеих моделей, включенных в ваш тест. Щелкните имя теста, чтобы просмотреть страницу с подробными сведениями о тестировании. На этой странице сведений перечислены все высказывания в вашем наборе данных с указанием результатов распознавания двух моделей вместе с транскрипцией из представленного набора данных. Чтобы проверить параллельное сравнение, вы можете переключать различные типы ошибок, включая вставку, удаление и замену.Прослушивая звук и сравнивая результаты распознавания в каждом столбце, в котором показана транскрипция, помеченная человеком, и результаты для двух моделей преобразования речи в текст, вы можете решить, какая модель соответствует вашим потребностям и где требуется дополнительное обучение и улучшения.

    Повышение точности настраиваемой речи

    Сценарии распознавания речи различаются в зависимости от качества звука и языка (словарного запаса и стиля речи). В следующей таблице рассматриваются четыре распространенных сценария:

    Сценарий Качество звука Словарь Разговорный стиль
    Колл-центр Низкий, 8 кГц, может быть 2 человека на 1 аудиоканал, возможно сжатие Узкий, уникальный для домена и продуктов Разговорный, слабо структурированный
    Голосовой помощник (например, Cortana или сквозное окно) High, 16 кГц Entity Heavy (названия песен, продукты, расположение) Четко сформулированные слова и фразы
    Диктовка (мгновенное сообщение, заметки, поиск) High, 16 кГц различные Заметки
    Видео с субтитрами Разнообразные, в том числе использование микрофона, добавленная музыка Разнообразные, из собраний, речей, музыкальных текстов Прочитано, подготовлено или слабо структурировано

    Различные сценарии дают результаты разного качества.В следующей таблице показано, как содержание этих четырех сценариев влияет на коэффициент ошибок по словам (WER). В таблице показано, какие типы ошибок наиболее распространены в каждом сценарии.

    .

    Сценарий Качество распознавания речи Ошибки вставки Ошибки удаления Ошибки замены
    Колл-центр Средний (<30% WER) Низкий, кроме случаев, когда другие люди говорят в фоновом режиме Может быть высоким.В call-центрах может быть шумно, а перекрывающиеся динамики могут сбить с толку модель Средний. Эти ошибки могут быть вызваны продуктами и именами людей
    Голосовой помощник Высокое (может быть <10% WER) Низкий Низкий Средний, из-за названий песен, названий продуктов или местоположения
    Диктант Высокое (может быть <10% WER) Низкий Низкий Высокая
    Видео с субтитрами Зависит от типа видео (может быть <50% WER) Низкий Может быть высоким из-за музыки, шумов, качества микрофона Жаргон может вызывать эти ошибки

    Определение компонентов WER (количество ошибок вставки, удаления и замены) помогает определить, какие данные следует добавить для улучшения модели.Используйте портал Custom Speech, чтобы просмотреть качество базовой модели. Портал сообщает о частоте ошибок при вставке, замене и удалении, которые объединены в показатель качества WER.

    Улучшить распознавание модели

    Вы можете уменьшить количество ошибок распознавания, добавив обучающие данные на портале Custom Speech.

    Запланируйте поддержку вашей пользовательской модели, периодически добавляя исходные материалы. Для вашей пользовательской модели требуется дополнительное обучение, чтобы быть в курсе изменений в ваших объектах. Например, вам может потребоваться обновление названий продуктов, названий песен или новых мест обслуживания.

    В следующих разделах описывается, как каждый вид дополнительных обучающих данных может уменьшить количество ошибок.

    Добавить связанные текстовые предложения

    При обучении новой пользовательской модели начните с добавления связанного текста, чтобы улучшить распознавание слов и фраз, относящихся к предметной области. Связанные текстовые предложения могут в первую очередь уменьшить количество ошибок подстановки, связанных с неправильным распознаванием общих слов и слов, относящихся к предметной области, за счет их отображения в контексте. Доменные слова могут быть необычными или выдуманными, но их произношение должно быть простым, чтобы их можно было распознать.

    Примечание

    Избегайте связанных текстовых предложений, содержащих шум, например нераспознаваемые символы или слова.

    Добавить аудио с расшифровками, помеченными людьми

    Аудио с расшифровками, помеченными людьми, обеспечивает наибольшее повышение точности, если звук исходит из целевого варианта использования. Образцы должны охватывать весь объем речи. Например, в колл-центр розничного магазина в летние месяцы больше всего звонят по поводу купальных костюмов и солнцезащитных очков. Убедитесь, что ваш образец включает полный объем речи, которую вы хотите обнаружить.

    Обратите внимание на эти детали:

    • Тренировка со звуком принесет наибольшую пользу, если звук также трудно понять людям. В большинстве случаев вам следует начинать обучение с простого использования связанного текста.
    • Если вы используете один из наиболее часто используемых языков, например, английский (США), велика вероятность того, что вам не придется тренироваться с аудиоданными. Для таких языков базовые модели уже предлагают очень хорошие результаты распознавания в большинстве сценариев; вероятно, достаточно потренироваться со связанным текстом.
    • Custom Speech может захватывать только контекст слова, чтобы уменьшить количество ошибок замены, но не ошибок вставки или удаления.
    • Избегайте сэмплов, которые содержат ошибки транскрипции, но содержат разное качество звука.
    • Избегайте предложений, не относящихся к вашей проблемной области. Несвязанные предложения могут навредить вашей модели.
    • Когда качество расшифровок различается, вы можете дублировать исключительно хорошие предложения (например, отличные транскрипции, содержащие ключевые фразы), чтобы увеличить их вес.
    • Служба речи будет автоматически использовать расшифровку стенограммы для улучшения распознавания слов и фраз, относящихся к предметной области, как если бы они были добавлены как связанный текст.
    • Для завершения операции обучения может потребоваться несколько дней. Чтобы повысить скорость обучения, обязательно создайте подписку на речевую службу в регионе, где есть специальное оборудование для обучения.

    Примечание

    Не все базовые модели поддерживают обучение со звуком. Если базовая модель не поддерживает это, служба речи будет использовать только текст из стенограммы и игнорировать звук.См. Раздел «Языковая поддержка» для получения списка базовых моделей, поддерживающих обучение с использованием аудиоданных. Даже если базовая модель поддерживает обучение с использованием аудиоданных, служба может использовать только часть звука. Тем не менее он будет использовать все стенограммы.

    Примечание

    В случаях, когда вы меняете базовую модель, используемую для обучения, и у вас есть звук в наборе обучающих данных, всегда проверяет, поддерживает ли новая выбранная базовая модель обучение с аудиоданными. Если ранее используемая базовая модель не поддерживала обучение с использованием аудиоданных, а набор обучающих данных содержит звук, время обучения с новой базовой моделью резко увеличится, и может легко увеличиться с нескольких часов до нескольких дней и более.Это особенно верно, если ваша подписка на речевую службу составляет , а не в регионе, где есть специальное оборудование для обучения.

    Если вы столкнулись с проблемой, описанной в предыдущем абзаце, вы можете быстро сократить время обучения, уменьшив количество звука в наборе данных или полностью удалив его и оставив только текст. Последний вариант настоятельно рекомендуется, если ваша подписка на речевую службу составляет , а не в регионе, где есть специальное оборудование для обучения.

    Добавить новые слова с произношением

    Выдуманные или узкоспециализированные слова могут иметь уникальное произношение.Эти слова можно распознать, если слово можно разбить на более мелкие слова, чтобы их произносить. Например, чтобы распознать Xbox , произнесите X box . Такой подход не повысит общую точность, но может повысить узнаваемость этих ключевых слов.

    Примечание

    В настоящее время этот метод доступен только для некоторых языков. Подробнее см. Настройку произношения в таблице преобразования речи в текст.

    Источники по сценарию

    В следующей таблице показаны сценарии распознавания голоса и перечислены исходные материалы, которые следует учитывать в рамках трех категорий обучающего контента, перечисленных выше.

    Сценарий Предложения по родственному тексту Аудио + транскрипты, меченные человеком Новые слова с произношением
    Колл-центр маркетинговые документы, веб-сайт, обзоры продуктов, связанные с деятельностью call-центра звонков в колл-центр записаны людьми терминов с неоднозначным произношением (см. Xbox выше)
    Голосовой помощник перечислить предложения, используя все комбинации команд и сущностей записывать голосовые команды в устройство и транскрибировать их в текст названия (фильмы, песни, продукты) с уникальным произношением
    Диктант письменный ввод, например мгновенные сообщения или электронная почта аналогично выше аналогично выше
    Видео с субтитрами Сценарии телешоу, фильмы, маркетинговый контент, видеообзоры точные расшифровки видеозаписей аналогично выше

    Следующие шаги

    Дополнительные ресурсы

    Распознавание голоса по-прежнему имеет значительные расовые и гендерные предубеждения

    Как и в случае с распознаванием лиц, поиском в Интернете и даже с дозаторами мыла, распознавание речи — это еще одна форма ИИ, которая хуже работает с женщинами и небелыми людьми.А распознавание речи теперь влияет на важные аспекты жизни людей, включая решения об иммиграции, прием на работу и транспорт , и многое другое. Это означает, что точность распознавания речи — или ее отсутствие — может помешать вам иммигрировать в новую страну, получить работу или безопасно путешествовать. Это абсолютно социальная несправедливость. Но если это само по себе не убеждает компании решить проблему, им следует учитывать, что точность распознавания речи также влияет на решения клиентов о покупке.Помните, что женщины и меньшинства обладают огромной покупательной способностью — почему компании не хотят решать эту проблему? Это упущенная возможность для бизнеса. И это то, о чем мы все должны продолжать говорить. Потому что эти предубеждения имеют серьезные последствия для жизни людей и потому, что каждый заслуживает того, чтобы его голос был услышан.

    Voice AI становится все более распространенным и мощным. Согласно прогнозам, к 2023 году объем голосовой коммерции будет составлять 80 миллиардов долларов. Google сообщает, что сегодня 20% поисковых запросов выполняются с помощью голосовых запросов — по прогнозам, к 2020 году эта цифра вырастет до 50%.В 2017 году Google объявил, что точность распознавания речи составляет 95%. Хотя это впечатляющая цифра, возникает вопрос: для кого точность 95%?

    Распознавание речи имеет значительные расовые и гендерные предубеждения. Как и в случае с распознаванием лиц, поиском в Интернете и даже с дозаторами мыла, распознавание речи — это еще одна форма ИИ, которая хуже работает для женщин и небелых людей. Чтобы внести ясность, я не верю, что создатели этих систем намеревались создавать расистские или сексистские продукты.Сомнительно, что эти предубеждения являются преднамеренными, но они все же проблематичны. Дело в том, что функция распознавания речи хорошо понимает голоса белых мужчин … но как насчет остальных из нас?

    Точность важнее воспроизведения музыки. Распознавание речи теперь влияет на важные аспекты жизни людей, включая решения об иммиграции, прием на работу и транспортировку , и многое другое. Это означает, что точность распознавания речи — или ее отсутствие — может помешать вам иммигрировать в новую страну, получить работу или безопасно путешествовать.Вы видели ту серию Silicon Valley , где машина везет кого-то на заброшенный остров? По телевизору это забавно; не так уж и смешно в реальной жизни.

    Автопроизводители годами признавали, что их распознавание речи не работает и для женщин. Рекомендованным средством было то, что женщины прошли обширную подготовку («Женщин можно было бы научить говорить громче и направлять свой голос в микрофон…»), что не обязательно делать их сверстникам-мужчинам. То же самое для меньшинств и людей с нестандартным акцентом.Шутки в сторону?

    Точность распознавания по полу и расе

    Исследование доктора Татмана, опубликованное Североамериканским отделением Ассоциации компьютерной лингвистики (NAACL), показывает, что распознавание речи Google на 13% точнее для мужчин, чем для женщин. И Google регулярно показывает лучшие результаты по сравнению с системами Bing, AT&T, WIT и IBM Watson.

    Итак, вот мысленный эксперимент: давайте рассмотрим трех американцев, которые все говорят на английском как на родном.Скажем, мы с моим другом Джошем используем распознавание речи Google. Он может получить точность 92%, а я — 79%. Мы оба белые. Если мы прочитаем тот же абзац, ему нужно будет исправить около 8% транскрипции, а мне нужно будет исправить 21%. Моя подруга из смешанной расы, Джада, вероятно, будет иметь на 10% меньшую точность, чем я. Итак, наша система показателей будет выглядеть примерно так:

    Джош (белый кобель) = A-, 92%

    Джоан (белая сука) = C +, 79%

    Джада (женщина смешанной расы) = D +, 69%

    Диалекты также влияют на точность.Например, уровень точности индийского английского языка составляет 78%, а уровень точности шотландского английского — 53%. Команды Amazon и Google работают над повышением этой точности, но проблема еще не решена.

    Последствия в реальном мире

    Эти предубеждения имеют серьезные последствия для жизни людей. Например, ирландка провалила тест на знание разговорного английского языка при попытке иммигрировать в Австралию, несмотря на то, что она была высокообразованным носителем английского языка. Она получила 74 балла из 90 за беглость речи.Звучит устрашающе знакомо, правда? Эта оценка, скорее всего, является неисправностью системы.

    Почему существует эта предвзятость? Расхождения существуют из-за того, как мы структурировали анализ данных, базы данных и машинное обучение. Подобно тому, как камеры настраиваются для фотографирования белых лиц, аудиоанализ борется с более высокими голосами и более высокими голосами. Основная причина может заключаться в том, что в базах данных содержится много данных о белых мужчинах и меньше данных о голосах женщин и меньшинств. Например, выступления TED Talks часто анализируются специалистами по речи, а 70% выступающих на TED — мужчины.

    AI поэтому настроен на отказ. Машинное обучение — это метод поиска закономерностей в данных. Когда вы используете распознавание речи, система отвечает на вопрос: «Учитывая эти аудиоданные, какие слова лучше всего соответствуют этим данным, учитывая шаблоны и данные в базе данных?» Если в базе данных есть в основном белые мужские голоса, она не будет работать с данными, которые видит нечасто, такими как женские и другие более разнообразные голоса.

    Это абсолютная социальная несправедливость.Но если это само по себе не убеждает компании решить проблему, им следует учитывать, что точность распознавания речи также влияет на решения клиентов о покупке. У меня есть состоятельные англо-испанские двуязычные друзья, которые решили не покупать умные холодильники, потому что знают, что холодильники их не поймут. Какие еще устройства Интернета вещей они купили бы, если бы эти устройства действительно понимали их?

    Мелинда Гейтс, которая часто обсуждает финансовые слепые пятна, связанные с разнообразием, сказала: «Мы [как общество] заботимся о разнообразии, но мы действительно заботимся о том, сколько денег мы зарабатываем … Женщины [ответственны за] 85% потраченные потребительские доллары.Женщины контролируют 70% финансовых решений в доме. Итак, вы упускаете возможность … вы оставляете деньги на столе «.

    Возможные решения

    По мере того, как голосовой ИИ становится все более распространенным и мощным, эта технология будет все больше и больше влиять на нашу повседневную жизнь. Давайте работать над построением мира, в котором все голоса будут четко слышны.

    Что могут сделать компании? Будьте более прозрачными в своей голосовой статистике и поощряйте конкуренцию в этой области. Например, компании могут сообщать о своих показателях точности для женщин и различных спикеров в своих маркетинговых и торговых презентациях.Ваш целевой пользователь — женщина из рабочего класса? Затем укажите, насколько хорошо ваша система понимает эти демографические данные. Помните, что женщины и меньшинства обладают огромной покупательной способностью — почему бы вам не решить эту проблему?

    Наконец, это то, о чем мы все должны продолжать говорить. Потому что каждый заслуживает того, чтобы его голос был услышан.

    AI и точность транскрипции человека для служб преобразования речи в текст

    Чтобы обеспечить наиболее точное значение звука в текстовой форме, чрезвычайно важно уделять пристальное внимание точности транскрипции.Как кто-то может определить, является ли стенограмма точной или неточной?

    Скачать отчет о преобразовании речи в текст за 2020 год

    Показатели точности транскрипции дают представление о том, какой процент ошибок в расшифровке может быть на количество слов. Например, точность транскрипции 99% означает, что вероятность ошибки составляет 1% на каждые 1500 слов или около 15 ошибок.

    99% точности = 1% вероятность ошибки. Или около 15 ошибок на каждые 1500 слов.

    Каковы некоторые ключевые характеристики точной транскрипции? Ясность и нюанс играют огромную роль.Если читатели не могут понять письменный текст или если некоторые слова написаны неправильно, предполагаемое сообщение может быть нечетким, иметь меньшее значение или даже быть неточным. Это не только запутает ваших зрителей, но и наличие неточной информации может привести к потере доверия к вашей компании и даже к потере продаж — и то и другое — огромные последствия!

    С бесплатными услугами через платформы социальных сетей (Facebook и YouTube, чтобы назвать два), компьютерным программным обеспечением и людьми-транскрипционистами, у вас есть множество способов превратить ваше видео в текст.Но нужен ли вам человек, чтобы понять это правильно, или ИИ может сделать то же самое? Мы рекомендуем вам понять все о точности транскрипции, прежде чем принимать какие-либо решения, так что давайте прямо сейчас!

    Точность транскрипции распознавания речи AI

    Что такое транскрипция? Транскрипции — это текстовая форма аудиофайла, будь то записанное интервью или видео. Обычно стенограммы включают слова, которые вы слышите, а также более подробную информацию, например фоновые шумы, паузы в диалогах или музыку.Текстовая транскрипция позволяет зрителю читать и полностью понимать аудио в текстовом формате. Это особенно важно для слабослышащих или глухих, а также для ситуаций, когда неуместно слушать с включенным звуком.

    Как ИИ интегрируется с транскрипцией звука? Технология AI — это программа для распознавания речи, которая переводит звук в текст. Существует множество инструментов, с которыми вы, вероятно, уже знакомы, которые используют технологию преобразования речи в текст. Некоторые примеры включают автоматические субтитры на YouTube, голосовое общение на смартфоне и диктовку на компьютере или планшете.

    Приложения для транскрипции и преобразования речи в текст с искусственным интеллектом значительно улучшились.

    На самом деле просто удивительно, как технологии искусственного интеллекта и их способность точно транскрибировать становятся все лучше и лучше. Фактически, мы можем отметить, насколько далеко эта технология продвинулась за последние несколько лет!

    Распознавание речи AI прошло долгий путь. Однако одним из недостатков является то, что это программное обеспечение обучается только после того, как ошибка сделана и исправлена. Этой технологии потребуется время, чтобы понять нюансы или сленг, которые часто встречаются в аудиофайлах.Кроме того, люди обнаруживают, что точность транскрипции отличается от стандартных 99%.

    Однако услуги автоматической транскрипции и преобразования речи в текст намного дешевле. Если вы можете пожертвовать точностью ради доступности, возможно, вам подойдет транскрипция с использованием искусственного интеллекта. Вы можете получить бесплатную автоматическую транскрипцию, чтобы попробовать сами.

    Скачать отчет о преобразовании речи в текст за 2020 год

    Точность транскрипции, созданная человеком

    В отличие от ИИ, человеческая транскрипция дополняется реальными людьми, которые слушают аудиофайл и конвертируют его в текст.Выбирая людей по точности транскрипции, вы, как правило, получите гораздо более точные результаты. Почему? Люди способны понимать больше, чем ИИ.

    Это особенно полезно для тех, кто работает в юридической сфере или занимается исследованием рынка для запуска крупного продукта. Одна ошибка в расшифровке стенограммы может быть очень разрушительной и дорогостоящей для компании. Использование людей гарантирует, что звук в текстовые файлы будет максимально точным.

    Единственные недостатки использования людей для транскрипции по сравнению с ИИ — это время и деньги.

    Люди просто не могут расшифровать полный текстовый файл в реальном времени, в отличие от программ искусственного интеллекта, которые могут сделать это за считанные минуты. С людьми вы можете рассчитывать на более высокий уровень точности, что позволит высвободить ваше время, чтобы вы могли сосредоточиться на более важных вещах, таких как развитие вашего бизнеса.

    Если время имеет существенное значение для вашего проекта, доступны некоторые варианты сокращений, , но , чтобы сделать эти файлы общедоступными, их необходимо критически проанализировать, чтобы обеспечить высокий уровень точности транскрипции.

    Приоритеты, которые следует учитывать при преобразовании звука в текст

    На самом деле нет правильного или неправильного ответа, когда дело доходит до использования автоматизированной службы или человека-транскрипциониста для преобразования звука в текст. Все сводится к вашим приоритетам и рабочему процессу.

    Почему стоит выбрать программное обеспечение для автоматической транскрипции?

    Большинство компаний выберут ИИ, если стенограмма необходима немедленно, они имеют ограниченный бюджет и им нужен только черновой вариант текста.AI также отлично подходит для четкого, чистого звука и имеет 1-2 динамика.

    Кроме того, если вы или кто-то в вашей компании уже планируете редактировать транскрипцию, искусственный интеллект — правильный выбор, поскольку он не нарушит ваш бюджет, и редактору не придется начинать с нуля.

    Кому следует использовать распознавание речи AI?

    Как правило, люди, которые больше всего используют ИИ и добиваются больших успехов с ним, — это журналисты, студенты и аспиранты, радиоведущие и подкастеры.AI может даже помочь этим профессионалам записывать и расшифровывать заметки о встречах.

    Скачать отчет о преобразовании речи в текст за 2020 год

    Почему выбирают услуги транскрипции?

    Почему компании выбирают профессионального транскрипциониста, а не программы преобразования речи в текст? Используя человека, они получают расшифровку с точностью 99% или выше, большей ясностью и гибкими ценами.

    Кроме того, вы захотите выбрать человеческую транскрипцию, если у вас нет времени на редактирование, вам нужно немедленно опубликовать его публично или вам нужно вытащить цитаты для интервью или онлайн-статьи.Человеческая транскрипция также идеально подходит для аудио с сильными акцентами, несколькими динамиками или сильным фоновым шумом. Независимо от аудиофайла, людям определенно будет легче ориентироваться в подобных нюансах, чем программе ИИ. Доверие к человеку означает, что у вас будет меньше ошибок и вам не придется тратить столько времени на редактирование.

    Кто обычно использует человеческую транскрипцию?

    Многие компании полагаются исключительно на человеческую транскрипцию. Некоторые примеры включают компании по производству видео, фирмы по исследованию рынка, образовательные и юридические компании.Высокая точность транскрипции — вот что заставляет эти отрасли использовать человеческую транскрипцию по сравнению с другими вариантами.

    Бесплатные инструменты для диктовки на основе распознавания речи

    Независимо от того, используете ли вы программу для транскрипции AI или компьютерную диктовку, существует множество приложений, которые могут помочь в достижении успеха.

    Если вы поклонник Google Docs, Microsoft Word или Apple Pages, у всех есть замечательные инструменты и совместимости, которые помогут в транскрипции AI.

    Документы Google

    Google Docs теперь имеет функцию преобразования речи в текст при доступе к нему в Интернете через Google Chrome.Эта новая функция называется голосовым набором, и ее можно найти, щелкнув инструменты в верхнем меню и прокрутив вниз до «голосового набора». Вы также можете одновременно нажать ctrl + shift + s, и вы увидите, что появляется микрофон. Просто нажмите на микрофон и начните говорить.

    Microsoft Word

    Microsoft Word 360 также имеет инструмент преобразования речи в текст. Откройте Microsoft Word, нажмите «Редактировать» в верхнем меню, а затем нажмите «Начать диктовку» в подменю.

    Перед использованием Документов Google или инструмента Microsoft для преобразования речи в текст важно убедиться, что микрофон вашего компьютера настроен.

    Apple Страницы

    Apple Pages предлагает возможность диктовать речь тексту в своем приложении для обработки текстов.

    В Pages выберите «Правка», «Речь» и нажмите «Начать говорить». Вы также можете дважды нажать клавишу Fn на клавиатуре, чтобы включить инструмент диктовки Mac.

    Голосовые заметки

    Еще один любимый нами инструмент — голосовые заметки. Это приложение можно загрузить на любой смартфон, оно простое в использовании, поэтому вы можете использовать его практически где угодно, особенно в дороге. Это приложение позволяет экспортировать и импортировать аудиофайлы в дополнение к обмену файлами на Google Диске.

    Услуги преобразования речи в текст с максимальной точностью

    Если вам нужно расшифровать аудиофайлы, видео или любые записанные носители с более чем одним динамиком, вам следует рассмотреть возможность использования платных услуг транскрипции. Будь то искусственный интеллект или человек, оба сервиса предлагают лучшую точность и возможности редактирования, чем бесплатные инструменты, указанные выше.

    Автоматическая расшифровка

    Вы можете расшифровать аудио за считанные минуты по очень доступной цене с помощью нашей службы автоматической транскрипции.

    Наша система распознавания речи обеспечивает точность 80-90%, время обработки 5 минут и всего 0,10 доллара за минуту звука.

    Человеческая транскрипция

    Вы можете заказать транскрипцию у профессиональных транскрипционистов.

    Человеческая транскрипция может похвастаться точностью 99%, сроком выполнения 12 часов, всего за 1,25 доллара за минуту аудио.

    Приложение для записи звонков и приложение для записи голоса

    С помощью мобильных приложений, таких как диктофон и диктофон, вы можете размещать заказы на расшифровку из любого места.

    Самостоятельная расшифровка аудиозаписи

    Хотя вы можете утверждать, что выполнение работы самостоятельно — это единственный способ сделать это правильно и бесплатно, вы, возможно, не учли недостатки выполнения собственной транскрипции:

    • Расшифровка отнимает время у других проектов
    • Вероятно, вы сделаете больше ошибок, чем профессиональные транскрипционисты.

    Однако, если вы предпочитаете делать расшифровку самостоятельно, у нас есть несколько инструментов, которые могут вам помочь.

    Ножная педаль

    Для управления звуком может пригодиться ножная педаль. Этот инструмент, также известный как WAV-педаль, настроен таким образом, чтобы ваши ноги могли перематывать назад, приостанавливать и воспроизводить звук. Это позволяет вашим рукам сосредоточиться только на наборе текста, что может помочь ускорить процесс.

    Наушники

    Еще один инструмент, в который стоит вложить деньги, — это покупка высококачественных наушников. Первоклассная пара заглушит любой фоновый шум, который вы испытываете на работе, и обеспечит вам четкий, чистый звук, сокращая процесс перемотки и повторного прослушивания.

    Если вы хотите, чтобы человеческая расшифровка была приятной, главное — иметь эргономичное кресло. К достоинствам этого стула относятся поддержка поясницы, поощрение правильной осанки, помощь в предотвращении мышечной усталости и поддержка правильного кровообращения. Кроме того, это так удобно, что вы почти поверите, что находитесь дома на диване, закутавшись в халат.

    Грамматика

    Независимо от того, как вы конвертируете аудио в текст, Grammarly станет вашим лучшим другом. Grammarly является одним из лучших в мире средств проверки грамматики, поэтому его можно установить как расширение Chrome.Когда он запустится, он будет выделять ошибки красным цветом. Кроме того, этот инструмент также предложит способы исправления ошибок, чтобы вы могли быть уверены, что ваш текст не содержит грамматических ошибок, но не обязательно с высокой точностью транскрипции.

    Наша миссия по точности транскрипции

    Здесь, в Rev, мы знаем, что ваше время дорого. Хотя мы аплодируем вам за желание записать себя, но иногда в сутках просто не хватает часов.

    Вот почему вам следует нанять уважаемую компанию по транскрипции.Благодаря простой и понятной цене, наша компания может использовать либо автоматическую транскрипцию, либо человеческую транскрипцию, чтобы предоставить вам очень точную и чистую окончательную расшифровку текста.

    Хотя оба варианта транскрипции ИИ и человека имеют положительные результаты, все сводится к тому, как вы планируете использовать свою расшифровку, чтобы определить, какой маршрут имеет наибольший смысл. Время, бюджет и точность транскрипции будут играть решающую роль в процессе принятия решения.
    Хотя в этой статье говорится о важности точной расшифровки стенограмм, мы рекомендуем вам узнать больше о Rev и нашей приверженности предоставлению точных расшифровок.Использование наших услуг означает, что вы можете выбирать между нашей технологией искусственного интеллекта или людьми. Независимо от того, что вы решите использовать, наша команда гарантирует, что вы получите высококачественную расшифровку стенограммы в кратчайшие сроки по невероятной цене. Не ждите, узнайте больше о наших аудиозаписях сегодня.

    Скачать отчет о преобразовании речи в текст за 2020 год

    Улучшение результатов транскрипции с адаптацией речи

    Обзор

    Вы можете использовать функцию адаптации речи , чтобы помочь
    Функция преобразования речи в текст распознает определенные слова или фразы чаще, чем
    другие варианты, которые в противном случае могли бы быть предложены.Например, предположим, что ваш
    аудиоданные часто содержат слово «погода». Когда встречается преобразование речи в текст
    слово «погода», вы хотите, чтобы оно чаще транскрибировало слово «погода»
    чем «будь». В этом случае вы можете использовать адаптацию речи к предвзятости
    Преобразование речи в текст для распознавания «погоды».

    Адаптация речи особенно полезна в следующих случаях использования:

    • Повышение точности слов и фраз, которые
      часто встречаются в ваших аудиоданных.Например, вы можете предупредить
      модель распознавания голосовых команд, которые обычно произносятся
      вашими пользователями.

    • Расширение словарного запаса слов, распознаваемых функцией преобразования речи в текст.
      Преобразование речи в текст включает в себя очень большой словарный запас. Тем не мение,
      если ваши аудиоданные часто содержат слова, которые редко встречаются в обычном языке
      использовать (например, имена собственные или специфичные для домена слова), вы можете добавить их, используя
      речевая адаптация.

    • Повышение точности транскрипции речи при поставке
      звук содержит шум или не очень четкий.

    При желании вы можете точно настроить смещение
    модель распознавания с использованием
    функция ускорения адаптации речи (бета).

    Улучшить распознавание указанных слов

    Для увеличения вероятности того, что функция преобразования речи в текст распознает слово
    «погода», когда он расшифровывает ваши аудиоданные, передайте «погоду» в
    фраз поле
    SpeechContext
    объект. Назначьте
    SpeechContext в поле SpeechContexts
    объект RecognitionConfig в вашем запросе к
    Преобразование речи в текст API.

    В следующем фрагменте показана часть полезной нагрузки JSON, отправленной на
    Преобразование речи в текст API. Фрагмент JSON содержит слово «погода» для
    речевая адаптация.

    "config": {
        "кодировка": "LINEAR16",
        "sampleRateHertz": 8000,
        "languageCode": "en-US",
          "SpeechContexts": [{
          "фразы": ["погода"]
        }] 
    }
     

    Улучшить распознавание фраз из нескольких слов

    Когда вы вводите фразу из нескольких слов, преобразование речи в текст
    с большей вероятностью распознает эти слова по порядку.Обеспечение
    фраза также увеличивает вероятность распознавания частей
    фраза, включая отдельные слова. Увидеть
    страница ограничений содержимого для ограничения количества
    и размер этих фраз.

    В следующем фрагменте показана часть полезной нагрузки JSON, отправленной на
    Преобразование речи в текст API. Фрагмент JSON включает в себя массив
    фразы из нескольких слов, присвоенные полю фраз
    SpeechContext объект.

    "config": {
        "кодировка": "LINEAR16",
        "sampleRateHertz": 8000,
        "languageCode": "en-US",
          "SpeechContexts": [{
          "фразы": ["жаркая погода", "холодная погода"]
        }] 
    }
     

    Улучшить распознавание с помощью классов

    Классы представляют общие концепции, встречающиеся в естественном языке, например:
    денежные единицы и календарные даты.Класс позволяет улучшить транскрипцию
    точность для больших групп слов, которые соответствуют общей концепции, но не
    всегда включайте одинаковые слова или фразы.

    Например, предположим, что ваши аудиоданные включают записи людей, говорящих
    их почтовый адрес. Возможно, у вас есть аудиозапись, на которой кто-то говорит
    «Мой дом на Мейн-стрит, 123, четвертый дом слева». В этом случае вы
    хотите, чтобы функция преобразования речи в текст распознавала первую последовательность цифр («123»)
    как адрес, а не как порядковый номер («сто двадцать третье»).Тем не мение,
    не все люди живут на «123 Мэйн Стрит». Нецелесообразно перечислять все
    возможный адрес в объекте SpeechContext . Вместо этого вы можете использовать
    класс, чтобы указать, что номер дома должен распознаваться независимо от того,
    номер на самом деле есть. В этом примере преобразование речи в текст могло бы больше
    точно расшифровать такие фразы, как «123 Main Street» и «987 Grand Boulevard»
    потому что они оба распознаются как номера адресов.

    Жетоны классов

    Чтобы использовать класс в речевой адаптации, включите маркер класса в
    поле фраз объекта SpeechContext .Обратитесь к
    список поддерживаемых токенов класса
    чтобы узнать, какие токены доступны для вашего языка. Например, чтобы
    улучшить транскрипцию номеров адресов из исходного аудио, предоставить
    значение $ ADDRESSNUM в объекте SpeechContext .

    Вы можете использовать классы как отдельные элементы в массиве фраз или встроить
    один или несколько жетонов класса в более длинных фразах из нескольких слов. Например, вы можете
    укажите номер адреса в более крупной фразе, включив маркер класса в
    строка: ["мой адрес $ ADDRESSNUM"] .Однако эта фраза не поможет
    в случаях, когда звук содержит похожую, но не идентичную фразу, например
    «Я на Мейн-стрит, 123». Чтобы помочь распознать похожие фразы, важно
    чтобы дополнительно включить сам токен класса:
    ["мой адрес $ ADDRESSNUM", "$ ADDRESSNUM"] . Если вы используете недействительный или
    токен искаженного класса, преобразование речи в текст игнорирует токен без
    вызывает ошибку, но по-прежнему использует остальную часть фразы для
    контекст.

    В следующем фрагменте показан пример полезной нагрузки JSON, отправленной на
    Преобразование речи в текст API.Фрагмент JSON включает объект SpeechContext .
    который использует токен класса.

      "config": {
        "кодировка": "LINEAR16",
        "sampleRateHertz": 8000,
        "languageCode": "en-US",
        "SpeechContexts": [{
          "фразы": ["$ ADDRESSNUM"]
         }]
      }
     

    Примечание. Доступность класса зависит от
    модель транскрипции и
    язык.

    Точная настройка результатов транскрипции с помощью boost (бета)

    Примечание: Повышение адаптации речи — это функция Beta , охватываемая
    Условия предложений до GA
    Условий использования Google Cloud Platform.Функции Pre-GA
    может иметь ограниченную поддержку, а изменения функций до GA могут быть несовместимы
    с другими версиями до GA. Для получения дополнительной информации см.
    описания этапов запуска.

    По умолчанию адаптация речи обеспечивает
    относительно небольшой эффект, особенно для односложных фраз. Речь
    Адаптация boost функция позволяет увеличить смещение модели распознавания
    придавая одним фразам больший вес, чем другим. Мы рекомендуем вам
    реализовать ускорение, если 1) вы уже реализовали
    речевая адаптация,
    и 2) вы хотите дополнительно настроить силу речевой адаптации
    влияние на результаты вашей транскрипции.Чтобы узнать, включена ли функция повышения
    доступны для вашего языка, см.
    страница языковой поддержки.

    Например, у вас много записей людей
    спрашивая о «плате за проезд на ярмарку графства» со словом «ярмарка»
    встречается чаще, чем «плата за проезд». В этом случае вы можете использовать речь
    адаптация для увеличения вероятности признания модели как «справедливой», так и
    «плата за проезд», добавляя их как фразы в объект SpeechContext . Это скажет
    Speech-to-Text для распознавания «справедливого» и «платного» чаще, чем для
    Например, «заяц» или «берлога».«

    Однако «справедливый» следует распознавать чаще, чем «тариф» из-за того, что он более
    частые появления в аудио. Возможно, вы уже расшифровали свой звук
    с помощью API преобразования речи в текст и обнаружил большое количество ошибок при распознавании
    правильное слово («честный»). В этом случае вы можете использовать
    boost функция, позволяющая назначать более высокое значение повышения «справедливой», чем «плате за проезд». В
    более высокое взвешенное значение, присвоенное «справедливому», смещает API преобразования речи в текст в сторону выбора
    «ярмарка» чаще, чем «плата за проезд».Без значений повышения
    Модель распознавания будет распознавать «тариф» и «тариф» с равной вероятностью.

    Основы работы с Boost

    Когда вы используете ускорение, вы назначаете взвешенное значение фразам элементов в
    SpeechContext объект. Речь в текст относится к этому
    взвешенное значение при выборе возможной транскрипции слов в
    ваши аудиоданные. Чем выше значение, тем выше
    вероятность того, что функция преобразования речи в текст выберет это слово или фразу из
    возможные альтернативы.

    Если вы присваиваете значение усиления фразе из нескольких слов, усиление применяется к
    фраза целиком и только фраза целиком. Например, вы хотите назначить
    повысить ценность фразы «Мой любимый экспонат в Американском музее естествознания».
    История — это синий кит «. Если вы добавите эту фразу к объекту SpeechContext
    и присвоить значение повышения, модель распознавания с большей вероятностью распознает
    эту фразу полностью, дословно.

    Если вы не получаете желаемых результатов, увеличивая слово
    фразу, мы предлагаем вам добавить все биграммы (по 2 слова по порядку), которые составляют
    фраза как дополнительные фраз элементов и присвоение каждому значению усиления.Продолжая
    В приведенном выше примере вы можете исследовать добавление дополнительных биграмм и конечных диаграмм
    (более 2-х слов) такие как «мой любимый», «мой любимый экспонат»,
    «любимый экспонат», «мой любимый экспонат в Американском музее естествознания».
    История »,« Американский музей естественной истории »,« Синий кит »и т. Д. The STT
    модель распознавания с большей вероятностью распознает связанные фразы в вашем
    аудио, которое содержит части оригинальной усиленной фразы, но не соответствует ей
    дословно.

    Установка значений ускорения

    Boost-значения должны иметь значение с плавающей запятой больше 0.Практическая
    максимальный предел для значений ускорения — 20. Для достижения наилучших результатов поэкспериментируйте с
    результаты транскрипции, изменяя ваши значения повышения или понижения, пока вы не получите
    точные результаты транскрипции.

    Более высокие значения ускорения могут привести к меньшему количеству ложноотрицательных результатов, в которых
    слово или фраза присутствовали в аудио, но не были правильно распознаны
    Преобразование речи в текст. Однако ускорение также может увеличиваться
    вероятность ложных срабатываний; то есть случаи, когда слово или фраза
    появляется в транскрипции, хотя в аудиозаписи этого не было.

    Пример усиления речевой адаптации

    Для установки различных значений повышения для «справедливого» и «платного» в транскрипции речи.
    запроса, установите два объекта SpeechContext в массив SpeechContexts
    RecognitionConfig объект. Установите для повышения значение неотрицательным
    значение с плавающей запятой для каждого объекта SpeechContext , один из которых содержит «справедливо» и
    другие, содержащие «тариф».

    В следующем фрагменте показан пример полезной нагрузки JSON, отправленной на
    Преобразование речи в текст API.Фрагмент JSON включает объект RecognitionConfig
    который использует значения повышения, чтобы по-разному взвесить слова «справедливый» и «тариф».

Добавить комментарий

Ваш адрес email не будет опубликован.