모호성은 어떤 시점에서 검사되는 가

KR100586767B1 - 다중모드 입력을 이용한 다중모드 초점 탐지, 기준 모호성해명 및 기분 분류를 위한 시스템 및 방법 - Google Patents

다중모드 입력을 이용한 다중모드 초점 탐지, 기준 모호성해명 및 기분 분류를 위한 시스템 및 방법 Download PDF

Info

Publication numberKR100586767B1 KR100586767B1 KR1020037010176A KR20037010176A KR100586767B1 KR 100586767 B1 KR100586767 B1 KR 100586767B1 KR 1020037010176 A KR1020037010176 A KR 1020037010176A KR 20037010176 A KR20037010176 A KR 20037010176A KR 100586767 B1 KR100586767 B1 KR 100586767B1AuthorityKRSouth KoreaPrior art keywordsmultimodedatafocusmoodenvironmentPrior art date2001-02-05Application numberKR1020037010176AOther languages English (en) Other versions KR20030077012A (koInventor매스스테판에이치네티찰라파티브이Original Assignee인터내셔널 비지네스 머신즈 코포레이션Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)2001-02-05Filing date2002-01-31Publication date2006-06-08 2001-02-05 Priority to US09/776,654 priority Critical patent/US6964023B2/en 2001-02-05 Priority to US09/776,654 priority 2002-01-31 Application filed by 인터내셔널 비지네스 머신즈 코포레이션 filed Critical 인터내셔널 비지네스 머신즈 코포레이션 2002-01-31 Priority to PCT/US2002/002853 priority patent/WO2002063599A1/en 2003-09-29 Publication of KR20030077012A publication Critical patent/KR20030077012A/ko 2006-06-08 Application granted granted Critical 2006-06-08 Publication of KR100586767B1 publication Critical patent/KR100586767B1/ko

Links

  • Espacenet
  • Global Dossier
  • Discuss
  • 230000036651 mood Effects 0.000 title claims abstract description 140
  • 238000001514 detection method Methods 0.000 title abstract description 103
  • 230000002452 interceptive Effects 0.000 claims abstract description 213
  • 238000000034 method Methods 0.000 claims description 81
  • 230000015654 memory Effects 0.000 claims description 39
  • 238000004364 calculation method Methods 0.000 claims description 17
  • 230000001276 controlling effect Effects 0.000 claims description 7
  • 238000001228 spectrum Methods 0.000 claims description 6
  • 230000000051 modifying Effects 0.000 claims description 3
  • 230000000977 initiatory Effects 0.000 claims 3
  • 238000005352 clarification Methods 0.000 abstract description 10
  • 230000000007 visual effect Effects 0.000 description 60
  • 210000000088 Lip Anatomy 0.000 description 26
  • 230000002996 emotional Effects 0.000 description 22
  • 210000000887 Face Anatomy 0.000 description 21
  • 210000000214 Mouth Anatomy 0.000 description 21
  • 238000010586 diagram Methods 0.000 description 21
  • 210000001508 Eye Anatomy 0.000 description 20
  • 230000006399 behavior Effects 0.000 description 17
  • 239000000203 mixture Substances 0.000 description 17
  • 238000007418 data mining Methods 0.000 description 16
  • 239000003795 chemical substances by application Substances 0.000 description 15
  • 230000003993 interaction Effects 0.000 description 14
  • 230000000694 effects Effects 0.000 description 12
  • 230000001815 facial Effects 0.000 description 12
  • 210000001331 Nose Anatomy 0.000 description 9
  • 230000001149 cognitive Effects 0.000 description 9
  • 238000004891 communication Methods 0.000 description 9
  • 238000000605 extraction Methods 0.000 description 9
  • 238000004458 analytical method Methods 0.000 description 8
  • 239000000284 extract Substances 0.000 description 8
  • 230000004927 fusion Effects 0.000 description 8
  • 230000000875 corresponding Effects 0.000 description 7
  • 230000011218 segmentation Effects 0.000 description 7
  • 210000003128 Head Anatomy 0.000 description 6
  • 230000001419 dependent Effects 0.000 description 6
  • 238000000513 principal component analysis Methods 0.000 description 6
  • 230000005236 sound signal Effects 0.000 description 6
  • 230000003595 spectral Effects 0.000 description 6
  • 238000005516 engineering process Methods 0.000 description 4
  • 239000011159 matrix material Substances 0.000 description 4
  • 238000005259 measurement Methods 0.000 description 4
  • 230000004044 response Effects 0.000 description 4
  • 238000005070 sampling Methods 0.000 description 4
  • 230000001537 neural Effects 0.000 description 3
  • 238000010606 normalization Methods 0.000 description 3
  • 229920001690 polydopamine Polymers 0.000 description 3
  • 238000003672 processing method Methods 0.000 description 3
  • 230000035897 transcription Effects 0.000 description 3
  • 210000003491 Skin Anatomy 0.000 description 2
  • 206010041349 Somnolence Diseases 0.000 description 2
  • 238000004422 calculation algorithm Methods 0.000 description 2
  • 238000007906 compression Methods 0.000 description 2
  • 230000002596 correlated Effects 0.000 description 2
  • 238000003066 decision tree Methods 0.000 description 2
  • 230000018109 developmental process Effects 0.000 description 2
  • 210000000056 organs Anatomy 0.000 description 2
  • 238000003909 pattern recognition Methods 0.000 description 2
  • 230000035945 sensitivity Effects 0.000 description 2
  • 206010001497 Agitation Diseases 0.000 description 1
  • 206010002855 Anxiety Diseases 0.000 description 1
  • 206010057666 Anxiety disease Diseases 0.000 description 1
  • 206010048909 Boredom Diseases 0.000 description 1
  • 102100006275 CSRP1 Human genes 0.000 description 1
  • 101700050914 CSRP1 Proteins 0.000 description 1
  • BVKZGUZCCUSVTD-UHFFFAOYSA-N Carbonic acid Chemical compound data:image/svg+xml;base64,PD94bWwgdmVyc2lvbj0nMS4wJyBlbmNvZGluZz0naXNvLTg4NTktMSc/Pgo8c3ZnIHZlcnNpb249JzEuMScgYmFzZVByb2ZpbGU9J2Z1bGwnCiAgICAgICAgICAgICAgeG1sbnM9J2h0dHA6Ly93d3cudzMub3JnLzIwMDAvc3ZnJwogICAgICAgICAgICAgICAgICAgICAgeG1sbnM6cmRraXQ9J2h0dHA6Ly93d3cucmRraXQub3JnL3htbCcKICAgICAgICAgICAgICAgICAgICAgIHhtbG5zOnhsaW5rPSdodHRwOi8vd3d3LnczLm9yZy8xOTk5L3hsaW5rJwogICAgICAgICAgICAgICAgICB4bWw6c3BhY2U9J3ByZXNlcnZlJwp3aWR0aD0nMzAwcHgnIGhlaWdodD0nMzAwcHgnIHZpZXdCb3g9JzAgMCAzMDAgMzAwJz4KPCEtLSBFTkQgT0YgSEVBREVSIC0tPgo8cmVjdCBzdHlsZT0nb3BhY2l0eToxLjA7ZmlsbDojRkZGRkZGO3N0cm9rZTpub25lJyB3aWR0aD0nMzAwLjAnIGhlaWdodD0nMzAwLjAnIHg9JzAuMCcgeT0nMC4wJz4gPC9yZWN0Pgo8cGF0aCBjbGFzcz0nYm9uZC0wIGF0b20tMCBhdG9tLTEnIGQ9J00gMjE2LjYsNzguNCBMIDE4My4yLDk3LjYnIHN0eWxlPSdmaWxsOm5vbmU7ZmlsbC1ydWxlOmV2ZW5vZGQ7c3Ryb2tlOiNFODQyMzU7c3Ryb2tlLXdpZHRoOjIuMHB4O3N0cm9rZS1saW5lY2FwOmJ1dHQ7c3Ryb2tlLWxpbmVqb2luOm1pdGVyO3N0cm9rZS1vcGFjaXR5OjEnIC8+CjxwYXRoIGNsYXNzPSdib25kLTAgYXRvbS0wIGF0b20tMScgZD0nTSAxODMuMiw5Ny42IEwgMTQ5LjksMTE2LjknIHN0eWxlPSdmaWxsOm5vbmU7ZmlsbC1ydWxlOmV2ZW5vZGQ7c3Ryb2tlOiMzQjQxNDM7c3Ryb2tlLXdpZHRoOjIuMHB4O3N0cm9rZS1saW5lY2FwOmJ1dHQ7c3Ryb2tlLWxpbmVqb2luOm1pdGVyO3N0cm9rZS1vcGFjaXR5OjEnIC8+CjxwYXRoIGNsYXNzPSdib25kLTEgYXRvbS0xIGF0b20tMicgZD0nTSAxNDkuOSwxMTYuOSBMIDExNi41LDk3LjYnIHN0eWxlPSdmaWxsOm5vbmU7ZmlsbC1ydWxlOmV2ZW5vZGQ7c3Ryb2tlOiMzQjQxNDM7c3Ryb2tlLXdpZHRoOjIuMHB4O3N0cm9rZS1saW5lY2FwOmJ1dHQ7c3Ryb2tlLWxpbmVqb2luOm1pdGVyO3N0cm9rZS1vcGFjaXR5OjEnIC8+CjxwYXRoIGNsYXNzPSdib25kLTEgYXRvbS0xIGF0b20tMicgZD0nTSAxMTYuNSw5Ny42IEwgODMuMiw3OC40JyBzdHlsZT0nZmlsbDpub25lO2ZpbGwtcnVsZTpldmVub2RkO3N0cm9rZTojRTg0MjM1O3N0cm9rZS13aWR0aDoyLjBweDtzdHJva2UtbGluZWNhcDpidXR0O3N0cm9rZS1saW5lam9pbjptaXRlcjtzdHJva2Utb3BhY2l0eToxJyAvPgo8cGF0aCBjbGFzcz0nYm9uZC0yIGF0b20tMSBhdG9tLTMnIGQ9J00gMTM4LjEsMTE2LjkgTCAxMzguMSwxNTYuNicgc3R5bGU9J2ZpbGw6bm9uZTtmaWxsLXJ1bGU6ZXZlbm9kZDtzdHJva2U6IzNCNDE0MztzdHJva2Utd2lkdGg6Mi4wcHg7c3Ryb2tlLWxpbmVjYXA6YnV0dDtzdHJva2UtbGluZWpvaW46bWl0ZXI7c3Ryb2tlLW9wYWNpdHk6MScgLz4KPHBhdGggY2xhc3M9J2JvbmQtMiBhdG9tLTEgYXRvbS0zJyBkPSdNIDEzOC4xLDE1Ni42IEwgMTM4LjEsMTk2LjInIHN0eWxlPSdmaWxsOm5vbmU7ZmlsbC1ydWxlOmV2ZW5vZGQ7c3Ryb2tlOiNFODQyMzU7c3Ryb2tlLXdpZHRoOjIuMHB4O3N0cm9rZS1saW5lY2FwOmJ1dHQ7c3Ryb2tlLWxpbmVqb2luOm1pdGVyO3N0cm9rZS1vcGFjaXR5OjEnIC8+CjxwYXRoIGNsYXNzPSdib25kLTIgYXRvbS0xIGF0b20tMycgZD0nTSAxNjEuNywxMTYuOSBMIDE2MS43LDE1Ni42JyBzdHlsZT0nZmlsbDpub25lO2ZpbGwtcnVsZTpldmVub2RkO3N0cm9rZTojM0I0MTQzO3N0cm9rZS13aWR0aDoyLjBweDtzdHJva2UtbGluZWNhcDpidXR0O3N0cm9rZS1saW5lam9pbjptaXRlcjtzdHJva2Utb3BhY2l0eToxJyAvPgo8cGF0aCBjbGFzcz0nYm9uZC0yIGF0b20tMSBhdG9tLTMnIGQ9J00gMTYxLjcsMTU2LjYgTCAxNjEuNywxOTYuMicgc3R5bGU9J2ZpbGw6bm9uZTtmaWxsLXJ1bGU6ZXZlbm9kZDtzdHJva2U6I0U4NDIzNTtzdHJva2Utd2lkdGg6Mi4wcHg7c3Ryb2tlLWxpbmVjYXA6YnV0dDtzdHJva2UtbGluZWpvaW46bWl0ZXI7c3Ryb2tlLW9wYWNpdHk6MScgLz4KPHRleHQgeD0nMjQwLjAnIHk9Jzc4LjAnIGNsYXNzPSdhdG9tLTAnIHN0eWxlPSdmb250LXNpemU6NDBweDtmb250LXN0eWxlOm5vcm1hbDtmb250LXdlaWdodDpub3JtYWw7ZmlsbC1vcGFjaXR5OjE7c3Ryb2tlOm5vbmU7Zm9udC1mYW1pbHk6c2Fucy1zZXJpZjt0ZXh0LWFuY2hvcjpzdGFydDtmaWxsOiNFODQyMzUnID5PPC90ZXh0Pgo8dGV4dCB4PScyNjcuNicgeT0nNzguMCcgY2xhc3M9J2F0b20tMCcgc3R5bGU9J2ZvbnQtc2l6ZTo0MHB4O2ZvbnQtc3R5bGU6bm9ybWFsO2ZvbnQtd2VpZ2h0Om5vcm1hbDtmaWxsLW9wYWNpdHk6MTtzdHJva2U6bm9uZTtmb250LWZhbWlseTpzYW5zLXNlcmlmO3RleHQtYW5jaG9yOnN0YXJ0O2ZpbGw6I0U4NDIzNScgPkg8L3RleHQ+Cjx0ZXh0IHg9JzEwLjInIHk9Jzc4LjAnIGNsYXNzPSdhdG9tLTInIHN0eWxlPSdmb250LXNpemU6NDBweDtmb250LXN0eWxlOm5vcm1hbDtmb250LXdlaWdodDpub3JtYWw7ZmlsbC1vcGFjaXR5OjE7c3Ryb2tlOm5vbmU7Zm9udC1mYW1pbHk6c2Fucy1zZXJpZjt0ZXh0LWFuY2hvcjpzdGFydDtmaWxsOiNFODQyMzUnID5IPC90ZXh0Pgo8dGV4dCB4PSczNS44JyB5PSc3OC4wJyBjbGFzcz0nYXRvbS0yJyBzdHlsZT0nZm9udC1zaXplOjQwcHg7Zm9udC1zdHlsZTpub3JtYWw7Zm9udC13ZWlnaHQ6bm9ybWFsO2ZpbGwtb3BhY2l0eToxO3N0cm9rZTpub25lO2ZvbnQtZmFtaWx5OnNhbnMtc2VyaWY7dGV4dC1hbmNob3I6c3RhcnQ7ZmlsbDojRTg0MjM1JyA+TzwvdGV4dD4KPHRleHQgeD0nMTM3LjknIHk9JzI1NC44JyBjbGFzcz0nYXRvbS0zJyBzdHlsZT0nZm9udC1zaXplOjQwcHg7Zm9udC1zdHlsZTpub3JtYWw7Zm9udC13ZWlnaHQ6bm9ybWFsO2ZpbGwtb3BhY2l0eToxO3N0cm9rZTpub25lO2ZvbnQtZmFtaWx5OnNhbnMtc2VyaWY7dGV4dC1hbmNob3I6c3RhcnQ7ZmlsbDojRTg0MjM1JyA+TzwvdGV4dD4KPC9zdmc+Cg== data:image/svg+xml;base64,PD94bWwgdmVyc2lvbj0nMS4wJyBlbmNvZGluZz0naXNvLTg4NTktMSc/Pgo8c3ZnIHZlcnNpb249JzEuMScgYmFzZVByb2ZpbGU9J2Z1bGwnCiAgICAgICAgICAgICAgeG1sbnM9J2h0dHA6Ly93d3cudzMub3JnLzIwMDAvc3ZnJwogICAgICAgICAgICAgICAgICAgICAgeG1sbnM6cmRraXQ9J2h0dHA6Ly93d3cucmRraXQub3JnL3htbCcKICAgICAgICAgICAgICAgICAgICAgIHhtbG5zOnhsaW5rPSdodHRwOi8vd3d3LnczLm9yZy8xOTk5L3hsaW5rJwogICAgICAgICAgICAgICAgICB4bWw6c3BhY2U9J3ByZXNlcnZlJwp3aWR0aD0nODVweCcgaGVpZ2h0PSc4NXB4JyB2aWV3Qm94PScwIDAgODUgODUnPgo8IS0tIEVORCBPRiBIRUFERVIgLS0+CjxyZWN0IHN0eWxlPSdvcGFjaXR5OjEuMDtmaWxsOiNGRkZGRkY7c3Ryb2tlOm5vbmUnIHdpZHRoPSc4NS4wJyBoZWlnaHQ9Jzg1LjAnIHg9JzAuMCcgeT0nMC4wJz4gPC9yZWN0Pgo8cGF0aCBjbGFzcz0nYm9uZC0wIGF0b20tMCBhdG9tLTEnIGQ9J00gNjQuNCwyMC4xIEwgNTMuMiwyNi41JyBzdHlsZT0nZmlsbDpub25lO2ZpbGwtcnVsZTpldmVub2RkO3N0cm9rZTojRTg0MjM1O3N0cm9rZS13aWR0aDoxLjBweDtzdHJva2UtbGluZWNhcDpidXR0O3N0cm9rZS1saW5lam9pbjptaXRlcjtzdHJva2Utb3BhY2l0eToxJyAvPgo8cGF0aCBjbGFzcz0nYm9uZC0wIGF0b20tMCBhdG9tLTEnIGQ9J00gNTMuMiwyNi41IEwgNDIuMCwzMy4wJyBzdHlsZT0nZmlsbDpub25lO2ZpbGwtcnVsZTpldmVub2RkO3N0cm9rZTojM0I0MTQzO3N0cm9rZS13aWR0aDoxLjBweDtzdHJva2UtbGluZWNhcDpidXR0O3N0cm9rZS1saW5lam9pbjptaXRlcjtzdHJva2Utb3BhY2l0eToxJyAvPgo8cGF0aCBjbGFzcz0nYm9uZC0xIGF0b20tMSBhdG9tLTInIGQ9J00gNDIuMCwzMy4wIEwgMzAuOCwyNi41JyBzdHlsZT0nZmlsbDpub25lO2ZpbGwtcnVsZTpldmVub2RkO3N0cm9rZTojM0I0MTQzO3N0cm9rZS13aWR0aDoxLjBweDtzdHJva2UtbGluZWNhcDpidXR0O3N0cm9rZS1saW5lam9pbjptaXRlcjtzdHJva2Utb3BhY2l0eToxJyAvPgo8cGF0aCBjbGFzcz0nYm9uZC0xIGF0b20tMSBhdG9tLTInIGQ9J00gMzAuOCwyNi41IEwgMTkuNiwyMC4xJyBzdHlsZT0nZmlsbDpub25lO2ZpbGwtcnVsZTpldmVub2RkO3N0cm9rZTojRTg0MjM1O3N0cm9rZS13aWR0aDoxLjBweDtzdHJva2UtbGluZWNhcDpidXR0O3N0cm9rZS1saW5lam9pbjptaXRlcjtzdHJva2Utb3BhY2l0eToxJyAvPgo8cGF0aCBjbGFzcz0nYm9uZC0yIGF0b20tMSBhdG9tLTMnIGQ9J00gMzguOSwzMy4wIEwgMzguOSw0Ni4zJyBzdHlsZT0nZmlsbDpub25lO2ZpbGwtcnVsZTpldmVub2RkO3N0cm9rZTojM0I0MTQzO3N0cm9rZS13aWR0aDoxLjBweDtzdHJva2UtbGluZWNhcDpidXR0O3N0cm9rZS1saW5lam9pbjptaXRlcjtzdHJva2Utb3BhY2l0eToxJyAvPgo8cGF0aCBjbGFzcz0nYm9uZC0yIGF0b20tMSBhdG9tLTMnIGQ9J00gMzguOSw0Ni4zIEwgMzguOSw1OS42JyBzdHlsZT0nZmlsbDpub25lO2ZpbGwtcnVsZTpldmVub2RkO3N0cm9rZTojRTg0MjM1O3N0cm9rZS13aWR0aDoxLjBweDtzdHJva2UtbGluZWNhcDpidXR0O3N0cm9rZS1saW5lam9pbjptaXRlcjtzdHJva2Utb3BhY2l0eToxJyAvPgo8cGF0aCBjbGFzcz0nYm9uZC0yIGF0b20tMSBhdG9tLTMnIGQ9J00gNDUuMSwzMy4wIEwgNDUuMSw0Ni4zJyBzdHlsZT0nZmlsbDpub25lO2ZpbGwtcnVsZTpldmVub2RkO3N0cm9rZTojM0I0MTQzO3N0cm9rZS13aWR0aDoxLjBweDtzdHJva2UtbGluZWNhcDpidXR0O3N0cm9rZS1saW5lam9pbjptaXRlcjtzdHJva2Utb3BhY2l0eToxJyAvPgo8cGF0aCBjbGFzcz0nYm9uZC0yIGF0b20tMSBhdG9tLTMnIGQ9J00gNDUuMSw0Ni4zIEwgNDUuMSw1OS42JyBzdHlsZT0nZmlsbDpub25lO2ZpbGwtcnVsZTpldmVub2RkO3N0cm9rZTojRTg0MjM1O3N0cm9rZS13aWR0aDoxLjBweDtzdHJva2UtbGluZWNhcDpidXR0O3N0cm9rZS1saW5lam9pbjptaXRlcjtzdHJva2Utb3BhY2l0eToxJyAvPgo8dGV4dCB4PSc2NS4xJyB5PScyMy43JyBjbGFzcz0nYXRvbS0wJyBzdHlsZT0nZm9udC1zaXplOjEycHg7Zm9udC1zdHlsZTpub3JtYWw7Zm9udC13ZWlnaHQ6bm9ybWFsO2ZpbGwtb3BhY2l0eToxO3N0cm9rZTpub25lO2ZvbnQtZmFtaWx5OnNhbnMtc2VyaWY7dGV4dC1hbmNob3I6c3RhcnQ7ZmlsbDojRTg0MjM1JyA+TzwvdGV4dD4KPHRleHQgeD0nNzMuNycgeT0nMjMuNycgY2xhc3M9J2F0b20tMCcgc3R5bGU9J2ZvbnQtc2l6ZToxMnB4O2ZvbnQtc3R5bGU6bm9ybWFsO2ZvbnQtd2VpZ2h0Om5vcm1hbDtmaWxsLW9wYWNpdHk6MTtzdHJva2U6bm9uZTtmb250LWZhbWlseTpzYW5zLXNlcmlmO3RleHQtYW5jaG9yOnN0YXJ0O2ZpbGw6I0U4NDIzNScgPkg8L3RleHQ+Cjx0ZXh0IHg9JzMuNCcgeT0nMjMuNycgY2xhc3M9J2F0b20tMicgc3R5bGU9J2ZvbnQtc2l6ZToxMnB4O2ZvbnQtc3R5bGU6bm9ybWFsO2ZvbnQtd2VpZ2h0Om5vcm1hbDtmaWxsLW9wYWNpdHk6MTtzdHJva2U6bm9uZTtmb250LWZhbWlseTpzYW5zLXNlcmlmO3RleHQtYW5jaG9yOnN0YXJ0O2ZpbGw6I0U4NDIzNScgPkg8L3RleHQ+Cjx0ZXh0IHg9JzExLjMnIHk9JzIzLjcnIGNsYXNzPSdhdG9tLTInIHN0eWxlPSdmb250LXNpemU6MTJweDtmb250LXN0eWxlOm5vcm1hbDtmb250LXdlaWdodDpub3JtYWw7ZmlsbC1vcGFjaXR5OjE7c3Ryb2tlOm5vbmU7Zm9udC1mYW1pbHk6c2Fucy1zZXJpZjt0ZXh0LWFuY2hvcjpzdGFydDtmaWxsOiNFODQyMzUnID5PPC90ZXh0Pgo8dGV4dCB4PSczOC4yJyB5PSc3MC4zJyBjbGFzcz0nYXRvbS0zJyBzdHlsZT0nZm9udC1zaXplOjEycHg7Zm9udC1zdHlsZTpub3JtYWw7Zm9udC13ZWlnaHQ6bm9ybWFsO2ZpbGwtb3BhY2l0eToxO3N0cm9rZTpub25lO2ZvbnQtZmFtaWx5OnNhbnMtc2VyaWY7dGV4dC1hbmNob3I6c3RhcnQ7ZmlsbDojRTg0MjM1JyA+TzwvdGV4dD4KPC9zdmc+Cg== OC(O)=O BVKZGUZCCUSVTD-UHFFFAOYSA-N 0.000 description 1
  • 241000408659 Darpa Species 0.000 description 1
  • 210000004709 Eyebrows Anatomy 0.000 description 1
  • 210000001061 Forehead Anatomy 0.000 description 1
  • 101700046517 MED14 Proteins 0.000 description 1
  • 235000010627 Phaseolus vulgaris Nutrition 0.000 description 1
  • 240000005158 Phaseolus vulgaris Species 0.000 description 1
  • 206010041235 Snoring Diseases 0.000 description 1
  • 230000004913 activation Effects 0.000 description 1
  • 230000002411 adverse Effects 0.000 description 1
  • 230000036506 anxiety Effects 0.000 description 1
  • 230000000295 complement Effects 0.000 description 1
  • 239000012141 concentrate Substances 0.000 description 1
  • 230000001808 coupling Effects 0.000 description 1
  • 238000010168 coupling process Methods 0.000 description 1
  • 238000005859 coupling reaction Methods 0.000 description 1
  • 230000003111 delayed Effects 0.000 description 1
  • 235000019800 disodium phosphate Nutrition 0.000 description 1
  • 230000004424 eye movement Effects 0.000 description 1
  • 230000004438 eyesight Effects 0.000 description 1
  • 230000036748 firing rate Effects 0.000 description 1
  • 238000007667 floating Methods 0.000 description 1
  • 238000005286 illumination Methods 0.000 description 1
  • 238000002372 labelling Methods 0.000 description 1
  • 230000001404 mediated Effects 0.000 description 1
  • 238000005065 mining Methods 0.000 description 1
  • 230000004048 modification Effects 0.000 description 1
  • 238000006011 modification reaction Methods 0.000 description 1
  • 230000001264 neutralization Effects 0.000 description 1
  • 238000005457 optimization Methods 0.000 description 1
  • 238000007500 overflow downdraw method Methods 0.000 description 1
  • 230000003864 performance function Effects 0.000 description 1
  • NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound data:image/svg+xml;base64,PD94bWwgdmVyc2lvbj0nMS4wJyBlbmNvZGluZz0naXNvLTg4NTktMSc/Pgo8c3ZnIHZlcnNpb249JzEuMScgYmFzZVByb2ZpbGU9J2Z1bGwnCiAgICAgICAgICAgICAgeG1sbnM9J2h0dHA6Ly93d3cudzMub3JnLzIwMDAvc3ZnJwogICAgICAgICAgICAgICAgICAgICAgeG1sbnM6cmRraXQ9J2h0dHA6Ly93d3cucmRraXQub3JnL3htbCcKICAgICAgICAgICAgICAgICAgICAgIHhtbG5zOnhsaW5rPSdodHRwOi8vd3d3LnczLm9yZy8xOTk5L3hsaW5rJwogICAgICAgICAgICAgICAgICB4bWw6c3BhY2U9J3ByZXNlcnZlJwp3aWR0aD0nMzAwcHgnIGhlaWdodD0nMzAwcHgnIHZpZXdCb3g9JzAgMCAzMDAgMzAwJz4KPCEtLSBFTkQgT0YgSEVBREVSIC0tPgo8cmVjdCBzdHlsZT0nb3BhY2l0eToxLjA7ZmlsbDojRkZGRkZGO3N0cm9rZTpub25lJyB3aWR0aD0nMzAwLjAnIGhlaWdodD0nMzAwLjAnIHg9JzAuMCcgeT0nMC4wJz4gPC9yZWN0Pgo8cGF0aCBjbGFzcz0nYm9uZC0wIGF0b20tMCBhdG9tLTEnIGQ9J00gMTMuNiwxMjMuNCBMIDUyLjcsMTE5LjAnIHN0eWxlPSdmaWxsOm5vbmU7ZmlsbC1ydWxlOmV2ZW5vZGQ7c3Ryb2tlOiMzQjQxNDM7c3Ryb2tlLXdpZHRoOjIuMHB4O3N0cm9rZS1saW5lY2FwOmJ1dHQ7c3Ryb2tlLWxpbmVqb2luOm1pdGVyO3N0cm9rZS1vcGFjaXR5OjEnIC8+CjxwYXRoIGNsYXNzPSdib25kLTEgYXRvbS0xIGF0b20tMicgZD0nTSA1Mi43LDExOS4wIEwgNTcuMSwxMDkuMCcgc3R5bGU9J2ZpbGw6bm9uZTtmaWxsLXJ1bGU6ZXZlbm9kZDtzdHJva2U6IzNCNDE0MztzdHJva2Utd2lkdGg6Mi4wcHg7c3Ryb2tlLWxpbmVjYXA6YnV0dDtzdHJva2UtbGluZWpvaW46bWl0ZXI7c3Ryb2tlLW9wYWNpdHk6MScgLz4KPHBhdGggY2xhc3M9J2JvbmQtMSBhdG9tLTEgYXRvbS0yJyBkPSdNIDU3LjEsMTA5LjAgTCA2MS40LDk5LjAnIHN0eWxlPSdmaWxsOm5vbmU7ZmlsbC1ydWxlOmV2ZW5vZGQ7c3Ryb2tlOiM0Mjg0RjQ7c3Ryb2tlLXdpZHRoOjIuMHB4O3N0cm9rZS1saW5lY2FwOmJ1dHQ7c3Ryb2tlLWxpbmVqb2luOm1pdGVyO3N0cm9rZS1vcGFjaXR5OjEnIC8+CjxwYXRoIGNsYXNzPSdib25kLTEgYXRvbS0xIGF0b20tMicgZD0nTSA2MS4yLDExOS4yIEwgNjQuMywxMTIuMicgc3R5bGU9J2ZpbGw6bm9uZTtmaWxsLXJ1bGU6ZXZlbm9kZDtzdHJva2U6IzNCNDE0MztzdHJva2Utd2lkdGg6Mi4wcHg7c3Ryb2tlLWxpbmVjYXA6YnV0dDtzdHJva2UtbGluZWpvaW46bWl0ZXI7c3Ryb2tlLW9wYWNpdHk6MScgLz4KPHBhdGggY2xhc3M9J2JvbmQtMSBhdG9tLTEgYXRvbS0yJyBkPSdNIDY0LjMsMTEyLjIgTCA2Ny4zLDEwNS4yJyBzdHlsZT0nZmlsbDpub25lO2ZpbGwtcnVsZTpldmVub2RkO3N0cm9rZTojNDI4NEY0O3N0cm9rZS13aWR0aDoyLjBweDtzdHJva2UtbGluZWNhcDpidXR0O3N0cm9rZS1saW5lam9pbjptaXRlcjtzdHJva2Utb3BhY2l0eToxJyAvPgo8cGF0aCBjbGFzcz0nYm9uZC0xNSBhdG9tLTE0IGF0b20tMScgZD0nTSA3Ni4xLDE1MC42IEwgNTIuNywxMTkuMCcgc3R5bGU9J2ZpbGw6bm9uZTtmaWxsLXJ1bGU6ZXZlbm9kZDtzdHJva2U6IzNCNDE0MztzdHJva2Utd2lkdGg6Mi4wcHg7c3Ryb2tlLWxpbmVjYXA6YnV0dDtzdHJva2UtbGluZWpvaW46bWl0ZXI7c3Ryb2tlLW9wYWNpdHk6MScgLz4KPHBhdGggY2xhc3M9J2JvbmQtMiBhdG9tLTIgYXRvbS0zJyBkPSdNIDgxLjksODEuNCBMIDk0LjcsODAuMCcgc3R5bGU9J2ZpbGw6bm9uZTtmaWxsLXJ1bGU6ZXZlbm9kZDtzdHJva2U6IzQyODRGNDtzdHJva2Utd2lkdGg6Mi4wcHg7c3Ryb2tlLWxpbmVjYXA6YnV0dDtzdHJva2UtbGluZWpvaW46bWl0ZXI7c3Ryb2tlLW9wYWNpdHk6MScgLz4KPHBhdGggY2xhc3M9J2JvbmQtMiBhdG9tLTIgYXRvbS0zJyBkPSdNIDk0LjcsODAuMCBMIDEwNy41LDc4LjUnIHN0eWxlPSdmaWxsOm5vbmU7ZmlsbC1ydWxlOmV2ZW5vZGQ7c3Ryb2tlOiMzQjQxNDM7c3Ryb2tlLXdpZHRoOjIuMHB4O3N0cm9rZS1saW5lY2FwOmJ1dHQ7c3Ryb2tlLWxpbmVqb2luOm1pdGVyO3N0cm9rZS1vcGFjaXR5OjEnIC8+CjxwYXRoIGNsYXNzPSdib25kLTMgYXRvbS0zIGF0b20tNCcgZD0nTSAxMDcuNSw3OC41IEwgMTMwLjksMTEwLjInIHN0eWxlPSdmaWxsOm5vbmU7ZmlsbC1ydWxlOmV2ZW5vZGQ7c3Ryb2tlOiMzQjQxNDM7c3Ryb2tlLXdpZHRoOjIuMHB4O3N0cm9rZS1saW5lY2FwOmJ1dHQ7c3Ryb2tlLWxpbmVqb2luOm1pdGVyO3N0cm9rZS1vcGFjaXR5OjEnIC8+CjxwYXRoIGNsYXNzPSdib25kLTMgYXRvbS0zIGF0b20tNCcgZD0nTSAxMDQuNyw4Ny45IEwgMTIxLjAsMTEwLjEnIHN0eWxlPSdmaWxsOm5vbmU7ZmlsbC1ydWxlOmV2ZW5vZGQ7c3Ryb2tlOiMzQjQxNDM7c3Ryb2tlLXdpZHRoOjIuMHB4O3N0cm9rZS1saW5lY2FwOmJ1dHQ7c3Ryb2tlLWxpbmVqb2luOm1pdGVyO3N0cm9rZS1vcGFjaXR5OjEnIC8+CjxwYXRoIGNsYXNzPSdib25kLTQgYXRvbS00IGF0b20tNScgZD0nTSAxMzAuOSwxMTAuMiBMIDE2OS45LDEwNS43JyBzdHlsZT0nZmlsbDpub25lO2ZpbGwtcnVsZTpldmVub2RkO3N0cm9rZTojM0I0MTQzO3N0cm9rZS13aWR0aDoyLjBweDtzdHJva2UtbGluZWNhcDpidXR0O3N0cm9rZS1saW5lam9pbjptaXRlcjtzdHJva2Utb3BhY2l0eToxJyAvPgo8cGF0aCBjbGFzcz0nYm9uZC0xMCBhdG9tLTQgYXRvbS0xMScgZD0nTSAxMzAuOSwxMTAuMiBMIDExNS4yLDE0Ni4yJyBzdHlsZT0nZmlsbDpub25lO2ZpbGwtcnVsZTpldmVub2RkO3N0cm9rZTojM0I0MTQzO3N0cm9rZS13aWR0aDoyLjBweDtzdHJva2UtbGluZWNhcDpidXR0O3N0cm9rZS1saW5lam9pbjptaXRlcjtzdHJva2Utb3BhY2l0eToxJyAvPgo8cGF0aCBjbGFzcz0nYm9uZC01IGF0b20tNSBhdG9tLTYnIGQ9J00gMTY5LjksMTA1LjcgTCAxNzcuMiwxMTUuNScgc3R5bGU9J2ZpbGw6bm9uZTtmaWxsLXJ1bGU6ZXZlbm9kZDtzdHJva2U6IzNCNDE0MztzdHJva2Utd2lkdGg6Mi4wcHg7c3Ryb2tlLWxpbmVjYXA6YnV0dDtzdHJva2UtbGluZWpvaW46bWl0ZXI7c3Ryb2tlLW9wYWNpdHk6MScgLz4KPHBhdGggY2xhc3M9J2JvbmQtNSBhdG9tLTUgYXRvbS02JyBkPSdNIDE3Ny4yLDExNS41IEwgMTg0LjQsMTI1LjMnIHN0eWxlPSdmaWxsOm5vbmU7ZmlsbC1ydWxlOmV2ZW5vZGQ7c3Ryb2tlOiNFODQyMzU7c3Ryb2tlLXdpZHRoOjIuMHB4O3N0cm9rZS1saW5lY2FwOmJ1dHQ7c3Ryb2tlLWxpbmVqb2luOm1pdGVyO3N0cm9rZS1vcGFjaXR5OjEnIC8+CjxwYXRoIGNsYXNzPSdib25kLTYgYXRvbS02IGF0b20tNycgZD0nTSAyMDYuOCwxMzUuOCBMIDIxMy4wLDEzNS4xJyBzdHlsZT0nZmlsbDpub25lO2ZpbGwtcnVsZTpldmVub2RkO3N0cm9rZTojRTg0MjM1O3N0cm9rZS13aWR0aDoyLjBweDtzdHJva2UtbGluZWNhcDpidXR0O3N0cm9rZS1saW5lam9pbjptaXRlcjtzdHJva2Utb3BhY2l0eToxJyAvPgo8cGF0aCBjbGFzcz0nYm9uZC02IGF0b20tNiBhdG9tLTcnIGQ9J00gMjEzLjAsMTM1LjEgTCAyMTkuMiwxMzQuNCcgc3R5bGU9J2ZpbGw6bm9uZTtmaWxsLXJ1bGU6ZXZlbm9kZDtzdHJva2U6I0ZGNjBCNztzdHJva2Utd2lkdGg6Mi4wcHg7c3Ryb2tlLWxpbmVjYXA6YnV0dDtzdHJva2UtbGluZWpvaW46bWl0ZXI7c3Ryb2tlLW9wYWNpdHk6MScgLz4KPHBhdGggY2xhc3M9J2JvbmQtNyBhdG9tLTcgYXRvbS04JyBkPSdNIDIzMC45LDExOS40IEwgMjMwLjMsMTE0LjgnIHN0eWxlPSdmaWxsOm5vbmU7ZmlsbC1ydWxlOmV2ZW5vZGQ7c3Ryb2tlOiNGRjYwQjc7c3Ryb2tlLXdpZHRoOjIuMHB4O3N0cm9rZS1saW5lY2FwOmJ1dHQ7c3Ryb2tlLWxpbmVqb2luOm1pdGVyO3N0cm9rZS1vcGFjaXR5OjEnIC8+CjxwYXRoIGNsYXNzPSdib25kLTcgYXRvbS03IGF0b20tOCcgZD0nTSAyMzAuMywxMTQuOCBMIDIyOS44LDExMC4yJyBzdHlsZT0nZmlsbDpub25lO2ZpbGwtcnVsZTpldmVub2RkO3N0cm9rZTojRTg0MjM1O3N0cm9rZS13aWR0aDoyLjBweDtzdHJva2UtbGluZWNhcDpidXR0O3N0cm9rZS1saW5lam9pbjptaXRlcjtzdHJva2Utb3BhY2l0eToxJyAvPgo8cGF0aCBjbGFzcz0nYm9uZC04IGF0b20tNyBhdG9tLTknIGQ9J00gMjQ1LjksMTMxLjQgTCAyNTIuMSwxMzAuNycgc3R5bGU9J2ZpbGw6bm9uZTtmaWxsLXJ1bGU6ZXZlbm9kZDtzdHJva2U6I0ZGNjBCNztzdHJva2Utd2lkdGg6Mi4wcHg7c3Ryb2tlLWxpbmVjYXA6YnV0dDtzdHJva2UtbGluZWpvaW46bWl0ZXI7c3Ryb2tlLW9wYWNpdHk6MScgLz4KPHBhdGggY2xhc3M9J2JvbmQtOCBhdG9tLTcgYXRvbS05JyBkPSdNIDI1Mi4xLDEzMC43IEwgMjU4LjMsMTMwLjAnIHN0eWxlPSdmaWxsOm5vbmU7ZmlsbC1ydWxlOmV2ZW5vZGQ7c3Ryb2tlOiNFODQyMzU7c3Ryb2tlLXdpZHRoOjIuMHB4O3N0cm9rZS1saW5lY2FwOmJ1dHQ7c3Ryb2tlLWxpbmVqb2luOm1pdGVyO3N0cm9rZS1vcGFjaXR5OjEnIC8+CjxwYXRoIGNsYXNzPSdib25kLTkgYXRvbS03IGF0b20tMTAnIGQ9J00gMjMwLjQsMTUwLjAgTCAyMzAuOSwxNTQuNycgc3R5bGU9J2ZpbGw6bm9uZTtmaWxsLXJ1bGU6ZXZlbm9kZDtzdHJva2U6I0ZGNjBCNztzdHJva2Utd2lkdGg6Mi4wcHg7c3Ryb2tlLWxpbmVjYXA6YnV0dDtzdHJva2UtbGluZWpvaW46bWl0ZXI7c3Ryb2tlLW9wYWNpdHk6MScgLz4KPHBhdGggY2xhc3M9J2JvbmQtOSBhdG9tLTcgYXRvbS0xMCcgZD0nTSAyMzAuOSwxNTQuNyBMIDIzMS40LDE1OS40JyBzdHlsZT0nZmlsbDpub25lO2ZpbGwtcnVsZTpldmVub2RkO3N0cm9rZTojRTg0MjM1O3N0cm9rZS13aWR0aDoyLjBweDtzdHJva2UtbGluZWNhcDpidXR0O3N0cm9rZS1saW5lam9pbjptaXRlcjtzdHJva2Utb3BhY2l0eToxJyAvPgo8cGF0aCBjbGFzcz0nYm9uZC05IGF0b20tNyBhdG9tLTEwJyBkPSdNIDIzOC4yLDE0OS4yIEwgMjM4LjcsMTUzLjgnIHN0eWxlPSdmaWxsOm5vbmU7ZmlsbC1ydWxlOmV2ZW5vZGQ7c3Ryb2tlOiNGRjYwQjc7c3Ryb2tlLXdpZHRoOjIuMHB4O3N0cm9rZS1saW5lY2FwOmJ1dHQ7c3Ryb2tlLWxpbmVqb2luOm1pdGVyO3N0cm9rZS1vcGFjaXR5OjEnIC8+CjxwYXRoIGNsYXNzPSdib25kLTkgYXRvbS03IGF0b20tMTAnIGQ9J00gMjM4LjcsMTUzLjggTCAyMzkuMiwxNTguNScgc3R5bGU9J2ZpbGw6bm9uZTtmaWxsLXJ1bGU6ZXZlbm9kZDtzdHJva2U6I0U4NDIzNTtzdHJva2Utd2lkdGg6Mi4wcHg7c3Ryb2tlLWxpbmVjYXA6YnV0dDtzdHJva2UtbGluZWpvaW46bWl0ZXI7c3Ryb2tlLW9wYWNpdHk6MScgLz4KPHBhdGggY2xhc3M9J2JvbmQtMTEgYXRvbS0xMSBhdG9tLTEyJyBkPSdNIDExNS4yLDE0Ni4yIEwgMTM4LjUsMTc3LjgnIHN0eWxlPSdmaWxsOm5vbmU7ZmlsbC1ydWxlOmV2ZW5vZGQ7c3Ryb2tlOiMzQjQxNDM7c3Ryb2tlLXdpZHRoOjIuMHB4O3N0cm9rZS1saW5lY2FwOmJ1dHQ7c3Ryb2tlLWxpbmVqb2luOm1pdGVyO3N0cm9rZS1vcGFjaXR5OjEnIC8+CjxwYXRoIGNsYXNzPSdib25kLTEzIGF0b20tMTEgYXRvbS0xNCcgZD0nTSAxMTUuMiwxNDYuMiBMIDc2LjEsMTUwLjYnIHN0eWxlPSdmaWxsOm5vbmU7ZmlsbC1ydWxlOmV2ZW5vZGQ7c3Ryb2tlOiMzQjQxNDM7c3Ryb2tlLXdpZHRoOjIuMHB4O3N0cm9rZS1saW5lY2FwOmJ1dHQ7c3Ryb2tlLWxpbmVqb2luOm1pdGVyO3N0cm9rZS1vcGFjaXR5OjEnIC8+CjxwYXRoIGNsYXNzPSdib25kLTEzIGF0b20tMTEgYXRvbS0xNCcgZD0nTSAxMDguNCwxMzkuMSBMIDgxLjEsMTQyLjInIHN0eWxlPSdmaWxsOm5vbmU7ZmlsbC1ydWxlOmV2ZW5vZGQ7c3Ryb2tlOiMzQjQxNDM7c3Ryb2tlLXdpZHRoOjIuMHB4O3N0cm9rZS1saW5lY2FwOmJ1dHQ7c3Ryb2tlLWxpbmVqb2luOm1pdGVyO3N0cm9rZS1vcGFjaXR5OjEnIC8+CjxwYXRoIGNsYXNzPSdib25kLTEyIGF0b20tMTIgYXRvbS0xMycgZD0nTSAxMzQuOSwxNzYuMyBMIDEyOS45LDE4Ny44JyBzdHlsZT0nZmlsbDpub25lO2ZpbGwtcnVsZTpldmVub2RkO3N0cm9rZTojM0I0MTQzO3N0cm9rZS13aWR0aDoyLjBweDtzdHJva2UtbGluZWNhcDpidXR0O3N0cm9rZS1saW5lam9pbjptaXRlcjtzdHJva2Utb3BhY2l0eToxJyAvPgo8cGF0aCBjbGFzcz0nYm9uZC0xMiBhdG9tLTEyIGF0b20tMTMnIGQ9J00gMTI5LjksMTg3LjggTCAxMjQuOSwxOTkuNCcgc3R5bGU9J2ZpbGw6bm9uZTtmaWxsLXJ1bGU6ZXZlbm9kZDtzdHJva2U6I0U4NDIzNTtzdHJva2Utd2lkdGg6Mi4wcHg7c3Ryb2tlLWxpbmVjYXA6YnV0dDtzdHJva2UtbGluZWpvaW46bWl0ZXI7c3Ryb2tlLW9wYWNpdHk6MScgLz4KPHBhdGggY2xhc3M9J2JvbmQtMTIgYXRvbS0xMiBhdG9tLTEzJyBkPSdNIDE0Mi4xLDE3OS40IEwgMTM3LjEsMTkxLjAnIHN0eWxlPSdmaWxsOm5vbmU7ZmlsbC1ydWxlOmV2ZW5vZGQ7c3Ryb2tlOiMzQjQxNDM7c3Ryb2tlLXdpZHRoOjIuMHB4O3N0cm9rZS1saW5lY2FwOmJ1dHQ7c3Ryb2tlLWxpbmVqb2luOm1pdGVyO3N0cm9rZS1vcGFjaXR5OjEnIC8+CjxwYXRoIGNsYXNzPSdib25kLTEyIGF0b20tMTIgYXRvbS0xMycgZD0nTSAxMzcuMSwxOTEuMCBMIDEzMi4xLDIwMi42JyBzdHlsZT0nZmlsbDpub25lO2ZpbGwtcnVsZTpldmVub2RkO3N0cm9rZTojRTg0MjM1O3N0cm9rZS13aWR0aDoyLjBweDtzdHJva2UtbGluZWNhcDpidXR0O3N0cm9rZS1saW5lam9pbjptaXRlcjtzdHJva2Utb3BhY2l0eToxJyAvPgo8cGF0aCBjbGFzcz0nYm9uZC0xNCBhdG9tLTE0IGF0b20tMTUnIGQ9J00gNzYuMSwxNTAuNiBMIDcxLjAsMTYyLjInIHN0eWxlPSdmaWxsOm5vbmU7ZmlsbC1ydWxlOmV2ZW5vZGQ7c3Ryb2tlOiMzQjQxNDM7c3Ryb2tlLXdpZHRoOjIuMHB4O3N0cm9rZS1saW5lY2FwOmJ1dHQ7c3Ryb2tlLWxpbmVqb2luOm1pdGVyO3N0cm9rZS1vcGFjaXR5OjEnIC8+CjxwYXRoIGNsYXNzPSdib25kLTE0IGF0b20tMTQgYXRvbS0xNScgZD0nTSA3MS4wLDE2Mi4yIEwgNjYuMCwxNzMuOCcgc3R5bGU9J2ZpbGw6bm9uZTtmaWxsLXJ1bGU6ZXZlbm9kZDtzdHJva2U6I0U4NDIzNTtzdHJva2Utd2lkdGg6Mi4wcHg7c3Ryb2tlLWxpbmVjYXA6YnV0dDtzdHJva2UtbGluZWpvaW46bWl0ZXI7c3Ryb2tlLW9wYWNpdHk6MScgLz4KPHRleHQgeD0nNjMuNycgeT0nOTAuOCcgY2xhc3M9J2F0b20tMicgc3R5bGU9J2ZvbnQtc2l6ZToxNXB4O2ZvbnQtc3R5bGU6bm9ybWFsO2ZvbnQtd2VpZ2h0Om5vcm1hbDtmaWxsLW9wYWNpdHk6MTtzdHJva2U6bm9uZTtmb250LWZhbWlseTpzYW5zLXNlcmlmO3RleHQtYW5jaG9yOnN0YXJ0O2ZpbGw6IzQyODRGNCcgPk48L3RleHQ+Cjx0ZXh0IHg9JzE4OC42JyB5PScxNDUuMicgY2xhc3M9J2F0b20tNicgc3R5bGU9J2ZvbnQtc2l6ZToxNXB4O2ZvbnQtc3R5bGU6bm9ybWFsO2ZvbnQtd2VpZ2h0Om5vcm1hbDtmaWxsLW9wYWNpdHk6MTtzdHJva2U6bm9uZTtmb250LWZhbWlseTpzYW5zLXNlcmlmO3RleHQtYW5jaG9yOnN0YXJ0O2ZpbGw6I0U4NDIzNScgPk88L3RleHQ+Cjx0ZXh0IHg9JzIyNy43JyB5PScxNDAuOCcgY2xhc3M9J2F0b20tNycgc3R5bGU9J2ZvbnQtc2l6ZToxNXB4O2ZvbnQtc3R5bGU6bm9ybWFsO2ZvbnQtd2VpZ2h0Om5vcm1hbDtmaWxsLW9wYWNpdHk6MTtzdHJva2U6bm9uZTtmb250LWZhbWlseTpzYW5zLXNlcmlmO3RleHQtYW5jaG9yOnN0YXJ0O2ZpbGw6I0ZGNjBCNycgPlA8L3RleHQ+Cjx0ZXh0IHg9JzIyMy4yJyB5PScxMDEuNycgY2xhc3M9J2F0b20tOCcgc3R5bGU9J2ZvbnQtc2l6ZToxNXB4O2ZvbnQtc3R5bGU6bm9ybWFsO2ZvbnQtd2VpZ2h0Om5vcm1hbDtmaWxsLW9wYWNpdHk6MTtzdHJva2U6bm9uZTtmb250LWZhbWlseTpzYW5zLXNlcmlmO3RleHQtYW5jaG9yOnN0YXJ0O2ZpbGw6I0U4NDIzNScgPk88L3RleHQ+Cjx0ZXh0IHg9JzIzNC4xJyB5PScxMDEuNycgY2xhc3M9J2F0b20tOCcgc3R5bGU9J2ZvbnQtc2l6ZToxNXB4O2ZvbnQtc3R5bGU6bm9ybWFsO2ZvbnQtd2VpZ2h0Om5vcm1hbDtmaWxsLW9wYWNpdHk6MTtzdHJva2U6bm9uZTtmb250LWZhbWlseTpzYW5zLXNlcmlmO3RleHQtYW5jaG9yOnN0YXJ0O2ZpbGw6I0U4NDIzNScgPkg8L3RleHQ+Cjx0ZXh0IHg9JzI2Ni44JyB5PScxMzYuNCcgY2xhc3M9J2F0b20tOScgc3R5bGU9J2ZvbnQtc2l6ZToxNXB4O2ZvbnQtc3R5bGU6bm9ybWFsO2ZvbnQtd2VpZ2h0Om5vcm1hbDtmaWxsLW9wYWNpdHk6MTtzdHJva2U6bm9uZTtmb250LWZhbWlseTpzYW5zLXNlcmlmO3RleHQtYW5jaG9yOnN0YXJ0O2ZpbGw6I0U4NDIzNScgPk88L3RleHQ+Cjx0ZXh0IHg9JzI3Ny42JyB5PScxMzYuNCcgY2xhc3M9J2F0b20tOScgc3R5bGU9J2ZvbnQtc2l6ZToxNXB4O2ZvbnQtc3R5bGU6bm9ybWFsO2ZvbnQtd2VpZ2h0Om5vcm1hbDtmaWxsLW9wYWNpdHk6MTtzdHJva2U6bm9uZTtmb250LWZhbWlseTpzYW5zLXNlcmlmO3RleHQtYW5jaG9yOnN0YXJ0O2ZpbGw6I0U4NDIzNScgPkg8L3RleHQ+Cjx0ZXh0IHg9JzIzMi4xJyB5PScxNzkuOScgY2xhc3M9J2F0b20tMTAnIHN0eWxlPSdmb250LXNpemU6MTVweDtmb250LXN0eWxlOm5vcm1hbDtmb250LXdlaWdodDpub3JtYWw7ZmlsbC1vcGFjaXR5OjE7c3Ryb2tlOm5vbmU7Zm9udC1mYW1pbHk6c2Fucy1zZXJpZjt0ZXh0LWFuY2hvcjpzdGFydDtmaWxsOiNFODQyMzUnID5PPC90ZXh0Pgo8dGV4dCB4PScxMTguMScgeT0nMjIxLjgnIGNsYXNzPSdhdG9tLTEzJyBzdHlsZT0nZm9udC1zaXplOjE1cHg7Zm9udC1zdHlsZTpub3JtYWw7Zm9udC13ZWlnaHQ6bm9ybWFsO2ZpbGwtb3BhY2l0eToxO3N0cm9rZTpub25lO2ZvbnQtZmFtaWx5OnNhbnMtc2VyaWY7dGV4dC1hbmNob3I6c3RhcnQ7ZmlsbDojRTg0MjM1JyA+TzwvdGV4dD4KPHRleHQgeD0nNDUuNicgeT0nMTk0LjYnIGNsYXNzPSdhdG9tLTE1JyBzdHlsZT0nZm9udC1zaXplOjE1cHg7Zm9udC1zdHlsZTpub3JtYWw7Zm9udC13ZWlnaHQ6bm9ybWFsO2ZpbGwtb3BhY2l0eToxO3N0cm9rZTpub25lO2ZvbnQtZmFtaWx5OnNhbnMtc2VyaWY7dGV4dC1hbmNob3I6c3RhcnQ7ZmlsbDojRTg0MjM1JyA+SDwvdGV4dD4KPHRleHQgeD0nNTUuNycgeT0nMTk0LjYnIGNsYXNzPSdhdG9tLTE1JyBzdHlsZT0nZm9udC1zaXplOjE1cHg7Zm9udC1zdHlsZTpub3JtYWw7Zm9udC13ZWlnaHQ6bm9ybWFsO2ZpbGwtb3BhY2l0eToxO3N0cm9rZTpub25lO2ZvbnQtZmFtaWx5OnNhbnMtc2VyaWY7dGV4dC1hbmNob3I6c3RhcnQ7ZmlsbDojRTg0MjM1JyA+TzwvdGV4dD4KPC9zdmc+Cg== data:image/svg+xml;base64,PD94bWwgdmVyc2lvbj0nMS4wJyBlbmNvZGluZz0naXNvLTg4NTktMSc/Pgo8c3ZnIHZlcnNpb249JzEuMScgYmFzZVByb2ZpbGU9J2Z1bGwnCiAgICAgICAgICAgICAgeG1sbnM9J2h0dHA6Ly93d3cudzMub3JnLzIwMDAvc3ZnJwogICAgICAgICAgICAgICAgICAgICAgeG1sbnM6cmRraXQ9J2h0dHA6Ly93d3cucmRraXQub3JnL3htbCcKICAgICAgICAgICAgICAgICAgICAgIHhtbG5zOnhsaW5rPSdodHRwOi8vd3d3LnczLm9yZy8xOTk5L3hsaW5rJwogICAgICAgICAgICAgICAgICB4bWw6c3BhY2U9J3ByZXNlcnZlJwp3aWR0aD0nODVweCcgaGVpZ2h0PSc4NXB4JyB2aWV3Qm94PScwIDAgODUgODUnPgo8IS0tIEVORCBPRiBIRUFERVIgLS0+CjxyZWN0IHN0eWxlPSdvcGFjaXR5OjEuMDtmaWxsOiNGRkZGRkY7c3Ryb2tlOm5vbmUnIHdpZHRoPSc4NS4wJyBoZWlnaHQ9Jzg1LjAnIHg9JzAuMCcgeT0nMC4wJz4gPC9yZWN0Pgo8cGF0aCBjbGFzcz0nYm9uZC0wIGF0b20tMCBhdG9tLTEnIGQ9J00gMy40LDM0LjUgTCAxNC4zLDMzLjInIHN0eWxlPSdmaWxsOm5vbmU7ZmlsbC1ydWxlOmV2ZW5vZGQ7c3Ryb2tlOiMzQjQxNDM7c3Ryb2tlLXdpZHRoOjEuMHB4O3N0cm9rZS1saW5lY2FwOmJ1dHQ7c3Ryb2tlLWxpbmVqb2luOm1pdGVyO3N0cm9rZS1vcGFjaXR5OjEnIC8+CjxwYXRoIGNsYXNzPSdib25kLTEgYXRvbS0xIGF0b20tMicgZD0nTSAxNC4zLDMzLjIgTCAxNS44LDI5LjgnIHN0eWxlPSdmaWxsOm5vbmU7ZmlsbC1ydWxlOmV2ZW5vZGQ7c3Ryb2tlOiMzQjQxNDM7c3Ryb2tlLXdpZHRoOjEuMHB4O3N0cm9rZS1saW5lY2FwOmJ1dHQ7c3Ryb2tlLWxpbmVqb2luOm1pdGVyO3N0cm9rZS1vcGFjaXR5OjEnIC8+CjxwYXRoIGNsYXNzPSdib25kLTEgYXRvbS0xIGF0b20tMicgZD0nTSAxNS44LDI5LjggTCAxNy4zLDI2LjQnIHN0eWxlPSdmaWxsOm5vbmU7ZmlsbC1ydWxlOmV2ZW5vZGQ7c3Ryb2tlOiM0Mjg0RjQ7c3Ryb2tlLXdpZHRoOjEuMHB4O3N0cm9rZS1saW5lY2FwOmJ1dHQ7c3Ryb2tlLWxpbmVqb2luOm1pdGVyO3N0cm9rZS1vcGFjaXR5OjEnIC8+CjxwYXRoIGNsYXNzPSdib25kLTEgYXRvbS0xIGF0b20tMicgZD0nTSAxNi44LDMzLjEgTCAxNy44LDMwLjcnIHN0eWxlPSdmaWxsOm5vbmU7ZmlsbC1ydWxlOmV2ZW5vZGQ7c3Ryb2tlOiMzQjQxNDM7c3Ryb2tlLXdpZHRoOjEuMHB4O3N0cm9rZS1saW5lY2FwOmJ1dHQ7c3Ryb2tlLWxpbmVqb2luOm1pdGVyO3N0cm9rZS1vcGFjaXR5OjEnIC8+CjxwYXRoIGNsYXNzPSdib25kLTEgYXRvbS0xIGF0b20tMicgZD0nTSAxNy44LDMwLjcgTCAxOC44LDI4LjMnIHN0eWxlPSdmaWxsOm5vbmU7ZmlsbC1ydWxlOmV2ZW5vZGQ7c3Ryb2tlOiM0Mjg0RjQ7c3Ryb2tlLXdpZHRoOjEuMHB4O3N0cm9rZS1saW5lY2FwOmJ1dHQ7c3Ryb2tlLWxpbmVqb2luOm1pdGVyO3N0cm9rZS1vcGFjaXR5OjEnIC8+CjxwYXRoIGNsYXNzPSdib25kLTE1IGF0b20tMTQgYXRvbS0xJyBkPSdNIDIwLjgsNDIuMSBMIDE0LjMsMzMuMicgc3R5bGU9J2ZpbGw6bm9uZTtmaWxsLXJ1bGU6ZXZlbm9kZDtzdHJva2U6IzNCNDE0MztzdHJva2Utd2lkdGg6MS4wcHg7c3Ryb2tlLWxpbmVjYXA6YnV0dDtzdHJva2UtbGluZWpvaW46bWl0ZXI7c3Ryb2tlLW9wYWNpdHk6MScgLz4KPHBhdGggY2xhc3M9J2JvbmQtMiBhdG9tLTIgYXRvbS0zJyBkPSdNIDIwLjgsMjIuOSBMIDI1LjIsMjIuNCcgc3R5bGU9J2ZpbGw6bm9uZTtmaWxsLXJ1bGU6ZXZlbm9kZDtzdHJva2U6IzQyODRGNDtzdHJva2Utd2lkdGg6MS4wcHg7c3Ryb2tlLWxpbmVjYXA6YnV0dDtzdHJva2UtbGluZWpvaW46bWl0ZXI7c3Ryb2tlLW9wYWNpdHk6MScgLz4KPHBhdGggY2xhc3M9J2JvbmQtMiBhdG9tLTIgYXRvbS0zJyBkPSdNIDI1LjIsMjIuNCBMIDI5LjYsMjEuOScgc3R5bGU9J2ZpbGw6bm9uZTtmaWxsLXJ1bGU6ZXZlbm9kZDtzdHJva2U6IzNCNDE0MztzdHJva2Utd2lkdGg6MS4wcHg7c3Ryb2tlLWxpbmVjYXA6YnV0dDtzdHJva2UtbGluZWpvaW46bWl0ZXI7c3Ryb2tlLW9wYWNpdHk6MScgLz4KPHBhdGggY2xhc3M9J2JvbmQtMyBhdG9tLTMgYXRvbS00JyBkPSdNIDI5LjYsMjEuOSBMIDM2LjIsMzAuOCcgc3R5bGU9J2ZpbGw6bm9uZTtmaWxsLXJ1bGU6ZXZlbm9kZDtzdHJva2U6IzNCNDE0MztzdHJva2Utd2lkdGg6MS4wcHg7c3Ryb2tlLWxpbmVjYXA6YnV0dDtzdHJva2UtbGluZWpvaW46bWl0ZXI7c3Ryb2tlLW9wYWNpdHk6MScgLz4KPHBhdGggY2xhc3M9J2JvbmQtMyBhdG9tLTMgYXRvbS00JyBkPSdNIDI4LjgsMjQuNSBMIDMzLjQsMzAuNycgc3R5bGU9J2ZpbGw6bm9uZTtmaWxsLXJ1bGU6ZXZlbm9kZDtzdHJva2U6IzNCNDE0MztzdHJva2Utd2lkdGg6MS4wcHg7c3Ryb2tlLWxpbmVjYXA6YnV0dDtzdHJva2UtbGluZWpvaW46bWl0ZXI7c3Ryb2tlLW9wYWNpdHk6MScgLz4KPHBhdGggY2xhc3M9J2JvbmQtNCBhdG9tLTQgYXRvbS01JyBkPSdNIDM2LjIsMzAuOCBMIDQ3LjEsMjkuNScgc3R5bGU9J2ZpbGw6bm9uZTtmaWxsLXJ1bGU6ZXZlbm9kZDtzdHJva2U6IzNCNDE0MztzdHJva2Utd2lkdGg6MS4wcHg7c3Ryb2tlLWxpbmVjYXA6YnV0dDtzdHJva2UtbGluZWpvaW46bWl0ZXI7c3Ryb2tlLW9wYWNpdHk6MScgLz4KPHBhdGggY2xhc3M9J2JvbmQtMTAgYXRvbS00IGF0b20tMTEnIGQ9J00gMzYuMiwzMC44IEwgMzEuOCw0MC44JyBzdHlsZT0nZmlsbDpub25lO2ZpbGwtcnVsZTpldmVub2RkO3N0cm9rZTojM0I0MTQzO3N0cm9rZS13aWR0aDoxLjBweDtzdHJva2UtbGluZWNhcDpidXR0O3N0cm9rZS1saW5lam9pbjptaXRlcjtzdHJva2Utb3BhY2l0eToxJyAvPgo8cGF0aCBjbGFzcz0nYm9uZC01IGF0b20tNSBhdG9tLTYnIGQ9J00gNDcuMSwyOS41IEwgNDkuNiwzMi45JyBzdHlsZT0nZmlsbDpub25lO2ZpbGwtcnVsZTpldmVub2RkO3N0cm9rZTojM0I0MTQzO3N0cm9rZS13aWR0aDoxLjBweDtzdHJva2UtbGluZWNhcDpidXR0O3N0cm9rZS1saW5lam9pbjptaXRlcjtzdHJva2Utb3BhY2l0eToxJyAvPgo8cGF0aCBjbGFzcz0nYm9uZC01IGF0b20tNSBhdG9tLTYnIGQ9J00gNDkuNiwzMi45IEwgNTIuMSwzNi4zJyBzdHlsZT0nZmlsbDpub25lO2ZpbGwtcnVsZTpldmVub2RkO3N0cm9rZTojRTg0MjM1O3N0cm9rZS13aWR0aDoxLjBweDtzdHJva2UtbGluZWNhcDpidXR0O3N0cm9rZS1saW5lam9pbjptaXRlcjtzdHJva2Utb3BhY2l0eToxJyAvPgo8cGF0aCBjbGFzcz0nYm9uZC02IGF0b20tNiBhdG9tLTcnIGQ9J00gNTUuNywzOC4xIEwgNTkuMSwzNy43JyBzdHlsZT0nZmlsbDpub25lO2ZpbGwtcnVsZTpldmVub2RkO3N0cm9rZTojRTg0MjM1O3N0cm9rZS13aWR0aDoxLjBweDtzdHJva2UtbGluZWNhcDpidXR0O3N0cm9rZS1saW5lam9pbjptaXRlcjtzdHJva2Utb3BhY2l0eToxJyAvPgo8cGF0aCBjbGFzcz0nYm9uZC02IGF0b20tNiBhdG9tLTcnIGQ9J00gNTkuMSwzNy43IEwgNjIuNSwzNy40JyBzdHlsZT0nZmlsbDpub25lO2ZpbGwtcnVsZTpldmVub2RkO3N0cm9rZTojRkY2MEI3O3N0cm9rZS13aWR0aDoxLjBweDtzdHJva2UtbGluZWNhcDpidXR0O3N0cm9rZS1saW5lam9pbjptaXRlcjtzdHJva2Utb3BhY2l0eToxJyAvPgo8cGF0aCBjbGFzcz0nYm9uZC03IGF0b20tNyBhdG9tLTgnIGQ9J00gNjQuMywzNS4wIEwgNjQuMCwzMi4yJyBzdHlsZT0nZmlsbDpub25lO2ZpbGwtcnVsZTpldmVub2RkO3N0cm9rZTojRkY2MEI3O3N0cm9rZS13aWR0aDoxLjBweDtzdHJva2UtbGluZWNhcDpidXR0O3N0cm9rZS1saW5lam9pbjptaXRlcjtzdHJva2Utb3BhY2l0eToxJyAvPgo8cGF0aCBjbGFzcz0nYm9uZC03IGF0b20tNyBhdG9tLTgnIGQ9J00gNjQuMCwzMi4yIEwgNjMuNywyOS40JyBzdHlsZT0nZmlsbDpub25lO2ZpbGwtcnVsZTpldmVub2RkO3N0cm9rZTojRTg0MjM1O3N0cm9rZS13aWR0aDoxLjBweDtzdHJva2UtbGluZWNhcDpidXR0O3N0cm9rZS1saW5lam9pbjptaXRlcjtzdHJva2Utb3BhY2l0eToxJyAvPgo8cGF0aCBjbGFzcz0nYm9uZC04IGF0b20tNyBhdG9tLTknIGQ9J00gNjYuNiwzNi45IEwgNzAuMSwzNi41JyBzdHlsZT0nZmlsbDpub25lO2ZpbGwtcnVsZTpldmVub2RkO3N0cm9rZTojRkY2MEI3O3N0cm9rZS13aWR0aDoxLjBweDtzdHJva2UtbGluZWNhcDpidXR0O3N0cm9rZS1saW5lam9pbjptaXRlcjtzdHJva2Utb3BhY2l0eToxJyAvPgo8cGF0aCBjbGFzcz0nYm9uZC04IGF0b20tNyBhdG9tLTknIGQ9J00gNzAuMSwzNi41IEwgNzMuNSwzNi4xJyBzdHlsZT0nZmlsbDpub25lO2ZpbGwtcnVsZTpldmVub2RkO3N0cm9rZTojRTg0MjM1O3N0cm9rZS13aWR0aDoxLjBweDtzdHJva2UtbGluZWNhcDpidXR0O3N0cm9rZS1saW5lam9pbjptaXRlcjtzdHJva2Utb3BhY2l0eToxJyAvPgo8cGF0aCBjbGFzcz0nYm9uZC05IGF0b20tNyBhdG9tLTEwJyBkPSdNIDYzLjgsNDAuNSBMIDY0LjIsNDMuNCcgc3R5bGU9J2ZpbGw6bm9uZTtmaWxsLXJ1bGU6ZXZlbm9kZDtzdHJva2U6I0ZGNjBCNztzdHJva2Utd2lkdGg6MS4wcHg7c3Ryb2tlLWxpbmVjYXA6YnV0dDtzdHJva2UtbGluZWpvaW46bWl0ZXI7c3Ryb2tlLW9wYWNpdHk6MScgLz4KPHBhdGggY2xhc3M9J2JvbmQtOSBhdG9tLTcgYXRvbS0xMCcgZD0nTSA2NC4yLDQzLjQgTCA2NC41LDQ2LjInIHN0eWxlPSdmaWxsOm5vbmU7ZmlsbC1ydWxlOmV2ZW5vZGQ7c3Ryb2tlOiNFODQyMzU7c3Ryb2tlLXdpZHRoOjEuMHB4O3N0cm9rZS1saW5lY2FwOmJ1dHQ7c3Ryb2tlLWxpbmVqb2luOm1pdGVyO3N0cm9rZS1vcGFjaXR5OjEnIC8+CjxwYXRoIGNsYXNzPSdib25kLTkgYXRvbS03IGF0b20tMTAnIGQ9J00gNjYuMCw0MC4zIEwgNjYuMyw0My4xJyBzdHlsZT0nZmlsbDpub25lO2ZpbGwtcnVsZTpldmVub2RkO3N0cm9rZTojRkY2MEI3O3N0cm9rZS13aWR0aDoxLjBweDtzdHJva2UtbGluZWNhcDpidXR0O3N0cm9rZS1saW5lam9pbjptaXRlcjtzdHJva2Utb3BhY2l0eToxJyAvPgo8cGF0aCBjbGFzcz0nYm9uZC05IGF0b20tNyBhdG9tLTEwJyBkPSdNIDY2LjMsNDMuMSBMIDY2LjcsNDUuOScgc3R5bGU9J2ZpbGw6bm9uZTtmaWxsLXJ1bGU6ZXZlbm9kZDtzdHJva2U6I0U4NDIzNTtzdHJva2Utd2lkdGg6MS4wcHg7c3Ryb2tlLWxpbmVjYXA6YnV0dDtzdHJva2UtbGluZWpvaW46bWl0ZXI7c3Ryb2tlLW9wYWNpdHk6MScgLz4KPHBhdGggY2xhc3M9J2JvbmQtMTEgYXRvbS0xMSBhdG9tLTEyJyBkPSdNIDMxLjgsNDAuOCBMIDM4LjMsNDkuNycgc3R5bGU9J2ZpbGw6bm9uZTtmaWxsLXJ1bGU6ZXZlbm9kZDtzdHJva2U6IzNCNDE0MztzdHJva2Utd2lkdGg6MS4wcHg7c3Ryb2tlLWxpbmVjYXA6YnV0dDtzdHJva2UtbGluZWpvaW46bWl0ZXI7c3Ryb2tlLW9wYWNpdHk6MScgLz4KPHBhdGggY2xhc3M9J2JvbmQtMTMgYXRvbS0xMSBhdG9tLTE0JyBkPSdNIDMxLjgsNDAuOCBMIDIwLjgsNDIuMScgc3R5bGU9J2ZpbGw6bm9uZTtmaWxsLXJ1bGU6ZXZlbm9kZDtzdHJva2U6IzNCNDE0MztzdHJva2Utd2lkdGg6MS4wcHg7c3Ryb2tlLWxpbmVjYXA6YnV0dDtzdHJva2UtbGluZWpvaW46bWl0ZXI7c3Ryb2tlLW9wYWNpdHk6MScgLz4KPHBhdGggY2xhc3M9J2JvbmQtMTMgYXRvbS0xMSBhdG9tLTE0JyBkPSdNIDI5LjksMzguOCBMIDIyLjIsMzkuNycgc3R5bGU9J2ZpbGw6bm9uZTtmaWxsLXJ1bGU6ZXZlbm9kZDtzdHJva2U6IzNCNDE0MztzdHJva2Utd2lkdGg6MS4wcHg7c3Ryb2tlLWxpbmVjYXA6YnV0dDtzdHJva2UtbGluZWpvaW46bWl0ZXI7c3Ryb2tlLW9wYWNpdHk6MScgLz4KPHBhdGggY2xhc3M9J2JvbmQtMTIgYXRvbS0xMiBhdG9tLTEzJyBkPSdNIDM3LjMsNDkuMiBMIDM1LjYsNTMuMycgc3R5bGU9J2ZpbGw6bm9uZTtmaWxsLXJ1bGU6ZXZlbm9kZDtzdHJva2U6IzNCNDE0MztzdHJva2Utd2lkdGg6MS4wcHg7c3Ryb2tlLWxpbmVjYXA6YnV0dDtzdHJva2UtbGluZWpvaW46bWl0ZXI7c3Ryb2tlLW9wYWNpdHk6MScgLz4KPHBhdGggY2xhc3M9J2JvbmQtMTIgYXRvbS0xMiBhdG9tLTEzJyBkPSdNIDM1LjYsNTMuMyBMIDMzLjgsNTcuMycgc3R5bGU9J2ZpbGw6bm9uZTtmaWxsLXJ1bGU6ZXZlbm9kZDtzdHJva2U6I0U4NDIzNTtzdHJva2Utd2lkdGg6MS4wcHg7c3Ryb2tlLWxpbmVjYXA6YnV0dDtzdHJva2UtbGluZWpvaW46bWl0ZXI7c3Ryb2tlLW9wYWNpdHk6MScgLz4KPHBhdGggY2xhc3M9J2JvbmQtMTIgYXRvbS0xMiBhdG9tLTEzJyBkPSdNIDM5LjMsNTAuMSBMIDM3LjYsNTQuMScgc3R5bGU9J2ZpbGw6bm9uZTtmaWxsLXJ1bGU6ZXZlbm9kZDtzdHJva2U6IzNCNDE0MztzdHJva2Utd2lkdGg6MS4wcHg7c3Ryb2tlLWxpbmVjYXA6YnV0dDtzdHJva2UtbGluZWpvaW46bWl0ZXI7c3Ryb2tlLW9wYWNpdHk6MScgLz4KPHBhdGggY2xhc3M9J2JvbmQtMTIgYXRvbS0xMiBhdG9tLTEzJyBkPSdNIDM3LjYsNTQuMSBMIDM1LjgsNTguMScgc3R5bGU9J2ZpbGw6bm9uZTtmaWxsLXJ1bGU6ZXZlbm9kZDtzdHJva2U6I0U4NDIzNTtzdHJva2Utd2lkdGg6MS4wcHg7c3Ryb2tlLWxpbmVjYXA6YnV0dDtzdHJva2UtbGluZWpvaW46bWl0ZXI7c3Ryb2tlLW9wYWNpdHk6MScgLz4KPHBhdGggY2xhc3M9J2JvbmQtMTQgYXRvbS0xNCBhdG9tLTE1JyBkPSdNIDIwLjgsNDIuMSBMIDE5LjEsNDYuMScgc3R5bGU9J2ZpbGw6bm9uZTtmaWxsLXJ1bGU6ZXZlbm9kZDtzdHJva2U6IzNCNDE0MztzdHJva2Utd2lkdGg6MS4wcHg7c3Ryb2tlLWxpbmVjYXA6YnV0dDtzdHJva2UtbGluZWpvaW46bWl0ZXI7c3Ryb2tlLW9wYWNpdHk6MScgLz4KPHBhdGggY2xhc3M9J2JvbmQtMTQgYXRvbS0xNCBhdG9tLTE1JyBkPSdNIDE5LjEsNDYuMSBMIDE3LjMsNTAuMScgc3R5bGU9J2ZpbGw6bm9uZTtmaWxsLXJ1bGU6ZXZlbm9kZDtzdHJva2U6I0U4NDIzNTtzdHJva2Utd2lkdGg6MS4wcHg7c3Ryb2tlLWxpbmVjYXA6YnV0dDtzdHJva2UtbGluZWpvaW46bWl0ZXI7c3Ryb2tlLW9wYWNpdHk6MScgLz4KPHRleHQgeD0nMTYuOScgeT0nMjYuMScgY2xhc3M9J2F0b20tMicgc3R5bGU9J2ZvbnQtc2l6ZTo2cHg7Zm9udC1zdHlsZTpub3JtYWw7Zm9udC13ZWlnaHQ6bm9ybWFsO2ZpbGwtb3BhY2l0eToxO3N0cm9rZTpub25lO2ZvbnQtZmFtaWx5OnNhbnMtc2VyaWY7dGV4dC1hbmNob3I6c3RhcnQ7ZmlsbDojNDI4NEY0JyA+TjwvdGV4dD4KPHRleHQgeD0nNTEuOCcgeT0nNDEuNCcgY2xhc3M9J2F0b20tNicgc3R5bGU9J2ZvbnQtc2l6ZTo2cHg7Zm9udC1zdHlsZTpub3JtYWw7Zm9udC13ZWlnaHQ6bm9ybWFsO2ZpbGwtb3BhY2l0eToxO3N0cm9rZTpub25lO2ZvbnQtZmFtaWx5OnNhbnMtc2VyaWY7dGV4dC1hbmNob3I6c3RhcnQ7ZmlsbDojRTg0MjM1JyA+TzwvdGV4dD4KPHRleHQgeD0nNjIuOCcgeT0nNDAuMScgY2xhc3M9J2F0b20tNycgc3R5bGU9J2ZvbnQtc2l6ZTo2cHg7Zm9udC1zdHlsZTpub3JtYWw7Zm9udC13ZWlnaHQ6bm9ybWFsO2ZpbGwtb3BhY2l0eToxO3N0cm9rZTpub25lO2ZvbnQtZmFtaWx5OnNhbnMtc2VyaWY7dGV4dC1hbmNob3I6c3RhcnQ7ZmlsbDojRkY2MEI3JyA+UDwvdGV4dD4KPHRleHQgeD0nNjEuNScgeT0nMjkuMicgY2xhc3M9J2F0b20tOCcgc3R5bGU9J2ZvbnQtc2l6ZTo2cHg7Zm9udC1zdHlsZTpub3JtYWw7Zm9udC13ZWlnaHQ6bm9ybWFsO2ZpbGwtb3BhY2l0eToxO3N0cm9rZTpub25lO2ZvbnQtZmFtaWx5OnNhbnMtc2VyaWY7dGV4dC1hbmNob3I6c3RhcnQ7ZmlsbDojRTg0MjM1JyA+TzwvdGV4dD4KPHRleHQgeD0nNjUuNycgeT0nMjkuMicgY2xhc3M9J2F0b20tOCcgc3R5bGU9J2ZvbnQtc2l6ZTo2cHg7Zm9udC1zdHlsZTpub3JtYWw7Zm9udC13ZWlnaHQ6bm9ybWFsO2ZpbGwtb3BhY2l0eToxO3N0cm9rZTpub25lO2ZvbnQtZmFtaWx5OnNhbnMtc2VyaWY7dGV4dC1hbmNob3I6c3RhcnQ7ZmlsbDojRTg0MjM1JyA+SDwvdGV4dD4KPHRleHQgeD0nNzMuNycgeT0nMzguOScgY2xhc3M9J2F0b20tOScgc3R5bGU9J2ZvbnQtc2l6ZTo2cHg7Zm9udC1zdHlsZTpub3JtYWw7Zm9udC13ZWlnaHQ6bm9ybWFsO2ZpbGwtb3BhY2l0eToxO3N0cm9rZTpub25lO2ZvbnQtZmFtaWx5OnNhbnMtc2VyaWY7dGV4dC1hbmNob3I6c3RhcnQ7ZmlsbDojRTg0MjM1JyA+TzwvdGV4dD4KPHRleHQgeD0nNzcuOCcgeT0nMzguOScgY2xhc3M9J2F0b20tOScgc3R5bGU9J2ZvbnQtc2l6ZTo2cHg7Zm9udC1zdHlsZTpub3JtYWw7Zm9udC13ZWlnaHQ6bm9ybWFsO2ZpbGwtb3BhY2l0eToxO3N0cm9rZTpub25lO2ZvbnQtZmFtaWx5OnNhbnMtc2VyaWY7dGV4dC1hbmNob3I6c3RhcnQ7ZmlsbDojRTg0MjM1JyA+SDwvdGV4dD4KPHRleHQgeD0nNjQuMCcgeT0nNTEuMScgY2xhc3M9J2F0b20tMTAnIHN0eWxlPSdmb250LXNpemU6NnB4O2ZvbnQtc3R5bGU6bm9ybWFsO2ZvbnQtd2VpZ2h0Om5vcm1hbDtmaWxsLW9wYWNpdHk6MTtzdHJva2U6bm9uZTtmb250LWZhbWlseTpzYW5zLXNlcmlmO3RleHQtYW5jaG9yOnN0YXJ0O2ZpbGw6I0U4NDIzNScgPk88L3RleHQ+Cjx0ZXh0IHg9JzMyLjEnIHk9JzYyLjgnIGNsYXNzPSdhdG9tLTEzJyBzdHlsZT0nZm9udC1zaXplOjZweDtmb250LXN0eWxlOm5vcm1hbDtmb250LXdlaWdodDpub3JtYWw7ZmlsbC1vcGFjaXR5OjE7c3Ryb2tlOm5vbmU7Zm9udC1mYW1pbHk6c2Fucy1zZXJpZjt0ZXh0LWFuY2hvcjpzdGFydDtmaWxsOiNFODQyMzUnID5PPC90ZXh0Pgo8dGV4dCB4PScxMC44JyB5PSc1NS4yJyBjbGFzcz0nYXRvbS0xNScgc3R5bGU9J2ZvbnQtc2l6ZTo2cHg7Zm9udC1zdHlsZTpub3JtYWw7Zm9udC13ZWlnaHQ6bm9ybWFsO2ZpbGwtb3BhY2l0eToxO3N0cm9rZTpub25lO2ZvbnQtZmFtaWx5OnNhbnMtc2VyaWY7dGV4dC1hbmNob3I6c3RhcnQ7ZmlsbDojRTg0MjM1JyA+SDwvdGV4dD4KPHRleHQgeD0nMTQuNicgeT0nNTUuMicgY2xhc3M9J2F0b20tMTUnIHN0eWxlPSdmb250LXNpemU6NnB4O2ZvbnQtc3R5bGU6bm9ybWFsO2ZvbnQtd2VpZ2h0Om5vcm1hbDtmaWxsLW9wYWNpdHk6MTtzdHJva2U6bm9uZTtmb250LWZhbWlseTpzYW5zLXNlcmlmO3RleHQtYW5jaG9yOnN0YXJ0O2ZpbGw6I0U4NDIzNScgPk88L3RleHQ+Cjwvc3ZnPgo= CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 description 1
  • 235000007682 pyridoxal 5'-phosphate Nutrition 0.000 description 1
  • 230000002829 reduced Effects 0.000 description 1
  • 235000014214 soft drink Nutrition 0.000 description 1
  • 230000003068 static Effects 0.000 description 1
  • 238000006467 substitution reaction Methods 0.000 description 1
  • 230000001360 synchronised Effects 0.000 description 1
  • 238000000844 transformation Methods 0.000 description 1
  • 230000001131 transforming Effects 0.000 description 1
  • 238000010200 validation analysis Methods 0.000 description 1
  • 230000001720 vestibular Effects 0.000 description 1
  • 230000016776 visual perception Effects 0.000 description 1
  • 230000001755 vocal Effects 0.000 description 1

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S715/00Data processing: presentation processing of document, operator interface processing, and screen saver display processing
    • Y10S715/961Operator interface with visual structure or function dictated by intended use
    • Y10S715/965Operator interface with visual structure or function dictated by intended use for process control and configuration
    • Y10S715/966Computer process, e.g. operation of computer

Abstract

본 발명은 하나 또는 그 이상의 사용자를 위한 효율적인 대화식 컴퓨팅 환경을 제공하기 위해, 변화하는 작동 환경 하에서 멀티모드 입력 데이터에 따라 초점 탐지, 모호성 해명 및 기분 분류를 수행하기 위한 방법을 제공한다.

Description

다중모드 입력을 이용한 다중모드 초점 탐지, 기준 모호성 해명 및 기분 분류를 위한 시스템 및 방법 {SYSTEM AND METHOD FOR MULTI-MODAL FOCUS DETECTION, REFERENTIAL AMBIGUITY RESOLUTION AND MOOD CLASSIFICATION USING MULTI-MODAL INPUT}

본 발명은 다중모드(multi-modal) 데이터 처리 기술에 관한 것이고, 특히 다중모드 입력 데이터에 따라 초점 탐지, 기준 모호성 해명 및 기분(mood) 분류를 수행하기 위한 시스템 및 방법에 관한 것이다.

다양한 컴퓨팅 작업을 수행하기 위해 쓰일 수 있는 데이터를 획득하기 위해 하나 이상의 입력 모드를 사용하는 것은 오늘날의 컴퓨터 기반 처리 시스템에 있어 더욱 널리 쓰이고 있다. 이러한 "멀티모드" 입력 기술을 채용한 시스템은 하나의 데이터 입력 모드만 사용하는 시스템에 대해 고유의 장점을 갖게 된다.

예컨대, 비디오 입력 소스(source) 및 보다 전통적인 형태의 컴퓨터 데이터 입력 소스(예컨대 멀티 윈도우 GUI와 작용하여 마우스 장치 및/또는 키보드를 손으로 작동시키는 것)를 포함하는 시스템이 있다고 하자. 이러한 시스템의 예는 야마구치 등에게 1999년 6월 15일자로 허여된 미국 특허 제5,912,721호에 개시되어 있다. 상기 특허 발명에 기재된 시스템에 따르면, 사용자가 응시하는 지점을 탐지함 으로써 사용자가 디스플레이 화면상의 지점을 지정할 수 있도록 하는 장치가 제공되는 바, 이는 종래의 입력 장치 중 하나를 손으로 작동시키지 않고도 화면에 대한 사용자의 시선에 의해 지정되는 것이다.

눈의 추적에 의존하는 그 밖의 시스템에는, 비디오 입력 외에 후속 처리용 데이터를 얻기 위한 그 밖의 입력 소스가 포함될 수도 있다. 예컨대 카우프만(Kaufman) 등에게 1996년 5월 14일자로 하여된 미국 특허 제5,517,021호에서는 EOG(Electro-Oculographic) 장치를 사용하여 눈의 움직임 및 그 밖의 제스처(gesture)에 의해 생성되는 신호를 탐지한다. 이러한 EOG 신호는 소정의 작업 수행 기능을 제어하는 데 쓰이는 입력의 역할을 한다.

또한 그 밖의 다중모드 시스템에서도 음성 및 제스처 입력을 이용한 사용자의 명령을 받아들일 수 있다. 1997년 2월 4일자로 앤도(Ando) 등에게 허여된 미국 특허 제5,600,765호에서는, 지시 입력 장치를 통해 사용자가 그래픽 디스플레이 시스템의 디스플레이 화면상에 있는 디스플레이 객체 또는 디스플레이 위치 중 하나를 가리켜 그래픽 디스플레이 상에서 이벤트를 실행하도록 그래픽 디스플레이 시스템에게 명령을 내리는 시스템에 관하여 개시하고 있다.

음성 및 제스처 입력을 채용하는 또 다른 멀티 모드 컴퓨팅 개념으로 "자연 컴퓨팅(natural computing)"이 알려져 있다. 자연 컴퓨팅 기술에 있어서는, 제스처가 명령의 일부로서 직접 시스템에 제공된다. 그 대신, 사용자는 음성 명령을 내릴 수도 있다.

그러나 이러한 멀티모드 시스템이 오직 하나의 입력 모드를 사용하는 시스템 에 비해 고유의 장점을 갖는다고 해도, 기존의 멀티모드 기술은 사용자와 그 사용자가 상호작용하고자 하는 컴퓨팅 시스템 사이의 효율적인 대화 환경을 제공하는 데 있어 상당히 부족하다. 예컨대, 대화식 시스템에 있어서 앞서 설명한 바와 같은 사용자의 제스처나 눈의 응시점을 사용하는 것은 단지 전통적인 GUI 지시 장치를 사용하는 것을 대신하였을 뿐이다. 자연 컴퓨팅 기술의 경우, 시스템은 오디오 기반의 명령을 독립적으로 인식하고, 제스처 기반의 명령을 독립적으로 인식한다. 따라서 이러한 대화식 시스템에서는, 하나 또는 그 이상의 입력 모드를 사용하여 또 다른 하나 또는 그 이상의 입력 모드에 의한 데이터 입력의 모호성을 해소하거나 그것을 이해하고자 하는 시도가 없었다. 또한 이러한 대화식 시스템에서는, 사용자의 기분이나 주의(attention) 분류를 수행하기 위한 다중모드 입력을 활용하고자 하는 시도 역시 없었다. 따라서 이러한 시스템의 유용성은 빛이 충분히 있는 환경으로 제한된다. 불행히도 작동 환경에 따라서는 빛이 충분하지 않거나, 또는 조도(照度)가 자주 바뀔 수 있다(예컨대 움직이는 자동차 안).

그러므로 하나 또는 그 이상의 사용자를 위한 효율적인 대화식 컴퓨팅 환경을 제공하기 위해서는, 다양한 작동 환경에서 다중모드 입력 데이터에 따라 초점 탐지, 기준 모호성 해명 및 기분 분류를 수행하는 시스템 및 방법을 제공하는 것이 매우 유리하다.

본 발명은 하나 또는 그 이상의 사용자를 위한 효율적인 대화식 컴퓨팅 환경을 제공하기 위해, 다양한 작동 환경에서 다중모드 입력 데이터에 따라 초점 탐지, 기준 모호성 해명 및 기분 분류를 수행하기 위한 기술을 제공한다.

본 발명의 한 가지 특징에 있어서, 다중모드 대화식 컴퓨팅 시스템에는 자신이 배치된 환경으로부터 다중모드 데이터를 입력하도록 구성된 사용자 인터페이스 서브시스템(subsystem)이 포함된다. 상기 다중모드 데이터에는 적어도 오디오 기반의 데이터 및 이미지 기반의 데이터가 포함된다. 상기 환경에는 하나 또는 그 이상의 사용자 및 본 발명의 멀티모드 시스템으로 제어 가능한 하나 또는 그 이상의 장치가 포함된다. 상기 시스템에는 또한, 상기 사용자 인터페이스 서브시스템에 동작적으로 결합되고, 상기 사용자 인터페이스 서브시스템으로부터의 다중모드 입력 데이터의 적어도 일부를 수신하도록 구성된 적어도 하나의 프로세서가 더 포함된다. 또한 상기 프로세서는 그 후 수신한 다중모드 입력 데이터의 적어도 일부에 기초하여, 하나 또는 그 이상의 사용자 중 적어도 한 명의 의도, 초점 및 기분 중 적어도 하나를 판정하도록 구성된다. 또한 상기 프로세서는 그 후 결정된 의도, 결정된 초점 및 결정된 기분 중 적어도 하나에 기초하여, 하나 또는 그 이상의 작업이 상기 환경에서 실행되게 하도록 더 구성된다. 상기 시스템은 또한, 상기 적어도 하나의 프로세서에 동작적으로 결합되고, 상기 프로세서가 판정한 의도, 초점 및 기분에 관한 결과의 적어도 일부를 후속 판정 또는 작업에 쓸 수 있도록 저장하는 메모리를 더 포함한다.

바람직하게도, 이러한 다중모드 대화식 컴퓨팅 시스템은 다음과 같은 기능을 제공한다. 즉 (i) 사용자가 요청하는 객체, 애플리케이션(application), 또는 응용 기기(appliance)를 판정, (ii) 사용자의 초점을 판정하여 사용자가 적합한 애플리 케이션에 능동적으로 초점을 맞추었는지 여부를 판정하고, 그에 따라 동작이 취해져야할지 여부를 판정, (iii) 누가 무엇을 말하고 무엇을 했는지, 사용자가 멀티모드 질의(query)/명령을 한 경우 그의 초점이 무엇인지 및 이러한 명령 및 초점의 히스토리(history)가 어떠하였는지에 기초한 질의를 파악, (iv) 사용자의 기분을 판단하여 그에 따른 행위(behavior)/서비스/응용 기기를 개시 및/또는 적합화하는 것이 그것이다. 상기 컴퓨팅 시스템은 또한 사용자가 상호작용하는 응용프로그램의 관련 업무 로직을 변경시킬 수 있다.

본 발명에 있어서 멀티모드라 함은, 음성 및 비디오 이외의 다른 모드를 조합한 것을 포함할 수 있다는 점을 밝혀두고자 한다. 예컨대 멀티모드에는 키보드/포인터/마우스(또는 전화기 숫자판) 및 그 밖의 센서 등이 포함될 수 있다. 따라서 적어도 두 개의 상이한 센서{및 출력을 위한 구동기(actuator)}를 통한 모드의 조합에 의해 입력의 모호성을 해소하고 사용자의 기분이나 초점을 추정하는 데 있어서, 본 발명의 일반적인 원칙은 그러한 조합 중 어떤 것으로도 일반화될 수 있다. 기분이나 초점을 판정하기 위한 엔진 또는 분류자(classifier)는 센서에 따라 특정될 것이지만, 이를 사용하는 방식은 본 명세서에 개시된 바와 동일하다.

본 발명의 이러한 또는 그 밖의 목적, 특징 및 장점은 이하의 실시예에 관한 상세한 설명과 이와 관련된 첨부 도면으로부터 자명해질 것이다.

도 1은 본 발명의 한 가지 실시예에 따른 멀티모드 대화식 컴퓨팅 시스템을 나타낸 블록도.

도 2는 본 발명의 한 가지 실시예에 따른 멀티모드 대화식 컴퓨팅 시스템에 의해 수행되는 기준 모호성 해명 방식을 나타낸 흐름도.

도 3은 본 발명의 한 가지 실시예에 따른 멀티모드 대화식 컴퓨터 시스템에 의해 수행되는 기분/초점 분류 방식을 나타낸 흐름도.

도 4는 본 발명의 한 가지 실시예에 따라 사용하기 위한 시청각 언어 인식 모듈(audio-visual speech recognition module)을 나타낸 블록도.

도 5a는 본 발명의 한 가지 실시예에 따라 사용하기 위한 정면 얼굴 포즈(pose) 및 정면이 아닌 얼굴 포즈의 예를 나타낸 도면.

도 5b는 본 발명의 한 가지 실시예에 따라 사용하기 위한 얼굴/얼굴 요소(feature) 및 정면 포즈 탐지 방식의 흐름도.

도 5c는 본 발명의 한 가지 실시예에 따라 사용하기 위한 이벤트 탐지 방식의 흐름도.

도 5d는 본 발명의 한 가지 실시예에 따라 사용하기 위한, 발화(發話; utterance) 검증을 하는 이벤트 탐지 방식의 흐름도.

도 6은 본 발명의 한 가지 실시예에 따라 사용하기 위한, 시청각 화자(speaker) 인식 모듈을 나타낸 도면.

도 7은 본 발명의 한 가지 실시예에 따라 사용하기 위한 발화 검증 방식의 흐름도.

도 8a 및 도 8b는 본 발명의 한 가지 실시예에 따라 사용하기 위한 대화식 컴퓨팅 시스템을 나타낸 블록도.

도 9a 내지 도 9c는 본 발명의 한 가지 실시예에 따라 사용하기 위한 각각의 기분 분류 시스템을 나타낸 블록도.

도 10은 본 발명에 따른 멀티모드 대화식 컴퓨팅 시스템의 하드웨어 구현을 나타낸 블록도.

우선 도 1을 참조하자면, 본 발명의 한 가지 실시예에 따른 멀티모드 대화식 컴퓨팅 시스템을 도시한 블록도가 있다. 도시한 바와 같이, 멀티모드 대화식 컴퓨팅 시스템(10)은 입/출력(I/O) 서브시스템(12), I/O 관리자 모듈(14), 하나 또는 그 이상의 인식 엔진(recognition engine)(16), 회화 관리자 모듈(dialog management module)(18), 문맥 스택(context stack)(20) 및 기분/초점 분류자(22)를 포함한다.

일반적으로, 본 발명의 멀티모드 대화식 컴퓨팅 시스템(10)은 오디오 입력 데이터, 비디오 입력 데이터 및 I/O 서브시스템(12)에 따른 기타 종류의 입력 데이터의 형태로 멀티모드 입력을 수신하고, I/O 관리자(14)에 따라 상기 멀티모드 데이터를 처리하며, 필요한 경우 이러한 처리된 데이터를 사용하여 다양한 인식 작업{예컨대 인식 엔진(16)에 따른 음성 인식, 화자 인식, 제스처 인식, 입모양 판독 및 얼굴 인식 등}을 수행한다. 그 후 인식 작업 및/또는 처리된 결과 자체의 결과는, 하나 또는 그 이상의 대화식 컴퓨팅 작업, 예컨대 초점 탐지, 기준 모호성 해명 및 기분 분류{회화 관리자(18), 문맥 스택(20) 및/또는 분류자(22)에 따름}를 수행하는데 사용된다. 이에 대하여서는 이하에 상세히 설명하기로 한다.

본 발명의 멀티모드 대화식 컴퓨팅 시스템은 특정 응용예에 한정되지 않지만, 우선 몇몇의 응용예를 설명하는 것이 본 시스템이 제공하는 다양한 특성 및 본 시스템이 수행할 수 있는 기능을 문맥상 이해하는 데 도움이 될 것이다.

따라서 제1 응용예에 있어서, 멀티모드 대화식 컴퓨팅 시스템(10)이 차량 내에 채용될 수 있다. 이러한 예에 있어서, 비정상적으로 눈이 오래 감겨 있거나 다른 방향을 응시하는 것을 비디오 입력에 의해 탐지함으로써 주의가 분산되거나 졸린 운전자를 탐지하는데 상기 시스템이 쓰일 수 있고, 이러한 잠재적 위험 상태에 있는 운전자에게 경고를 하는 데 쓰일 수도 있다. 이는 초점 탐지라 일컬어진다. 눈 상태(예컨대 떠있거나 감긴 것) 및/또는 얼굴 방향을 추출하여 추적함으로써, 상기 시스템은 운전자가 무엇에 초점을 맞추고 있는지에 관한 판정을 한다. 이후에 설명할 것이지만, 상기 시스템(10)은 가시적인 이미지 데이터뿐만 아니라(또는 그 대신) 비가시적인 이미지 데이터, 예컨대 적외선(IR) 시각 데이터를 수신하여 처리하도록 구성될 수도 있다. 그밖에도(마찬가지로 또는 그 대신) 무선 주파수(RF) 데이터를 수신하여 처리할 수도 있다. 따라서 빛이 충분하지 않은 작동 환경(즉 조명 부족 상태) - 예컨대 야간 주행중인 자동차 - 에 멀티모드 대화식 컴퓨팅 시스템이 배치된 경우, 상기 시스템은 여전히 멀티모드 입력을 수신하여 데이터를 처리하고, 필요한 경우 적합한 응답을 출력할 수 있다. 따라서 이러한 시스템은 또한 빛이 없는 경우에도 작동할 수 있다.

차량에 관한 이러한 응용예는 또한 기준 모호성 해명의 개념을 이해하는 데에도 적합하다. 차량 내에 복수의 사용자가 있고, 멀티모드 대화식 컴퓨팅 시스템(10)이 여러 장치(예컨대 전화기, 라디오, TV, 전등) - 이들은 상기 시스템이 수신하여 처리하는 사용자 입력 명령어에 의해 제어될 수 있음 - 에 연결되어 있다고 가정하자. 이러한 상황에서는, 하나의 멀티모드 입력뿐만 아니라 차량 내의 복수의 승객으로부터의 멀티모드 입력이 존재한다.

따라서 시스템(10)은 사용자 기준의 해명을 수행할 수 있어야 하는 바, 예컨대 "사무실로 전화"라는 음성을 수신하였으나 시스템이 어느 승객이 이러한 말을 했는지 해명할 수 없다면, 관련 무선 전화기로 어느 전화번호를 걸어야 할지 알 수 없게 된다. 시스템(10)은 따라서 오디오 입력 데이터 및 이미지 데이터 입력 모두를 취해 이를 처리하여 사용자 해명 판정을 함으로써 복수의 사용자에 대한 기준 모호성 해명을 수행한다. 여기에는 오디오 및 이미지 단서(cue)에 기초한 사용자의 음성 활동(speech activity) 및/또는 신원을 탐지하는 것이 포함될 수 있다. 이를 달성하기 위한 기술은 이후에 설명하기로 한다.

마찬가지로, 사용자는 시스템에 대하여 장치 기준을 해명하지 않고 "그것을 꺼라"라는 말을 한 경우, 시스템은 어느 관련 장치를 꺼야 할지 알 수 없게 된다. 시스템(10)은 따라서 오디오 입력 데이터 및 이미지 데이터 입력 모두를 취해 이를 처리하여 장치 해명 판정을 함으로써 복수의 장치에 대한 기준 모호성 해명을 수행한다. 여기에는 언급된 방향을 공간적으로 대략 해명하거나 또는 신체의 포즈(예컨대 지시하는 자세)를 사용하여 화자의 머리 포즈를 탐지하는 것이 포함될 수 있다. 또한 여기에는 이전에 생성되어 문맥 관리자/히스토리 스택에 저장된 I/O(입/출력) 이벤트의 모호성을 해소하는 것(예컨대 호출기가 울리고 사용자가 "그것을 꺼라"라 는 요청을 한 경우, "그것"이라는 용어의 모호성을 해소하는 것)이 포함될 수 있다. 이를 달성하기 위한 기술은 이후에 설명하기로 한다.

추가적으로, 시스템(10)은 차량 승객의 기분 또는 감정 상태를 판정하여 그 상태에 영향을 미칠 수 있는 다른 관련 장치의 제어에 영향을 미치게 할 수도 있다. 예컨대 사용자가 덥거나 혹은 추운 것을 시스템이 탐지하는 경우, 시스템은 각 승객에 대해 온도를 조절할 수도 있다. 사용자가 피곤한 경우, 시스템은 의자를 조절하고 음악 볼륨을 키우는 것 등을 할 수도 있다. 또한, 다른 예로서(반드시 차량 내의 시스템일 필요는 없음) 애플리케이션 인터페이스의 응답이 사용자의 기분에 따라 달라질 수도 있다. 예컨대 사용자가 혼란을 겪는 것으로 보이는 경우, 시스템이 도움말을 제공할 수 있다. 또한 사용자가 화가 나있는 경우 더욱 빠른 실행이 시도된다. 또한 사용자가 확신을 갖지 못하는 경우, 시스템은 확인을 요청하거나 또는 사용자에 대한 안내를 제공할 수 있다.

상기 예는 다중모드 대화식 컴퓨팅 시스템(10)이 차량 내에 배치된 경우의 응용예를 나타내는 반면, 또 다른 배열의 예에 있어서 상기 시스템은 더욱 넓은 영역, 예컨대 복수의 비디오 입력 및 음성 입력 장치는 물론 상기 시스템에 의해 제어되는 복수의 관련 장치가 있는 방에 배치될 수 있다. 본 명세서에 개시된 내용에 의해, 본 기술 분야의 당업자는 이러한 다중모드 대화식 컴퓨팅 시스템이 채용될 수 있는 그 밖의 응용예를 구현할 수 있을 것이다.

도 1의 다중모드 대화식 컴퓨팅 시스템(10)의 기능 구성요소(component)가 주어진 경우, 앞서 설명한 응용예를 참작하여 이하의 도 2 및 도 3에 관한 설명에 따르면 이러한 하나 또는 그 이상의 응용예를 실행하는 과정에서 시스템(10)의 기능 구성요소의 상호작용에 관한 일반적인 설명이 가능할 것이다.

이제 도 2를 참조하자면, 이는 멀티모드 대화식 컴퓨팅 시스템이 기준 모호성 해명(예컨대 사용자 및/또는 장치 모호성 해결)을 달성하기 위해 수행하는 방식(200)을 나타내는 흐름도이다.

우선 단계(202)에서는, 상기 시스템과 연관된 멀티모드 데이터 소스로부터 가공되지 않은 멀티모드 입력 데이터를 얻는다. 도 1의 컴퓨팅 시스템(10)에 관해서는, 이러한 소스가 I/O 서브시스템(12)으로 나타내어진다. 앞서 언급한 바처럼, 상기 서브시스템의 데이터 입력 부분은 상기 시스템(또는 적어도 상기 I/O 서브시스템)이 배치된 환경을 나타내는 비디오 입력 데이터를 포착(capture)하기 위한 하나 또는 그 이상의 카메라 또는 센서를 포함할 수 있다. 상기 카메라/센서는 가시적인 이미지 데이터(가시 전자기 스펙트럼에 있는 이미지)뿐만 아니라 IR(근, 중 및/또는 원적외선 비디오) 및/또는 RF 이미지 데이터도 포착할 수 있다. 물론 하나 이상의 카메라를 구비한 시스템에서는 상이한 카메라/센서의 조합이 채용될 수 있는 바, 하나 또는 그 이상의 비디오 카메라, 하나 또는 그 이상의 IR 센서 및/또는 하나 또는 그 이상의 RF 센서를 구비한 시스템이 그 예이다.

하나 또는 그 이상의 카메라에 추가하여, I/O 서브시스템(12)은 상기 시스템이 배치된 환경으로부터 오디오 입력 데이터를 포착하기 위한 하나 또는 그 이상의 마이크를 포함한다. 또한 I/O 서브시스템은 마이크에서 생성된 전기적 신호를 발화된 음성 또는 포착된 그 밖의 소리를 나타내는 디지털 신호로 변환시키는 A/D 변환 기를 더 포함할 수도 있다. 또한 이 서브시스템은 음성 신호를 샘플링하여 이를 겹치는 프레임으로 분할함으로써 각 프레임이 나머지 시스템에 의해 따로 처리되도록 한다.

따라서 앞서 예로 든 차량에 있어서, 시스템의 모호성 해소 판단을 위해 필요한 모든 시각적 활동 및 청각적 활동을 완전히 포착할 수 있도록 차량 내에 카메라 및 마이크가 전략적으로 배치될 수 있다는 것을 이해해야 할 것이다.

또한 I/O 서브시스템(12)은 사용자 입력을 획득하기 위한 그 밖의 전형적인 입력 장치, 예컨대 키보드나 마우스 등 GUI 기반의 장치 및/또는 전자적인 필적을 포착하기 위한 스타일러스(stylus)나 디지타이저 패드(digitizer pad)를 포함할 수 있다. 본 기술 분야의 당업자는 사용자 활동을 포착하기 위한 그 밖의 사용자 인터페이스 및 장치가 포함될 수 있음을 쉽게 알 수 있을 것이다.

다음으로, 단계(204)에서는 미가공 멀티모드 입력 데이터가 하나 또는 그 이상의 이벤트로 추상화(abstraction)된다. 도 1의 컴퓨팅 시스템(10)에 관해서는, I/O 관리자(14)에 의해 데이터 추상화가 수행된다. I/O 관리자는 미가공 멀티모드 데이터를 수신하여 이를 예컨대 발화나 시각적인 제스처 등 하나 또는 그 이상의 이벤트를 나타내는 형태로 추상화한다. 알려진 바처럼, 데이터 추상화 작업에는 추후의 작업에 사용하기 위한 더욱 일반적인 데이터 표현을 산출하기 위해 입력 데이터의 전부 또는 일부와 연관된 세부 사항을 일반화시키는 단계가 포함된다.

그 후 단계(206)에서는 추상화된 데이터 또는 이벤트를 I/O 관리자(14)가 하나 또는 그 이상의 인식 엔진(16)으로 보냄으로써 필요한 경우 상기 이벤트가 인식 되도록 한다. 즉 상기 이벤트의 성질에 따라 하나 또는 그 이상의 인식 엔진이 상기 이벤트를 인식하는 데 쓰일 수 있다. 예컨대 상기 이벤트가 어떤 발화의 형태인 경우, 그 발화의 가청 부분은 마이크가 포착하고 가시 부분(예컨대 입술의 움직임)은 카메라가 포착하고, 상기 이벤트를 시청각 음성 인식 엔진으로 보내어 상기 음성과 연관된 오디오 입력 및 비디오 입력 모두를 사용하여 상기 발화가 인식되도록 할 수 있다. 그 대신, 또는 그에 더하여 상기 이벤트를 시청각 화자 인식 엔진으로 보내어 화자가 식별되도록 할 수도 있다. 또한 동일한 발화에 대해 음성 인식 및 화자 인식 모두를 결합할 수도 있다.

상기 이벤트가 카메라에 의해 포착된 어떤 사용자 제스처의 형태인 경우, 상기 이벤트는 인식을 위해 제스처 인식 엔진으로 보내어진다. 마찬가지로 시스템이 제공하는 사용자 인터페이스의 종류에 따라 상기 이벤트는 사용자가 제공하는 필기 입력을 포함할 수 있으며, 따라서 인식 엔진들 중 하나는 필기 인식 엔진이 될 수 있다. 더욱 통상적인 GUI 기반 입력(예컨대 키보드나 마우스 등)의 경우에는 인식 작업 없이 이미 데이터를 식별할 수 있으므로 데이터가 인식될 필요가 없을 수 있다.

인식 엔진(16)들 중 하나로서 채용될 수 있는 시청각 음성 인식 모듈에 관해서는 1999년 8월 6일자 미국 특허 출원 제09/369,707호(대리인측 분류번호 제YO999-317호), "시청각 음성 탐지 및 인식을 위한 방법 및 장치"에 개시되어 있으며, 본 명세서에 참조로서 포함되었다. 이러한 시청각 음성 인식 시스템에 관해서는 이후에 설명하도록 한다. 인식 엔진(16)들 중 하나로 채용될 수 있는 시청각 화자 인식 모듈에 관해서는 1999년 8월 6일자 미국 특허 출원 제 09/369,706호(대리인측 분류 번호 YO999-318), "시청각 화자 인식 및 발화 검증을 위한 방법 및 장치"에 개시되어 있으며, 본 명세서에 참조로서 포함되었다. 이러한 시청각 화자 인식 시스템에 관해서는 이후에 설명하도록 한다. 제스처 인식(예컨대 사용자가 수동적 또는 능동적으로 시스템에 대한 지시를 하기 위해 사용하는 몸, 팔 및/또는 손동작 등) 및 초점 인식(예컨대 사용자의 얼굴 및 눈의 방향)은, 앞서 언급한 특허 출원에서 설명된 바 있는 인식 모듈을 사용하여 수행된다. 그러나 초점 탐지에 관해서는 사용자의 초점은 물론 사용자의 기분을 판정하기 위해 분류자(22)를 사용하는 것이 바람직하다.

여기에서 설명된 두 개 이상, 또는 모든 입력 모드는 2000년 2월 18일자 미국 특허 출원 제09/507,526호(대리인측 분류번호 제YO999-178호, 우선권 주장의 기초인 출원은 1999년 4월 7일자 미국 가출원 제60/128,081호 및 1999년 10월 12일자 미국 가출원 제60/158,777호임), "멀티 모드 상호작용의 동기화를 위한 시스템 및 방법"에 개시된 기술을 통해 동기화될 수 있으며, 이는 본 명세서에 참조로서 포함되었다.

단계(208)에서는, 인식될 필요가 없는 이벤트 뿐 아니라 인식된 이벤트가 문맥 스택(20)이라 일컫는 저장 유닛에 저장된다. 문맥 스택은 사용자와 시스템간의 상호작용 히스토리를 생성하는데 사용되어, 회화 관리자(18)가 사용자의 의도를 판정할 경우 기준 모호성 해소 판정을 하는 것을 돕도록 한다.

다음으로 단계(210)에 있어 시스템(10)에서는, 현재의 이벤트 및 상기 문맥 스택에 저장된 상호작용 히스토리 정보에 기초하여 사용자의 의도를 판정하고, 그 후 사용자 의도의 충족 및/또는 사용자 활동에 반응하는 하나 또는 그 이상의 애플리케이션을 판정하여 실행시키고자 하는 시도가 이루어진다. 애플리케이션은 시스템이 배치된 환경에 따라 달라진다. 애플리케이션은 어떠한 컴퓨터 프로그래밍 언어로 작성될 수도 있으나, 대화식 마크업 언어(CML; Conversational Markup Language)로 작성되는 것이 바람직하다. 이에 관해서는 2000년 4월 6일자 미국 특허 출원 제09/544,823호(대리인측 분류번호 제YO999-478호), "멀티모드 브라우징 및 대화식 마크업 언어(CML) 구현을 위한 방법 및 시스템", 1998년 10월 2일자 미국 특허 출원 제60/102,957호(대리인측 분류번호 제YO998-392호), "대화식 브라우저 및 대화식 시스템"을 우선권 주장의 기초로 한 1999년 10월 1일자 PCT 특허 출원 제PCT/US99/23008호는 물론 앞서 언급한 미국 특허 출원 제09/507,526호(대리인측 분류번호 제YO999-178호)에 개시되어 있으며, 본 명세서에 참조로서 포함되었다.

따라서, 회화 관리자는 맨 처음으로 현재의 이벤트 및 문맥 스택에 저장된 예컨대 과거의 이벤트와 같은 히스토리 정보(존재하는 경우)를 기초로 하여 사용자의 의도를 판정해야 한다. 예컨대 앞서 언급한 차량에 있어서, 사용자가 차량의 라디오를 가리키면서 "그것을 켜라"라고 말했다고 하자. 이에 회화 관리자는 "그것을 켜라"라는 음성 및 라디오를 가리키는 제스처와 연관되어 있는 인식된 이벤트의 결과를 수신하게 된다. 이들 이벤트에 기초하여 회화 관리자는 그러한 음성 및 제스처가 연관될 수 있는 기존의 애플리케이션, 거래(transaction) 또는 "회화", 또는 이들의 일부를 검색한다. 따라서 도 1에 도시한 바와 같이, 회화 관리자(18)는 CML로 작성된 적합한 애플리케이션(24)을 판정하게 된다. 이러한 애플리케이션은 시스템(10)상에 저장되거나 또는 일정한 원격지로부터 액세스(예컨대 다운로드)된다. 회화 관리자가 자신이 선택한 애플리케이션이 사용자의 욕구를 충족시켜줄 것이라는 판정을 소정의 신뢰도를 가지고 한 경우에는, 멀티모드 입력에 기초하여 그 애플리케이션의 다음 단계의 멀티모드 대화를 실행(예컨대 결여, 모호 또는 혼동되는 정보의 촉구나 표시, 확인 문의 또는 완전히 이해한 사용자로부터의 멀티모드 요청과 관련된 동작을 실행함)시킨다. 즉, 회화 관리자는 적합한 장치(예컨대 라디오) 활성화 루틴(routine)을 선택하여 I/O 관리자로 하여금 라디오를 활성화시키는 명령을 출력하도록 지시한다. 소정의 신뢰도라, 함은 애플리케이션의 적어도 두 개의 입력 파라미터 또는 변수가 수신된 이벤트에 의해 충족 또는 제공되는 경우일 수 있다. 물론 애플리케이션에 따라서는 다른 신뢰 수준 및 알고리즘이 설정될 수 있는 바, 예컨대 K.A. 파피네니(K.A. Papineni), S. 루코스(S. Roukos) 및 R.T. 워드(R.T. Ward) 著, "서식을 사용한 자유흐름 회화 관리자(Free-flow dialog management using forms)"(1999, 부다페스트, 유로스피치 발표록) 및 K. 데이비스(K. Davies) 등의 "금융 애플리케이션을 위한 IBM 대화식 전화 시스템(The IBM conversational telephony system for financial applications"(1999, 부다페스트, 유로스피치 발표록)에서 기술된 바와 같이 설정될 수 있으며, 이들은 본 명세서에 참조로서 포함되었다.

사용자가 우선 "그것을 켜라"라고 말한 후 몇 초 뒤에 라디오를 가리킨 경우 를 가정하자. 회화 관리자는 일단 "그것을 켜라"라는 명령에만 기초하여 사용자의 의도를 판정하고자 할 것이다. 그렇지만 차량 내에는 켤 수 있는 그 밖의 장치가 있을 수 있으므로, 시스템은 사용자가 무엇을 언급하고 있는지 충분한 신뢰도로 결정할 수 없게 된다. 그러나 이러한 인식된 음성은 문맥 스택에 저장된다. 인식된 제스처 이벤트(예컨대 라디오를 가리킴)가 그 후 수신된 경우, 회화 관리자는 이러한 이벤트 및 문맥 스택에 저장된 이전의 음성 이벤트를 취하여 사용자가 라디오를 켜고자한다는 판정을 내리게 된다.

사용자가 "그것을 켜라"라고 말하고 그 밖의 제스처나 발화를 하지 않은 경우를 가정하자. 이 경우, 회화 관리자가 사용자 의도를 판정{도 2의 단계(212)}하여 명령을 실행하기에 충분한 입력을 갖지 못한 것으로 하자. 단계(214)에서 회화 관리자는 사용자 의도의 모호성을 해소하기 위해 사용자에게 추가적인 입력 데이터를 요청하는 출력을 생성시키도록 한다. 이는 회화 관리자가 I/O 관리자로 하여금 I/O 서브시스템이 해명 요청을 출력하게끔 지시함으로써 이루어질 수 있다. 한 가지 실시예에 있어서, I/O 서브시스템(12)은 TTS(Text-to-Speech) 엔진 및 하나 또는 그 이상의 출력 스피커를 포함할 수 있다. 회화 관리자는 "어느 장치를 켜기를 원하십니까?"와 같은 소정의 질문을 생성시키고, 이는 TTS 엔진에 의해 합성된 음성으로 변환되어 사용자가 들을 수 있도록 스피커로 출력된다. 사용자는 이러한 질문을 듣고 라디오를 가리키거나 "라디오"라고 말함으로써 회화 관리자에게 사용자의 요청에 관한 모호성을 해소시켜주는 추가적인 입력 데이터를 제공할 수 있다. 즉 도 2를 참조하면, 시스템(10)은 단계(202)에서 마찬가지로 미가공 입력 데이터 를 획득하고, 방식(200)은 새로운 데이터에 기초하여 반복(iteration)된다. 이러한 반복은 회화 관리자가 사용자의 의도를 판정하기 위해 필요한 만큼 계속될 수 있다.

회화 관리자(18)는 또한 처리된 이벤트 실행, 작업 처리 및/또는 그 밖의 동작(예컨대 라디오를 켜도록 하는 것)의 실행(단계 218)에 앞서 사용자에게 확인을 요청(단계 216)할 수 있는 바, 이는 추가 정보 요청(단계 214)과 같은 방식으로 이루어진다. 예컨대, 시스템은 "라디오를 켜기를 원하십니까?"를 출력할 수 있다. 또한 회화 관리자(18)는, 추후의 해명 또는 그 밖의 판정에 사용하기 위한 문맥 스택(20)상의 현재 이벤트를 처리하는 도중에 자신이 생성 및/또는 획득하는 정보를 저장할 수 있다.

물론 이상의 예는 장치의 모호성 해명의 간단한 예일 뿐이다. 언급한 바처럼, 시스템(10)은 또한 사용자 모호성 해명 판정을 할 수 있는 바, 예컨대 다수의 사용자가 있는 환경에서 누군가가 "내 사무실로 전화"라고 말하는 경우에 그러하다. 이 예에 있어서, 이들 여러 사용자 중 누가 이러한 요청을 했는지를 결정하여 그 명령을 충족시키기 위해 시스템(10)이 그러한 명령을 처리하는 방법에 관해서는 통상적인 기술 중 하나에 의해 파악할 수 있을 것이다.

또한 사용자에 대한 추기 입력 요청의 출력은 그 밖의 여러 방법으로 이루어질 수 있고, 또한 사용자간의 상호작용 기회나 시스템으로부터 사용자로의 피드백의 양에 관계없이 이루어질 수 있다. 예컨대 I/O 서브시스템(12)은 GUI 기반의 디스플레이를 포함할 수 있으며, 이에 의해 시스템이 생성한 요청이 텍스트 메시지의 형태로 디스플레이 화면상에 표시된다. 이를 구현하기 위한 그 밖의 출력 메커니즘에 대해서는 본 기술 분야의 통상의 기술 중 한가지에 의해 파악할 수 있을 것이다.

여기서 밝혀둘 것은, 본 명세서에 참조로서 포함된 1999년 10월 1일자 PCT 특허 출원 제PCT/US99/22927호(대리인측 분류번호 제YO999-111호), "대화식 가상 머신을 통한 대화식 컴퓨팅(Conversational Computing Via Conversational Virtual Machine)"에서 개시된 대화식 가상 머신을 채용하여 본 발명의 I/O 관리자, 인식 엔진, 회화 관리자 및 문맥 스택을 위한 프레임워크(framework)를 제공할 수 있다는 것이다. 이러한 대화식 가상 머신에 관한 설명은 이후에 하기로 한다.

또한 초점 또는 주의 탐지는 이후에 설명하는 바와 같이 초점/기분 분류자(22)에 따라 수행되는 것이 바람직하지만, 이러한 작업은 또한 앞서 설명한 바처럼 회화 관리자(18)에 의해 수행될 수도 있다.

이제 도 3을 참조하면, 멀티모드 대화식 컴퓨터 시스템(기분 분류 및/또는 초점 탐지가 이에 의해 달성됨)에 의해 방식(300)이 수행되는 것을 흐름도로 나타내었다. 여기서 이해해야 할 것은 시스템(10)이 도 3의 방식을 도 2의 방식과 병행하여 수행하거나 또는 별개의 시기에 수행할 수 있다는 것이다. 이 때문에, 한 가지 처리에 의해 문맥 스택에 저장된 이벤트가 다른 처리에 의해서도 사용될 수 있는 것이다.

여기서 이해해야 할 것은 단계(302) 내지 단계(308)는 도 2의 단계(202) 내지 단계(208)와 유사하다는 것이다. 즉 I/O 서브시스템(12)은 여러 멀티모드 소스 로부터 미가공 멀티모드 입력 데이터를 획득한다(단계 302). I/O 관리자(14)는 멀티모드 입력 데이터를 하나 또는 그 이상의 이벤트로 추상화한다(단계 304). 하나 또는 그 이상의 인식 엔진(16)은 필요한 경우 상기 하나 또는 그 이상의 이벤트의 성질에 기초하여 그 이벤트를 인식한다(단계 306). 상기 이벤트는 문맥 스택에 저장된다(단계 308).

앞서 언급한 차량의 예에서와 마찬가지로, 초점 탐지의 경우 시스템(10)은 사용자(운전자라고 가정)가 운전 작업에 충분한 주의를 기울이고 있는지를 판정하기 위해 사용자의 초점(및 초점 히스토리)을 판정할 수 있다. 비정상적으로 오래 눈을 감고 있는 것 또는 다른 방향을 응시하는 것 및/또는 주의 산만이나 졸림을 나타내는 발언에 주목함으로써 이러한 판정을 할 수 있다. 시스템은 이러한 잠재적으로 위험한 상태에 대해 운전자에게 경고할 수 있다. 추가적으로, 기분 분류에 있어서는 시스템이 차량 소유자의 기분 또는 감정 상태를 판정하여 이러한 상태에 영향을 미칠 수 있는 그 밖의 관련 장치의 제어에 영향을 미치게 할 수 있다. 이러한 초점 및 기분 판정은 초점/기분 분류자(22)에 의해 단계(310)에서 이루어진다.

초점/기분 분류자(22)는 I/O 관리자(14)로부터 직접 이벤트를 수신하거나, 또는 필요한 경우 이벤트의 성질에 따라 하나 또는 그 이상의 인식 엔진(16)으로부터 이벤트를 수신한다. 예컨대 상기 차량의 예에서, 초점/기분 분류자는 사용자가 만들 수 있는 소리(예컨대 코고는 소리)를 나타내는 오디오 이벤트뿐만 아니라 사용자의 눈 및/또는 머리의 위치를 나타내는 시각적 이벤트를 수신할 수 있다. 문맥 스택에 저장된 과거의 정보 뿐 아니라 이들 이벤트를 사용하여 분류자는 초점 탐지 및/또는 기분 분류 판정을 하게 된다. 이러한 판정의 결과는 또한 문맥 스택에 저장될 수 있다.

그리고 단계(312)에서는, 분류자가 판정의 결과에 따라 일정한 작업이 수행되도록 할 수 있다. 예컨대 운전자의 주의가 산만해진 것으로 판정되면, 분류자가 I/O 관리자로 하여금 TTS 시스템 및 하나 또는 그 이상의 출력 스피커를 통해 사용자에게 경고 메시지를 출력하도록 지시할 수 있다. 운전자의 자세를 관찰한 결과 운전자가 예컨대 피곤한 것으로 판정된 경우, 분류자는 I/O 관리자로 하여금 경고 메시지를 출력하거나, 차량 내의 온도 또는 라디오 볼륨을 조정하는 것 등을 하도록 지시할 수 있다.

여기서 밝혀둘 것은, 본 명세서에 참조로서 포함된 1999년 8월 10일자 미국 특허 출원 제09/371,400호(대리인측 분류번호 제YO999-227호), "대화식 데이터 마이닝(Conversational Data Mining)"에 개시된 대화식 데이터 마이닝(mining) 시스템을 채용하여 본 발명의 기분/초점 분류자를 위한 프레임워크(framework)를 제공할 수 있다는 것이다. 이러한 대화식 데이터 마이닝 시스템에 관한 설명은 이후에 하기로 한다.

참조의 편의를 위해, 나머지 상세한 설명을 (A) 시청각 음성 인식 (B) 시청각 화자 인식 (C) 대화식 가상 머신 (D) 대화식 데이터 마이닝으로 나누어 하도록 할 것이다. 각각의 부분에서는 도 1의 멀티모드 대화식 컴퓨팅 시스템의 일정한 구성 요소들에 관한 바람직한 실시예에 관하여 상세히 설명하도록 할 것이다.

A. 시청각 음성 인식

이제 도 4를 참조하면, 본 발명에 따라 수신된 멀티모드 입력 데이터를 사용하여 음성 인식을 수행하기 위해 도 1의 인식 모듈 중 하나로 채용될 수 있는 시청각 음성 인식 모듈의 바람직한 실시예를 블록도로 나타내었다. 이러한 시청각 음성 인식 모듈에 관해서는 앞서 언급한 1999년 8월 6일자 미국 특허 출원 제09/369,707호(대리인측 분류 번호 제YO999-317호)에 개시된 바 있다. 본 발명의 멀티모드 대화식 컴퓨팅 시스템의 바람직한 실시예에 사용하고자 하는 이러한 시청각 음성 인식 모듈의 구현예 중 한 가지에 관한 설명은 이후에 하기로 한다. 그러나 음성 인식을 수행하기 위한 그 밖의 메커니즘을 채용할 수도 있음을 밝혀두고자 한다.

설명하게 될 이러한 특정 실시예는 의사결정 융합(decision fusion) 방식을 사용하여 시청각 인식을 서술하게 된다. 여기서 설명한 시청각 인식 모듈의 장점 중 하나는 임의의 내용의 비디오를 처리할 수 있는 능력이 있다는 것이다. 다시 말해서, 음성 인식의 맥락에서 비디오 소스로부터의 시각적 단서(cue)를 사용하고자 시도하였던 이전의 시스템은 통제된 환경 하의 비디오, 즉 비임의적 내용의 비디오를 사용해왔다. 즉 이러한 비디오 내용에는 주로 무소음 환경에서 짧은 명령어나 또는 단일한 단어를 인식하고자 하기 위해 시각적 단서가 취해진 얼굴만이 포함되었다. 그러나 이하에 상세히 설명할 바처럼, 본 명세서에 설명된 모듈은 얼굴뿐만 아니라 소음이 있는 환경에서 임의의 배경 물체가 포함될 수도 있는 임의의 내용의 비디오를 처리할 수 있는 것이 바람직하다. 임의 내용의 비디오에 관한 한 가지 예로서 방송 뉴스의 경우를 살펴보자. 이러한 비디오에는 배경에 임의의 활동 및 소음이 있는 장소에서 말하고 있는 뉴스 보도자가 포함될 수 있다. 이러한 경우 설명 할 바처럼, 상기 모듈은 이에 수반하는 음성을 더욱 정확히 인식하는 데 쓰일 관련 시각 정보가 무엇인지를 판정하기 위해서, 얼굴, 특히 입을 파악하여 추적할 수 있다. 상기 모듈은 또한 화자의 얼굴을 볼 수 없는 경우(오디오만 있는 경우) 또는 음성을 들을 수 없는 경우(입술 움직임만 보이는 경우)에도 인식을 계속할 수 있다.

따라서 상기 모듈은 비디오 카메라(404) 및 마이크(406)로부터 I/O 관리자(14)를 통해 실시간으로 임의의 내용을 수신할 수 있다. 여기서 카메라 및 마이크는 I/O 서브시스템(12)의 일부임을 알아두어야 하겠다. 카메라(404)로부터 수신된 비디오 신호 및 마이크(406)로부터 수신한 오디오 신호는 도 4에서 압축되지 않은 것으로 나타나 있지만, 이들은 압축될 수 있고 따라서 적용한 압축 방식에 따라 압축을 풀 필요가 있다.

여기서 카메라(404)에 의해 포착된 비디오 신호는 어떤 특정한 종류의 것일 수 있다는 것을 밝혀두고자 한다. 앞서 언급한 바처럼, 얼굴 및 포즈 탐지 기술은 임의의 파장의 이미지, 예컨대 가시 및/또는 비가시 전자기 스펙트럼 이미지를 처리할 수 있다. 예시일 뿐이지만, 여기에는 적외선(IR) 이미지(예컨대 근/중/원적외선 비디오) 및 무선 주파수(RF) 이미지가 포함될 수 있다. 따라서 상기 모듈은 빛이 부족하거나 변화하는 상황, 또는 빛이 없는 환경 하에서 시청각 음성 탐지 및 인식 기술을 수행할 수 있다. 예컨대, 상기 시스템은 자동차 또는 그 밖의 형태의 차량에 설치되어 IR 이미지를 포착할 수 있고, 이에 의해 향상된 음성 인식이 수행될 수 있다. 비디오 정보(즉 가시 및/또는 비가시 전자기 스펙트럼 이미지 포함)가 음성 인식 처리에 사용될 수 있으므로, 상기 시스템은 오디오 정보만을 사용하는 통상의 인식 시스템을 심하게 방해하는 소음 환경으로 인한 인식 오류에 덜 민감하게 된다. 또한 본 명세서에서 설명한 시각 정보 처리 방식으로 인해 상기 모듈은 정확한 LVCSR(대어휘 연속 음성 인식; Large Vocabulary Continuous Speech Recognition)을 수행할 능력을 갖추게 된다.

로마 숫자 I로 나타낸 점선은 상기 모듈 내에서 오디오 정보 신호가 취하는 경로를 나타내며, 로마 숫자 II로 나타낸 점선은 상기 모듈 내에서 비디오 정보 신호가 취하는 경로를 나타낸다. 우선 오디오 신호 경로(I)에 대하여 논하고, 그 후 비디오 신호 경로(II)에 대해 논한 후 이들 두 종류의 정보가 인식 정확도의 향상을 위해 어떻게 결합하는지에 대해 설명하도록 하겠다.

상기 모듈은 음성 특징 추출기(414)를 포함한다. 특징 추출기(414)는 오디오 또는 음성 신호를 수신하여, 본 기술 분야에 알려진 바처럼 이러한 신호로부터 규칙적인 간격으로 스펙트럼 특징을 추출한다. 스펙트럼 특징은 음향 특징 벡터(신호)의 형태를 하고 있으며, 이는 확률 모듈(416)상으로 전달된다. 음향 벡터가 추출되기에 앞서, 음성 신호는 16㎑의 속도로 샘플링될 수 있다. 하나의 프레임은 25 msec의 지속 시간을 갖는 음성 세그먼트(segment)를 포함할 수 있다. 이러한 배치에 있어, 추출 처리에 의해서는 이후 설명할 처리를 거쳐 24차원의 음향 켑스트럼 벡터(acoustic cepstral vector)가 생성되는 것이 바람직하다. 프레임은 매 10 msec마다 진행하여 이후의 음향 벡터를 획득한다. 또한 여기서는 다른 프레임 사이즈를 갖는 음향 프론트 엔드(front-end) 및 샘플링 속도/신호 대역폭이 채용될 수 도 있음을 명심해야 할 것이다.

우선, 바람직한 음향 특징 추출 처리에 있어서, 프레임 내의 음성 데이터 샘플을 이산 푸리에 변환한 것의 크기는 로그(log)로 변환한 주파수 척도로 되어 있는 것으로 간주하자. 다음으로, 이러한 진폭값들 자체가 로그 척도로 변환된다. 이러한 나중의 두 단계는 주파수 및 진폭에 대한 인간 청각의 대수적 민감도(logarithmic sensitivity)에 의해 유발된다. 그 후, 이산 코사인(discrete cosine) 변환의 형태로 회전이 적용된다. 동적 상태를 포착하기 위한 한 가지 방식은 델타(1차 미분) 및 델타-델타(2차 미분) 정보를 사용하는 것이다. 동적인 정보를 포착하기 위한 다른 방식으로는, 해당 벡터에 한 세트(예컨대 4개)의 선행 및 후행 벡터를 추가하여 그 벡터를 저차원 공간{가장 큰 식별도(discrimination)를 갖도록 선택됨}으로 투영(project)하는 것이다. 두 번째 방식은 선형 판별 해석(LDA; Linear Discriminant Analysis)으로 알려져 있으며, 본 기술 분야에서 잘 알려져 있다.

도 4에서 문자 "A"로 나타낸 음향 특징 벡터가 추출된 후에는, 확률 모듈이 기존에 저장된 하나 또는 그 이상의 음소(phoneme)(본 기술 분야에 알려진 바처럼, 음성의 하위 음성 또는 음향 단위임)로 상기 추출된 벡터에 대해 표지를 붙인다. 상기 모듈은 또한 레펨(lefeme) - 일정한 문맥에 있어서 음의 일부분 - 으로 작업을 할 수도 있다. 하나 또는 그 이상의 특징 벡터와 연관된 각 음소는 그 특정 음향 단위가 발화될 가능도를 나타내는, 상기 특징 벡터와 연관된 확률을 갖는다. 따라서 상기 확률 모듈은, 특정 음소 또는 음향 단위(au; acoustic unit)가 주어진 경우에 그 음향 단위가 하나 또는 그 이상의 음향 특징 벡터 A로 특징지어지는 음성을 나타낼 확률, 즉 P(A|음향 단위)의 형태로 각 대상 음소에 대한 가능도 점수(likelihood score)를 산출해 낸다. 여기서 알아 둘 것은, 블록(414) 및 블록(416)에서 수행되는 처리는 음향 특징 벡터를 추출하여 표지를 붙일 수 있는 어떤 통상의 음향 정보 인식 시스템{예컨대 로렌스 라비너(Lawrence Rabiner), 빙황 좡(Biing-Hwang Juang), "음성 인식의 기초(Fundamentals of Speech Recognition)"(Prentice Hall, 1993)}을 통해서도 달성될 수 있다는 것이다.

이제 도 4의 비디오 신호 경로(II)를 참조하여 시각 정보 처리 방식을 설명하도록 하겠다. 시청각 음성 인식 모듈{도 1의 블록(16)의 일부로서 도 4에 나타냄}에는 능동 화자 얼굴 탐지 모듈(418)이 포함되어 있다. 능동 화자 얼굴 탐지 모듈(418)은 비디오 입력 카메라(404)를 수신한다. 여기서 화자 얼굴 탐지는 또한 압축된 데이터 도메인에서 직접 수행되고/수행되거나, 비디오 정보만이 아닌 오디오 및 비디오 정보로부터 수행될 수도 있다는 것을 알아두어야 하겠다. 어떤 경우이건, 모듈(418)은 일반적으로 화자의 얼굴 및 얼굴의 얼굴 요소(feature)를 임의의 비디오 배경 내에서 파악하여 추적한다. 이에 대해서는 이후에 더 상세히 설명하기로 한다.

인식 모듈은 또한 정면 포즈 탐지 모듈(420)을 포함하는 것이 바람직하다. 여기서 알아둘 것은 상기 탐지 모듈(420)은 비디오 프레임 내의 화자가 정면 포즈를 취하고 있는지 여부를 판정하는 역할을 한다는 것이다. 이는 누군가가 언제 발화를 할 것 같은지, 또는 모듈에 의해 처리(예컨대 모듈에 의한 인식)하고자 하는 음성을 언제 발화하기 시작할 것 같은지에 대해 확실히 판정하는 기능을 한다. 이는 적어도 사용자의 얼굴을 카메라들 중 하나로부터 볼 수 있는 경우이다. 그렇지 않은 경우에는, 예컨대 침묵 탐지, 음성 활동 탐지 및/또는 소음 보상(noise compensation)이 가능한 통상의 음성 인식이 사용될 수 있다. 따라서 배경 소음이 마치 음성인 것처럼 인식되지는 않으며, 발화의 시작을 실수로 놓치지도 않는다. 여기서, 모듈의 가청 범위 내에서 수행되는 모든 음성 활동이 시스템에 대한 것은 아니라는 것을 명심해야 한다. 사용자는 시스템에 대하여 말하고 있는 것이 아니고, 다른 사람 또는 전화에 말할 수도 있다. 따라서 상기 모듈은 시각 모드를 음성 모드와 관련하여 사용함으로써 시청각 음성 인식에 있어서의 일정한 기능을 언제 수행할지 판정하는 탐지 모듈로 구현된다.

사용자가 시스템에 대하여 언제 말을 하는지 판정하는 한 가지 방법은, 사용자가 카메라를 보는 시점 및 사용자의 입이 음성 또는 언어 활동을 나타내는 시점을 탐지하는 것이다. 이는 인간의 행동을 잘 나타낸 것이다. 즉 누군가가 당신을 보고 입술을 움직이면, 이는 일반적으로 그가 당신에게 말을 하고 있는 것을 나타낸다.

얼굴 탐지 모듈(418) 및 정면 포즈 탐지 모듈(420)에 있어서는, 당해 비디오 이미지에서 얼굴 포즈가 정면인지를 탐지한다. 사용자가 (i) 대체로 카메라를 쳐다보거나, (ii) 카메라를 직접 쳐다보거나{"완전 정면(strictly frontal)"이라 불림} 하는 경우에 이러한 얼굴 포즈를 "정면"이라 한다. 따라서 바람직한 실시예에 있어서는, 얼굴이 절대적으로 정면이 아닌지("비정면"이라 불림)를 판정함으로써 "정 면" 여부를 판정하게 된다. 비정면 얼굴 포즈는, 머리의 방향이 완전 정면 방향으로부터 멀리 떨어져 있어서 응시 방향이 카메라를 바로 향하거나 또는 카메라를 대체적으로 향하는 것으로 해석될 수 없는 정도인 경우를 말한다. 바람직한 실시예에 있어 정면 얼굴 포즈 및 비정면 얼굴 포즈인 것으로 간주되는 경우의 예를 도 5a에 나타내었다. 포즈(I) 내지 포즈(III)는 사용자의 얼굴이 정면인 것으로 간주되는 경우의 얼굴 포즈를 나타내었고, 포즈(IV) 및 포즈(V)는 사용자의 얼굴이 비정면인 것으로 간주되는 경우의 얼굴 포즈를 나타내었다.

도 5b를 참조하면, 얼굴 탐지 및 정면 포즈 탐지 방법을 나타낸 흐름도를 볼 수 있다. 처음 단계(단계 502)는 카메라(404)로부터 수신한 임의의 내용의 비디오 프레임에서 얼굴 후보를 탐지하는 것이다. 다름으로 단계(504)에서는 각각의 후보에서 예컨대 코, 눈 입, 귀 등의 얼굴 요소를 탐지한다. 따라서 단계(506)에서는 이러한 얼굴 후보들의 정면 여부에 따라 이들을 전정(剪定; pruning)하는 데 필요한 모든 정보를 가지고 있게 된다. 즉 충분한 정면 특성(예컨대 다수의 잘 탐지된 얼굴 요소 및 이들간의 거리)을 갖지 못한 후보들이 제거되는 것이다. 이러한 전정 방법에 대한 단계(506)에서의 대체 처리에는 이하에 설명할 계층적 템플릿 매칭(hierarchical template matching) 기술이 포함된다. 단계(508)에서는, 상기 전정 메커니즘(pruning mechanism) 후에 적어도 하나의 얼굴 후보가 존재하는 경우, 당해 비디오 프레임에는 정면 얼굴이 있다고 판정한다.

포즈 탐지에 관한 일반적인 문제를 해결하기 위한 방법에는 여러 가지가 있다. 우선 기하학적 방법으로서, 포즈에 따라 얼굴의 2차원적 표현(예컨대 카메라 이미지)에 있어서 얼굴 요소간의 거리의 편차를 고려할 뿐인 방법이 있다. 예컨대, 약간 돌린 얼굴 그림에서 오른쪽 눈과 코 사이의 거리는 왼쪽 눈과 코 사이의 거리와 상이해야 하고, 이 차이는 머리를 돌림에 따라 더 증가해야 한다. 또한 얼굴 고유의 속성으로부터 얼굴의 방향을 추정하는 시도를 할 수도 있다. A. 지(A. Gee) 및 R. 시폴라(R. Cipolla) 著, "얼굴의 단일 측면으로부터의 시선 추정(Estimating Gaze from a Single View of a Face)"(Tech. Rep. CUED/F-INFENG/TR174, 1994년 3월)에서는 얼굴 내에서의 포즈 불변 거리비(pose invariant distance ratio)를 주로 고려하여 얼굴 표준(normal)을 추정하는 것을 제안한 바 있다.

다른 방식으로는 원본 이미지 또는 얼굴 영역에 대해 필터 및 그 밖의 간단한 변환을 사용하는 것이다. R. 브루넬리(R. Brunelli) 著, "얼굴 처리를 위한 포즈 및 조명 방향 추정(Estimation of pose and illuminant direction for face processing)", Image and Vision Computing 15, 714-748면, 1997)에서는, 예컨대 조명에 대한 민감도를 감소시키는 경향이 있는 전처리 단계를 거친 후, 두 눈을 수평축에 투영함으로써 그 비대칭의 정도로 얼굴 회전의 추정치를 산출한다.

트레이닝 방법이라 불리는 방법에서는, 얼굴의 여러 가지 가능한 포즈를 모델링함으로써 얼굴 포즈를 "인식"하고자 한다. 한 가지 가능한 방안은 A.J. 호웰(A.J. Howell) 및 힐러리 벅스턴(Hillary Buxton) 著, "외형 기반 모델을 사용한 시각 중재 상호작용(Towards Visually Mediated Interaction Using Appearance-Based Models)"(CSRP 490, 1998년 6월)에서 설명한 바 있는 RBF(Radial Basic Function) 네트워크와 같은 신경망을 사용하는 것이다. RBF 네트워크는 저해상도의 얼굴 사진으로부터 포즈 종류에 관해서 이미지를 분류하도록 트레이닝된다.

또 다른 방식으로는 3차원 템플릿 매칭(template matching)을 사용하는 것이다. N. 크루거(N. Kruger), M. 포츠(M. Potzch) 및 C. 폰 데어 말스버그(C. von der Malsburg) 著, "표지된 그래프에 기초하여 학습된 표현을 사용한 얼굴 위치 및 포즈의 판정(Determination of face position and pose with a learned representation based on labeled graphs)"(Image and Vision Computing 15, 665-673면, 1997)에서는 3차원 탄성 그래프 매칭을 사용하여 얼굴을 표현하는 것을 제안하고 있다. 각 노드는 한 세트의 가보 제트(Gabor jet)와 연관되어 있으며, 상이한 포즈에 대한 템플릿과 후보 그래프 사이의 유사성은 상기 그래프를 변형(deform)함으로써 최적화될 수 있다.

물론, 이러한 상이한 방식들을 조합하여 더 나은 결과를 산출하도록 할 수도 있다. 이러한 방법들은 대부분 얼굴이 이전에 사진으로 찍혀있었다고 가정하며, 얼굴 요소 등의 일부가 탐지된 것으로 종종 가정한다. 게다가 어떤 기술, 특히 기하학적 기술의 경우에는 이러한 얼굴 요소 위치 탐지의 정확성에 매우 많이 의존하게 된다.

그러나 사진에서 얼굴 및 얼굴 요소를 파악하는 것은 또한 많은 상이한 해법이 있는 문제가 된다. 바람직한 실시예에 있어서는, 이를 얼굴 포즈를 매우 정확히 판정하고자 하는 일반적인 포즈 탐지 문제보다는 덜 복잡한 2종(two-class) 탐지 문제로 간주한다. 다종(multi-class) 탐지와는 달리, 2종 탐지라 함은 이진 의사결정(binary decision)이 두 가지 옵션, 예컨대 얼굴의 존재 또는 부존재 여부나, 정 면 또는 비정면 여부 등의 사이에서 이루어진다는 것이다. 앞서 언급한 하나 또는 그 이상의 기술이 채용될 수 있지만, 바람직한 실시예에서 구현할 기술은 이후에 설명하기로 한다.

이러한 바람직한 실시예에 있어, 능동 화자 얼굴 탐지 모듈(418) 및 정면 포즈 탐지 모듈(420)이 얼굴 및 얼굴 요소 탐지를 위해 채용한 주요 기술은 피셔 선형 판별(FLD; Fisher Linear Discriminant) 해석에 기초한다. FLD 해석의 목표는 클래스간의 최대 식별도를 얻고, 특징 공간(feature space)의 차원을 감소시키는 것이다. 얼굴 탐지에 있어서, 다음과 같은 두 클래스를 가정하자. 즉 (i) 인클래스(In-Class)로서 얼굴을 포함하는 것이고, (ii) 아웃클래스(Out-Class)로서 얼굴이 아닌 것을 포함하는 것이다. FLD 해석의 기준은 이하의 비율을 최대로 만드는, 특징 공간의 벡터

모호성은 어떤 시점에서 검사되는 가

를 찾는 것이다.

모호성은 어떤 시점에서 검사되는 가

여기서 SB는 클래스간 분산 행렬(scatter matrix)이고 SW는 클래스내 분산 행렬이다.

올바른

모호성은 어떤 시점에서 검사되는 가

(FLD라 불림)를 찾았으면

모호성은 어떤 시점에서 검사되는 가

를 계산함으로써

모호성은 어떤 시점에서 검사되는 가

에 각 특징 벡터 x를 투영하고, 그 결과를 임계값(threshold)과 비교하여 x가 인클래스에 속하는지 또는 아웃클래스에 속하는지 결정한다. 여기서 주목할 것은, 알려진 바처럼 주 성분 분석(PCA; Principal Component Analysis)을 사용함으로써, 수학식 1의 비율을 최대화하는 특징 공간의 벡터

모호성은 어떤 시점에서 검사되는 가

를 찾기 이전에 특징 공간의 차원을 감소시킬 수도 있다. 예컨대 P.N. 벨후메르(P.N. Bellhumeur), J.P. 헤스파냐(J.P. Hespanha) 및 D.J. 크리그먼(D.J. Kriegman) 著, "고유 얼굴 대 피셔 얼굴: 클래스 특정 선형 투영을 사용한 인식(Eigenfaces vs. Fisherfaces: Recognition Using Class Specific Linear Projection)"(IEEE Transactions on Pattern Analysis and Machine Intelligence, 제19권, 제7호, 1997년 7월)을 참조한다.

얼굴 탐지(도 5b의 단계 502)에는 우선 비디오 시퀀스의 첫 프레임에서 얼굴을 찾아내는 단계와, 비디오 클립의 프레임들에 걸쳐 그 위치를 추적하는 단계가 포함된다. 얼굴 탐지는 다음과 같은 방식으로 수행되는 것이 바람직하다. 얼굴을 찾아내는 데 있어서, 허용 가능한 척도 상에서 이미지 피라미드가 생성되어 피라미드의 모든 위치에 대하여 그 둘러싼 영역을 얼굴 위치로서 점수를 매긴다. 피라미드에서 색상에 의해 얼굴의 존재가 표시될 수 있는 이미지 영역을 찾아내는 목적을 갖는 피부 색조 분할 처리(skin-tone segmentation process) 이후에는, 이미지가 서브샘플링(sub-sampling)되고 영역들은 이전에 저장된 얼굴 템플릿의 다양한 트레이닝 세트에 대하여 FLD 해석을 사용하여 비교된다. 이에 의해 점수가 산출되는 바, 이는 DFFS(Distance From Face Space) 척도와 결합되어 얼굴 가능도 점수(face likelihood score)가 된다. 알려진 바처럼, DFFS는 공분산 행렬의 고유 벡터(eigenvector)상의 이미지 에너지(image energy) 분포를 참작한다. 총점이 높 을수록 대상 지역이 얼굴일 확률이 높다. 따라서 모든 기준상에서 점수가 높은 위치는 얼굴이라고 판정되는 것이다. 각각의 고득점 얼굴 위치에 대해서는, 한 프레임에서 다음 프레임으로 가면서 발생하는 작은 변환이나 스케일 및 회전 변화를 참작하여 이러한 변화들 각각에 대해 얼굴 영역의 점수를 다시 매김으로써 이러한 파라미터(예컨대 FLD 및 DFFS)의 추정을 최적화한다. DFFS는 또한 M. 터크(M. Turk) 및 A. 펜트랜드(A. Pentland) 著, "인식을 위한 고유 얼굴(Eigenfaces for Recognition)"(인지 신경 과학 저널, 제3권, 제1호, 71-86면, 1991)에서도 설명된 바 있다. 본 발명에 있어서 채용될 수 있는, 얼굴 및 얼굴 요소 탐지를 위한 컴퓨터 시각 기반의 얼굴 식별 방법에 대해서는 앤드류 시니어(Andrew Senior) 著, "얼굴 인식 시스템을 위한 얼굴 및 얼굴 요소 탐지(Face and feature finding for face recognition system)"(오디오-비디오 기반의 생체인식 신원 인증에 관한 제2차 국제회의, 워싱턴 DC, 1999년 3월)에서 설명되었다.

유사한 방법이, 위치를 통계적으로 참작한 것과 결합되어 적용됨으로써 얼굴 내의 요소를 탐지하게 된다(도 5b의 단계 504). 여기서 주목할 점은 이러한 얼굴 및 얼굴 요소 탐지 기술은 완전 정면인 얼굴만을 탐지하기 위해 설계되었으며, 템플릿은 오직 완전 정면인 얼굴을 비정면 얼굴과 구별하고자 하는 것이라는 점인 바, 더 일반적인 정면의 얼굴은 전혀 고려되지 않는다.

물론, 이러한 방법은 얼굴 및 얼굴 요소 템플릿을 생성시켜야 할 필요가 있다. 이들은 정면 얼굴 이미지의 데이터베이스로부터 생성된다. 트레이닝 얼굴 또는 특징 벡터가 인클래스에 추가되고, 일부 아웃클래스 벡터는 트레이닝 이미지의 배 경으로부터 무작위로 생성된다.

점수 임계화 기술(score thresholding technique)에 있어서는, 총점을 임계치와 비교하여 얼굴 후보 또는 얼굴 요소 후보가 진정한 얼굴 또는 얼굴 요소인지 여부를 결정할 수 있다. FLD 해석에 기초하여, 이러한 점수는 실질적인 포즈 탐지 문제에 있어 흥미로운 속성을 갖는다. 사실, 일정한 사용자에 대해서도 사용자가 머리를 돌림에 따라 점수가 바뀌는 바, 즉 머리가 정면에 가까울수록 점수가 더 높게 된다.

그 후, 완전 정면인 얼굴 및 이것의 얼굴 요소를 탐지하는 방법을 이미 구비하였으므로, 이를 2종 탐지 문제에 가장 가깝도록 적응시킨다. 바람직한 실시예에 있어서, 상기 모듈은 상기 탐지 방법을 적응(도 5b의 단계 506)시키는 두 가지 대체 방안을 제공한다. 즉 (i) 전정 메커니즘(pruning mechanism) 및 (ii) 계층적 템플릿 매칭 기술이 그것이다.

전정 메커니즘

여기서는, 얼굴 탐지를 위해 이미 계산된 템플릿을 다시 사용한다. 얼굴 및 얼굴 요소 탐지 기술에는 오직 완전 정면인 얼굴의 트레이닝 데이터가 필요하므로, 더 넓은 데이터베이스가 필요하지 않게 된다. 이 방법은 비정면 얼굴을 전정하기 위해 얼굴 및 얼굴 요소 탐지를 결합하는 단계를 포함한다. 우선 앞서 논한 알고리즘에 따라, 의도적으로 낮은 점수 임계치로 프레임에서 얼굴을 탐지한다. 이러한 낮은 임계치에 의해 완전 정면인 것과는 거리가 먼 얼굴들을 탐지할 수 있게 되어, 다소간 정면인 얼굴들을 빠뜨리지 않을 수 있게 된다. 물론 이는 일부의 옆얼굴이 나 심지어는 얼굴이 아닌 것들도 탐지하는 결과를 낳을 수도 있다. 그 후, 각 후보에 대해서 얼굴 요소(눈, 코, 입술 등)의 위치를 추정하게 된다.

이하의 독립적인 계산에 따라서, 후보들 중 잘못된 것들이 전정된다.

(i) 모든 얼굴 요소 점수의 합: 이것은 FLD 및 DFFS를 조합하여 얻어지는 점수이다. 상기 합을 임계치와 비교하여 후보가 폐기될지 여부를 결정한다.

(ii) 잘 인식된 주요 특징의 수: 눈, 코 및 입에 대해서 낮은 점수를 갖는 후보들을 폐기한다. 사실 이러한 눈, 코, 입이 사람의 얼굴에서 가장 특유하고 가시적인 특징이며, 정면 및 비정면 얼굴 사이에 있어 차이가 크다.

(iii) 코의 중심과 각 눈 사이의 거리의 비율

(iv) 각 눈과 얼굴 영역 측면 사이의 거리의 비율: 각각의 얼굴은 템플릿 매칭을 위해 사각형으로 경계가 정해진다(예컨대 앞서 인용한 A. 시니어의 저작을 참조). 특히, 이 비율은 중심축으로부터 오른쪽 눈의 바깥쪽 끝까지의 거리에 대한, 중심축으로부터 왼쪽 눈의 바깥쪽 끝까지의 거리이다. 이 비율은 시선 각도에 따라 바뀌므로 기준으로서 사용될 수 있다.

이들 비율은 2차원 투영으로 인해 얼굴이 비정면일수록 1과 다르게 될 것이다. 따라서 이들 비율을 각 얼굴 후보에 대해 계산한 값을 1과 비교하여 후보가 폐기될지 여부를 결정한다.

그 후, 하나 또는 그 이상의 얼굴 후보가 후보 스택에 남아있는 경우에는 대상 프레임에서 정면 얼굴이 탐지된 것으로 여기게 된다.

마지막으로, 실용적인 이유에서, 버스트(burst) 메커니즘을 사용하여 결과를 평활화(smoothing)하는 것이 바람직하다. 여기서는, 본 명세서의 대화식 시스템의 특성을 활용한다. 즉 사용자가 카메라 앞에 있는 것(또는 있지 않는 것)으로 간주하므로, 시간에 따른 그의 행동을 고려할 수 있게 되는 것이다. 비디오 카메라가 고속(통상적으로 초당 30 프레임)으로 사용자의 사진을 찍는 경우, 사람이 프레임 속도에 비해 천천히 움직인다는 것을 고려하면, 현재 프레임에서의 결과를 예측하기 위해 이전 프레임의 결과를 사용할 수 있게 된다.

따라서, 정면 얼굴이 현재의 프레임에서 탐지된 경우, 그것이 다음 x개의 프레임(x는 프레임 속도에 따라 다름)에서 정면인 상태로 유지될 것이라고 간주할 수 있다. 물론 이는 사용자가 머리를 돌리거나 또는 나감에 따라 얼굴이 정면에서 비정면이 되는 경우에는 일부 잘못된 긍정적 탐지 결과를 추가시키게 되지만, 잘못된 부정적 탐지 결과가 줄어드는 경우에는 일부 더 많은 잘못된 긍정적 탐지 결과를 용인할 수 있다. 사실, 인간-컴퓨터 상호작용 시스템에 있어서 잘못된 부정적 탐지 결과는 잘못된 긍정적 탐지 결과보다 좋지 않은 것이다. 즉 컴퓨터가 종종 너무 많이 듣게 되더라도, 사용자의 음성 중 한 단어라도 놓치지 않는 것이 중요하다.

이러한 전정 방법은 여러 가지 장점을 갖는다. 예컨대, 특정 데이터베이스의 계산을 필요로 하지 않는다. 즉 얼굴 검출을 하기 위해 계산된 것을 다시 사용할 수 있다. 또한 단순한 임계화에 비해, 얼굴이 아니면서 고득점인 경우를 폐기할 수 있는 바, 이는 얼굴의 요소 및 얼굴의 기하학적 형상과 같은, 얼굴에 특정된 고려 사항에 의존하기 때문이다.

계층적 템플릿 매칭

탐지 문제를 해결하기 위한 또 다른 방안으로는 템플릿 매칭 기술을 변경하는 것이다. 사실, FLD 계산 기술은 "비정면" 얼굴을 전혀 고려하지 않는다. 즉 인클래스에는 오직 "완전 정면"인 얼굴만이 포함되고, 아웃클래스에는 얼굴이 아닌 것들만 포함되었다. 따라서, 이러한 대체 실시예에 있어서는 다음과 같은 다른 형태의 템플릿을 사용할 수 있다.

(i) 이전의 기술과 달리, 인클래스에 정면 얼굴 뿐 아니라 비정면 얼굴도 포함되며, 아웃클래스에는 비정면 얼굴이 포함되는 얼굴 템플릿

(ii) 인클래스에는 완전 정면인 얼굴이 포함되고 아웃클래스에는 비정면 얼굴이 포함되는 포즈 템플릿

이들 두 템플릿을 사용함으로써 계층적인 템플릿 매칭이 가능하다. 우선 실제 얼굴 가능도(face-likelihood) 점수를 계산하기 위해 얼굴 템플릿으로 템플릿 매칭을 한다. 이 점수는 임계치와 비교된 후 얼굴(정면 또는 비정면)인지 아닌지 여부를 나타내게 된다. 그 후, 이러한 매칭에 의해 얼굴이 실제로 탐지된 경우 포즈 템플릿으로 제2의 템플릿 매칭을 수행함으로써, 이번에는 정면 가능도(frontalness-likelihood) 점수를 산출하게 된다. 이 마지막 포즈 점수는 이전의 얼굴 점수에 비해서 비정면부터 정면 얼굴까지 편차가 다양하다.

따라서, 계층적 템플릿 방법으로 인해 사용자에 대해 덜 의존적인 임계치를 찾기가 쉽게 되므로, 간단한 얼굴 탐지 점수 임계화에 의해 문제를 해결할 수 있게 된다. 계층적 템플릿 매칭 방법의 한 가지 장점은, 포즈 점수(즉 포즈 템플릿 매칭에 의해 주어지는 점수)가 얼굴이 아닌 경우(즉, 얼굴 템플릿 매칭에 의해 얼굴인 것으로 잘못 탐지되었던 것일 수 있는 경우)에 대해서는 매우 낮다는 것이며, 이로 인해 얼굴이 아닌 것을 폐기하는 데 도움이 된다.

전정 방법 또는 계층적 템플릿 매칭 방법 중 하나의 결과에 대해서, 하나 또는 그 이상의 정면 포즈 존재의 추정치가 모듈 420(도 4)에 의해 출력된다. 이러한 추정치{여기에는 모듈(418 및 420)에 따라 계산된 FLD 및 DFFS 파라미터가 포함될 수 있음)는, 정면 포즈를 갖는 얼굴이 참조 대상인 비디오 프레임에서 탐지되었는지 여부를 나타낸다. 이러한 추정치는, 모듈(414)에서 추출된 오디오 특징 벡터 A 및 시각 음성 특징 추출기 모듈(422)에서 추출된 시각 음성 특징 벡터 V와 함께 이벤트 탐지 모듈(428)에 의해 사용되며, 이에 관해서는 이후에 설명하기로 한다.

이제 도 4로 다시 돌아가면, 시각 음성 특징 추출기(422)는 능동 화자 얼굴 탐지기(418)에 의해 비디오 프레임에서 탐지된 얼굴로부터 시각 음성 특징 벡터(예컨대 입 또는 입술 관련 파라미터)를 추출하며, 이는 도 4에서 문자 V로 나타내었다.

추출될 수 있는 시각 음성 특징의 예로서, 입 영역의 그레이스케일(grey scale) 파라미터; 입 영역의 면적, 높이 및 폭과 같은 기하학적/모델 기반의 파라미터; 곡선 적합화(curve fitting)에 의해 내측/외측 윤곽의 스플라인(spline) 파라미터에 도달한 입술 윤곽; 3차원 추적에 의해 획득한 모션(motion) 파라미터가 있다. 또한, 모듈(422)을 통해 추출될 수 있는 또 다른 특징 세트도 이상의 요인을 고려한다. 이러한 기술은 ASM(Active Shape Modeling)으로 알려져 있으며, 예인 메튜스(Iain Matthews) 著, "시청각 음성 인식을 위한 특징(Features for audio visual speech recognition)"(East Angalia 대학교 정보 시스템 대학 박사 논문, 1998년 1월)에 설명된 바 있다.

따라서, 시각 음성 특징 추출기(422)는 하나 또는 그 이상의 공지의 시각 특징 추출 기술을 사용할 수 있는 반면, 한 가시 실시예에 있어 상기 추출기는 상기 이미지의 입 영역과 연관된 그레이스케일 파라미터를 추출할 수 있다. 입술 모서리의 위치가 주어지면, 스케일(scale) 및 회전의 정규화 이후에, 입술 영역을 중심에 포함하는 사각형 영역이 압축이 해제된 원래의 비디오 프레임으로부터 추출된다. 주성분 분석(PCA)은 알려진 바처럼, 이러한 그레이스케일값의 벡터로부터 이보다 저차원의 벡터를 추출하는 데 사용될 수 있다.

모듈(422)에 구현될 수 있는 또 다른 시각 특징 벡터 추출 방법에는 기하학적 특징을 추출하는 방법이 포함될 수 있다. 여기에는 입술 윤곽과 이것의 시간에 따른 동적 상태로부터의 음성/시각음소(phonetic/visemic) 정보 추출이 수반된다. 통상적인 파라미터로는 입술 모서리, 개구부의 높이 또는 면적 및 내/외측 입술의 곡률이 있을 수 있다. 조음 기관, 예컨대 치아 및 혀의 위치 또한 카메라로 식별할 수 있는 한 특징 파라미터가 될 수 있다.

그레이스케일 값으로부터 이러한 파라미터를 추출하는 방법에는, 파라미터값과 연관된 입술 윤곽과 그레이스케일 이미지 사이의 불일치를 나타내는 함수(예컨대 비용 함수)의 최소화가 포함될 수 있다. 색상 정보는 이들 파라미터를 추출하는 데 또한 활용될 수 있다.

포착한(또는 역다중화 및 압축 해제된) 비디오 스트림으로부터 경계선 탐지(boundary detection)를 수행하게 되는 바, 이것의 궁극적인 결과는 예컨대 원, 포물선, 타원 또는 더욱 일반적으로는 스플라인 윤곽선 등 각각 한정된 세트의 파라미터로 기술할 수 있는 파라미터화된 윤곽선이다.

또한, 추출될 수 있는 그 밖의 특징에는, 애니메이션을 위한 컴퓨터 그래픽에서 쓰이는 유형의 2차원 또는 3차원 와이어프레임(wire-frame) 모델 기반의 기술이 포함된다. 와이어프레임은 다수의 삼각형 패치(patch)로 이루어져 있을 수 있다. 이러한 패치들은 다함께 입/입술/턱 영역을 구조적으로 나타내는 바, 이들 각각에는 음성 판독에 유용한 특징들이 포함된다. 이들 파라미터는 또한 이미지의 그레이스케일값들과 조합하여 사용될 수 있으며, 이에 따라 이들 두 방식의 상대적인 장점으로부터 이득을 얻을 수 있게 된다.

추출된 시각 음성 특징 벡터는 그 후 탐지 모듈(420)이 생성한 정면 포즈 추정치에 대하여 블록(424)에서 정규화된다. 정규화된 시각 음성 특징 벡터는 그 후 확률 모듈(426)에 제공된다. 오디오 정보 경로에서의 확률 모듈(416)(음향 특징 벡터에 하나 또는 그 이상의 음소로 표지를 붙임)과 유사하게, 확률 모듈(426)은 추출된 시각 음성 벡터에 이전에 저장된 하나 또는 그 이상의 음소로 표지를 붙인다. 마찬가지로 하나 또는 그 이상의 시각 음성 특징 벡터와 연관된 각 음소는, 참조 대상인 비디오 세그먼트에서 그 특정 음향 단위가 발화될 가능도를 나타내는, 상기 벡터와 연관된 확률을 갖는다. 따라서 상기 확률 모듈은, 특정 음소 또는 음향 단위(au)가 주어진 경우에 그 음향 단위가 하나 또는 그 이상의 시각 음성 특징 벡터 V로 특징지어지는 음성을 나타낼 확률, 즉 P(V|음향 단위)의 형태로 각 대상 음소 에 대한 가능도 점수(likelihood score)를 산출해 낸다. 대신, 시각 음성 특징 벡터에는 시각 음소(viseme) - 앞서 언급한 바와 같이, 음성 발화에 수반되는 시각적인 음소 또는 정규적인 입모양 - 를 가지고 표지를 붙일 수도 있다.

다음으로, 모듈(416) 및 모듈(426)이 생성한 확률은 A,V 확률 모듈(430)에 의해 함께 사용된다. 모듈(430)에서는, 모듈(416) 및 모듈(426)로부터의 각 확률은 신뢰 측정치(432)에 기초하여 결합된다. 신뢰 추정치라 함은 인식된 입력에 대하여 판정되는 가능도 또는 그 밖의 신뢰 측정치를 말한다. 최근에는 인식된 음성에 대한 적합한 신뢰 측정치를 개발하려는 노력이 시작되었다. LVCSR Hub5 워크샵(일시: 1996년 4월 29일 ∼ 5월 1일, 장소: 메릴랜드주 MITAGS. 주최: NIST, DARPA)에서는, 각각의 단어에 대해 신뢰 수준을 부가하는 상이한 방식이 제안된바 있다. 첫 번째 방법에서는, 단어 종속적 특징{트레이닝하는 발화의 양, 언어 모델 트레이닝에 있어서의 최소 및 평균 삼중음소(triphone) 빈도, 음소/레펨 수, 지속기간, 음향 점수(빠른 매칭 및 상세 매칭), 음성 및 비음성}, 문장 의존적 특징{신호대 잡음비, 발화 빈도 추정치(초당 단어수나 레펨수 또는 모음수), 언어 모델이 제공하는 문장 가능도, 언어 모델에 있어서의 트라이그램(trigram) 빈도}, 문맥 특징에 있어서의 단어(언어 모델에 있어서의 트라이그램 빈도) 및 발화자 프로파일 특징(강세, 방언, 성별, 연령, 발화 속도, 신원, 음질, SNR 등)에 대해서 트레이닝된 의사결정 트리(decision tree)를 사용한다. 오류 확률은 트리의 각 리프(leaf)에 대한 트레이닝 데이터에 관해 계산된다. 이러한 트리를 구축하기 위한 알고리즘은 예컨대 브라이먼 외 著, "분류 및 회귀 트리(Classification and regression trees)"(Chapman & Hall, 1993)에 개시된 바 있다. 인식에 있어서, 이들 특징 모두 또는 일부는 인식 도중에 측정되고, 각각의 단어에 대해 의사결정 트리는 일정 신뢰 수준을 제공하는 리프로 진행(walk)하게 된다. C. 네티(C. Neti), S. 루코스(S. Roukos) 및 E. 에이드(E. Eide) 著, "음성 인식에서의 스택 검색을 위한 가이드로서의 단어 기반 신뢰 측정(Word based confidence measures as a guide for stack search in speech recognition)"(ICASSP97, 뮌헨, 독일, 1997년 4월)에서는 IBM 스택 복호기{로그 가능도(log-likelihood), 실제로는 평균 증분 로그 가능도, 상세 매칭, 고속 매칭을 사용}가 반환하는 점수에 전적으로 의존하는 방법이 기술되어 있다. LVCSR 방식에서는, 선형 회귀를 통해 예측자(predictor)를 사용함으로써 신뢰 수준 추정하기 위한 또 다른 방법이 수행된다. 여기서 사용되는 예측자에는, 단어 지속 기간, 언어 모델 점수, 프레임당 평균 음향 점수(최고 점수) 및 최고 선택(top choice)과 같은 단어를 갖는 N-베스트(N-Best) 리스트의 비율이 포함된다.

본 실시예는 이들 두 방식(의사결정 트리 및 선형 예측자를 통한 신뢰 수준 측정)을 조합하여 제공함으로써, 음성 인식 뿐 아니라 어떤 해석 과정에 있어서도 신뢰 수준을 체계적으로 추출하는 것이 바람직하다. 부정확하게 인식된 단어를 탐지하는 또 다른 방식은 미국 특허 제5,937,383호, "고속 단어 수락 또는 거부를 위한 개인 또는 화자 클래스 종속적인 복호화 히스토리 캐쉬를 포함하는 음성 인식 장치 및 방법(Apparatus and Methods for Speech Recognition Including Individual or Speaker Class Dependent Decoding History Caches for Fast Word Acceptance or Rejection)"에 개시되어 있으며, 본 명세서에 참조로서 포함되었다.

따라서 신뢰 측정치에 기초하여 확률 모듈(430)은 시각 정보 경로로부터의 확률 또는 오디오 정보 경로로부터의 확률 중 어느 확률에 더 의존할지 결정하게 된다. 이러한 판정은 다음과 같은 식으로 표현될 수 있다.

모호성은 어떤 시점에서 검사되는 가

여기서 vp는 시각 정보와 연관된 확률을 나타내고, ap는 대응되는 오디오 정보와 연관된 확률을 나타내며, w1 및 w2는 각각의 가중치를 나타낸다. 따라서 모듈(430)은 신뢰 측정치(432)에 기초하여 적합한 가중치를 이들 확률에 대해 부여한다. 예컨대 주변 환경의 잡음 수준이 특히 높은 경우, 즉 낮은 음향 신뢰 측정치가 나온 경우에는 음향 복호화 경로가 생성하는 확률들에 오류가 포함될 가능성이 높아진다. 따라서 모듈(430)은 시각 경로로부터의 복호화된 정보를 더 신뢰하여 w2에 대해 w1 보다 낮은 가중치를 부여한다. 그러나 잡음 수준이 낮아 음향 신뢰 측정치가 상대적으로 더 높은 경우, 모듈은 w2를 w1 보다 높게 설정할 수 있다. 그 대신 시각 신뢰 측정치를 사용할 수도 있다. 여기서 알아두어야 할 것은, 모듈(430)에서 시각 정보 및 오디오 정보를 처음으로 결합하여 사용하는 것을 의사결정 또는 점수 융합이라 한다는 것이다. 특징 융합을 구현한 대체 실시예가 앞서 참조한 미국 특허 출원 제09/369,707호(대리인측 분류 번호 제YO999-317호)에 기술된 바 있다.

그 후, 검색 모듈(434)에서는 모듈(430)로부터 수신한 가중치가 부여된 확률들에 기초한 언어 모델(LM; language model)을 가지고 검색을 수행한다. 즉, 임의 내용의 비디오에서 무엇이 발화되었는지를 나타내는 가장 높은 확률을 갖는 것으로 식별된 음향 단위가 합쳐져서 단어를 형성한다. 검색 모듈(434)로부터 이러한 단어들이 복호화된 시스템 출력으로서 출력된다. 통상의 검색 엔진이 채용될 수 있다. 이러한 출력은 도 1의 회화 관리자(18)에 제공되어 앞서 설명한 바와 같이 사용자 의도의 모호성을 해소하는데 쓰인다.

바람직한 실시예에 있어서, 도 4의 시청각 음성 인식 모듈에는 또한 이벤트 탐지 모듈(428)이 포함된다. 앞서 언급한 바처럼, 통상의 음성 인식 시스템에 있어서의 한 가지 문제점은 무관한 가청 활동, 예컨대 배경 잡음 또는 복호화하고자 하지 않는 배경 음성과 실제로 복호화하고자 하는 음성을 구별하지 못한다는 것이다. 이는 시스템이 불발되거나 또는 "정크(junk)" 인식과 같은 문제를 야기한다. 여러 실시예에 있어서, 모듈은 정보를 복호화할지 결정하기 위해서 비디오 경로로부터의 정보만을 사용하거나, 오디오 경로로부터의 정보만을 사용하거나, 또는 양 경로로부터의 정보를 동시에 사용할 수 있다. 이는 이벤트 탐지 모듈(428)을 통해 달성된다. 여기서 "이벤트 탐지"라 함은, 복호화하고자 하는 실제 음성 이벤트가 발생하였는지 또는 발생할 것인지 여부를 판정하는 것을 말한다. 이벤트 탐지 모듈의 출력에 기초하여 마이크(406) 또는 검색 엔진(434)이 활성화/비활성화 (enabled/disabled)될 수 있다. 얼굴이 탐지되지 않는 경우, 오디오를 처리하여 의사결정을 할 수 있음에 주목하자.

이제 도 5c를 참조하면, 비디오 경로로부터의 정보만을 사용하여 탐지 결정을 하는 이벤트 탐지 방법을 설명한 것이 도시되어 있다. 이러한 판정을 하기 위해서, 이벤트 탐지 모듈(428)은 정면 포즈 탐지기(420), 시각 특징 추출기(424){포즈 정규화 블록(426)을 통함} 및 오디오 특징 추출기(414)로부터의 입력을 수신한다.

처음으로, 단계(510)에서는 "정면"인 것으로 식별된 얼굴 상의 개구부를 탐지한다. 이러한 탐지는, 모듈(418) 및 모듈(420)에 관하여 앞서 상세히 설명한 바처럼, 탐지된 정면 얼굴과 연관된 얼굴 요소의 추적에 기초하여 이루어진다. 개구부 또는 일정한 입의 움직임이 탐지되면, 단계(512)에서 마이크(406)가 켜진다. 일단 마이크가 켜지면, 그로부터 수신되는 신호는 버퍼에 저장된다(단계 514). 그 후, 개구부 패턴 인식(예컨대 주기)이 버퍼에 저장된 신호와 연관된 입술 움직임에 대하여 수행되고, 이에 의해 버퍼에 저장된 신호가 실제로 음성인지 여부를 판정하게 된다(단계 516). 이러한 판정은 시각 음성 특징 벡터를 음성과 일치하는, 미리 저장된 시각 음성 패턴과 비교함으로써 이루어진다. 단계(518)에서는, 버퍼에 저장된 데이터가 음성인 것으로 태깅(tagging)되면 이는 단계(520)에서 인식될 수 있도록 음향 경로를 통해 전달되고, 이에 따라 복호화된 출력이 산출된다. 이러한 과정이 개구부가 더 이상 탐지되지 않을 때까지 버퍼에 저장된 데이터의 후속 부분 각각에 대해 반복된다. 여기서 도 5c는 시각 정보(예컨대 개구부)가 입력 오디오 신호를 복호화할지 결정하기 위해 어떻게 사용되는지에 관한 한 가지 예를 나타낸 것이다. 이벤트 탐지 모듈은 그 대신 음성 이벤트의 탐지 여부에 검색 모듈(434)을 제어(예컨대 켜거나 끔)할 수 있다. 따라서 이벤트 탐지 모듈은 일반적으로, 마이 크가 포착한 입력 신호가 오디오 정보 및 대응되는 비디오 정보, 또는 P(음성|A,V)가 주어진 음성인지 여부를 결정하는 모듈이다.

여기서 알아두어야 할 것은, 이벤트 탐지 방법은 오디오 경로 정보만을 이용하여 수행될 수도 있다는 것이다. 이러한 경우, 이벤트 탐지 모듈(428)은 음성만을 기초로 한 하나 또는 그 이상의 탐지 방법을 수행할 수 있다. 이러한 방법의 예로서는 신호 에너지 레벨 탐지(예컨대 오디오 신호가 일정 레벨 이상인지 여부), 신호 영 교차점(zero crossing) 탐지(충분히 높은 영 교차점의 존재 여부), 음성 활동 탐지(정적인 스펙트럼인지의 여부) 등이 있으며, 이는 예컨대 N.R. 가너(N.R. Garner) 등의 "음성 인식을 위한 견고한 잡음 탐지 및 그 개량(Robust noise detection for speech recognition and enhancement)"(Electronics letters, 1997년 2월, 제33권 제4호, 270-271면), D.K. 프리먼(D.K. Freeman) 등의 "범유럽 디지털 이동 전화 서비스의 음성 활동 탐지기(The voice activity detector of the pan-European digital mobile telephone service)"(IEEE 1989, CH2673-2), N.R. 가너의 "이동 전화의 음향 악조건 하에서의 음성 인식(Speech detection in adverse mobile telephony acoustic environments)"(Speech Communications), B.S. 아탈(B.S. Atal) 등의 "음성-무음성-침묵 분류에 대한 패턴 인식 방법 및 음성 인식에의 응용(A pattern recognition approach to voiced-unvoiced-silence classification with applications to speech recognition)"(IEEE Trans. Acoustic, Speech and Signal Processing, vol. ASSP-24 n3, 1976), L.R. 라비너(L.R. Rabiner), "음성 신호의 디지털 처리(Digital processing of speech signals)"(Prentice-hall, 1978)에 기술된 바 있다.

이제 도 5d를 참조하면, 비디오 경로 및 오디오 경로로부터의 정보 모두를 동시에 사용하여 탐지 결정을 하는 이벤트 탐지 방법을 설명한 것이 도시되어 있다. 이 흐름도는 무감독(unsupervised) 발화 검증 방식을 나타내고 있으며, 이는 1999년 8월 6일자 미국 특허 출원 제09/369,706호(대리인측 분류 번호 YO999-318), "시청각 화자 인식 및 발화 검증 방법 및 장치(Methods And Apparatus for Audio-Visual Speaker Recognition and Utterance Verification)"에 개시된 바 있고 본 명세서에 참조로서 포함되었다. 무감독 모드에서는, 텍스트(스크립트)가 알려져 있지 않아 시스템이 이를 이용할 수 없는 경우에 발화 검증이 수행된다.

따라서 단계(522)에서는, 검증 대상인 발화된 음성이 고전적인 음성 인식 기술에 의해 복호화될 수 있으며, 이에 의해 복호화된 스크립트 및 이와 연관된 시간 정렬자(time alignment)를 이용할 수 있게 된다. 이는 음향 특징 벡터(414)로부터의 특징 데이터를 사용하여 이루어진다. 동시에 단계(524)에서는, 시각 특징 추출기(422)로부터의 시각 음성 특징 벡터가 시각 음소(viseme) 시퀀스를 생성하기 위해 사용된다.

다음으로 단계(526)에서는 스크립트가 시각 음소에 대하여 정렬된다. 이들 두 정보 스트림을 동기화시키기 위해 고속(또는 기타의) 정렬이 통상의 방식으로 수행될 수 있다. 예컨대 한 가지 실시예에 있어서, 미국 특허 출원 제09/015,150호(대리인측 분류 번호 제YO997-386호), "등록 발화로부터의 음성 전사본 생성 장치 및 방법(Apparatus and Method for Generating Phonetic Transcription from Enrollment Utterances)"(본 명세서에 참조로서 포함됨)에 개시된 바와 같은 고속 정렬이 채용될 수도 있다. 그 후 단계(528)에서는, 정렬에 관한 가능도를 계산하여 스크립트가 시각 데이터에 얼마나 잘 정렬되는지를 판정한다. 이러한 가능도의 결과는 그 후 단계(530)에서, 실제 음성 이벤트가 발생했는지 또는 발생할 것인지 여부 및 경로상의 정보가 인식될 필요가 있는지 여부를 결정하는 데 쓰인다.

도 4의 시청각 음성 인식 모듈은, 이벤트 탐지 모듈(428)에 있어서 앞서 설명한 방식 중 한 가지, 또는 두 가지의 조합, 또는 세 가지 모두의 조합을 적용하여 이벤트 탐지를 수행할 수 있다. 비디오 정보만을 기초로 한 탐지는, 음성으로만 결정하기에는 배경 잡음이 너무 심한 경우에도 모듈이 탐지를 할 수 있다는 점에서 유용하다. 오디오만을 기초로 한 방식은 볼 수 있는 얼굴이 없이 음성이 입력되는 경우에 유용하다. 무감독 발화 검증이 제공하는 조합 방식은 결정 과정을 향상시키는 바, 이는 음향 결정이 향상되도록 하는 적절한 포즈를 갖는 얼굴이 탐지될 수 있는 경우에 그러하다.

이벤트 탐지 방법은 인식 엔진의 불발 및/또는 "정크" 인식을 최소화 또는 제거함은 물론, 배경 잡음의 모델링을 더 향상시켜주는 바, 이는 음성이 탐지되지 않을 경우 침묵을 탐지한다는 것을 말한다. 또한 내장형에 응용할 경우 이러한 이벤트 탐지로 인해 추가적인 장점이 생긴다. 예컨대 내장형 장치와 연관된 CPU는 음성 탐지 모드로 작동해야만 할 필요 없이 그 밖의 작업에 집중할 수 있게 된다. 또한 음성 인식 엔진 및 관련 구성요소는 음성이 없을 경우 꺼져 있을 수 있으므로, 배터리 전력 절감을 실현할 수 있다. 이러한 음성 탐지 방법의 기타 일반적인 응용예에는 다음과 같은 것들이 포함된다. 즉 (i) 차량 기반의 음성 탐지 또는 시끄러운 환경에 있어서, 가시 전자기 스펙트럼 이미지 또는 비가시 전자기 스펙트럼 이미지(예컨대 원적외선) 카메라와 함께 사용하거나, (ii) 다수의 청중 속에서 로컬 또는 어레이 마이크의 초점을 맞출 화자 탐지, (iii) 화자 인식(앞서 언급한 대리인측 분류번호 제YO999-318호인 미국 특허 출원에 기재) 및 방송 뉴스 또는 원격 비디오 회의에 있어서의 태깅이 그것이다. 본 기술 분야의 당업자는 본 명세서의 설명에 의해 그 밖의 응용예를 생각해 낼 수 있을 것이다.

여기서 도 4의 시청각 음성 인식 모듈은, 앞서 언급한 미국 특허 출원 제09/369,707호(대리인측 분류번호 제YO999-317호)에서 설명한 시청각 음성 탐지 및 인식에 관한 대체 실시예를 채용할 수도 있다. 예컨대 도 4의 실시예는 의사결정 또는 점수 융합 방식을 설명하고 있지만, 상기 모듈은 앞서 언급한 미국 특허 출원 제09/369,707호(대리인측 분류번호 제YO999-317호)에서 설명한 특징 융합 방식 및/또는 계열 재채점(serial rescoring) 방식을 채용할 수도 있다.

B. 시청각 화자 인식

이제 도 6을 참조하면, 본 발명에 있어서 수신된 멀티모드 입력 데이터를 사용하여 화자 인식을 수행하는 도 1의 인식 모듈 중 하나로서 채용될 수 있는 시청각 음성 인식 모듈의 바람직한 실시예를 블록도로 나타내었다. 여기서 이러한 시청각 화자 인식 모듈은 앞서 언급한 1999년 8월 6일자 미국 특허 출원 제09/369,706호(대리인측 분류번호 제YO999-318호)에서 개시된 바 있다. 본 발명의 멀티모드 대 화식 컴퓨팅 시스템의 바람직한 실시예에 사용하기 위한 이러한 시청각 화자 인식 모듈의 한 가지 실시예에 관해서는 이후 설명할 것이다. 그러나 화자 인식을 수행하기 위한 그 밖의 메커니즘 역시 채용될 수 있음을 알아두어야 할 것이다.

도 6에 나타낸 시청각 화자 인식 및 발화 검증 모듈은 의사결정 융합 방식을 사용한다. 도 4의 시청각 음성 인식 모듈과 마찬가지로, 도 6의 화자 인식 모듈은 I/O 관리자(14)를 통해 동일한 유형의 임의 내용의 비디오 및 오디오를 각각 카메라(604) 및 마이크(606)로부터 수신할 수 있다. 도 6의 카메라 및 마이크의 참조 번호가 도 4에서와 다르지만, 이들은 동일한 것일 수 있다는 것을 알려두고자 한다.

로마 숫자 I로 표시한 점선은 상기 모듈 내에서 상기 오디오 정보 신호가 취하는 처리 경로를 나타내고, 로마 숫자 II로 표시한 점선은 상기 모듈 내에서 상기 비도 정보 신호가 취하는 처리 경로를 나타낸다. 우선 오디오 신호 경로(I)에 관하여 논하고, 그 후 비디오 신호 경로(II)에 대하여 논한 후 이들 두 종류의 정보가 어떻게 결합되어 화자 인식의 정확도를 향상시킬 수 있는지에 관해 설명하도록 하겠다.

상기 모듈은 청각 특징 추출기(614)를 포함한다. 특징 추출기(614)는 오디오 또는 음성 신호를 수신하고, 본 기술 분야에서 알려진 바처럼 상기 신호로부터 규칙적인 간격으로 스펙트럼 특징을 추출한다. 스펙트럼 특징은 음향 특징 벡터(신호)의 형태를 하고 있으며, 이는 오디오 화자 인식 모듈(616)상으로 전달된다. 음향 벡터가 추출되기에 앞서, 음성 신호는 16㎑의 속도로 샘플링될 수 있다. 하나의 프레임은 25 msec의 지속 시간을 갖는 음성 세그먼트를 포함할 수 있다. 이러한 배치에 있어, 추출 처리에 의해서는 이후 설명할 처리를 거쳐 24차원의 음향 켑스트럼 벡터가 생성되는 것이 바람직하다. 프레임은 매 10 msec마다 진행하여 이후의 음향 벡터를 획득한다. 또한 그 밖의 프론트 엔드가 채용될 수도 있다.

우선, 바람직한 음향 특징 추출 처리에 있어서, 프레임 내의 음성 데이터 샘플을 이산 푸리에 변환한 것의 크기는 로그(log)로 변환한 주파수 척도로 되어 있는 것으로 간주하자. 다음으로, 이러한 진폭값들 자체가 로그 척도로 변환된다. 이러한 나중의 두 단계는 주파수 및 진폭에 대한 인간 청각의 대수적 민감도에 의해 유발된다. 그 후, 이산 코사인 변환의 형태로 회전이 적용된다. 동적 상태를 포착하기 위한 한 가지 방식은 델타(1차 미분) 및 델타-델타(2차 미분) 정보를 사용하는 것이다. 동적인 정보를 포착하기 위한 다른 방식으로는, 해당 벡터에 한 세트(예컨대 4개)의 선행 및 후행 벡터를 부가하여 그 벡터를 저차원 공간(가장 큰 식별도를 갖도록 선택됨)으로 투영하는 것이다. 두 번째 방식은 선형 판별 해석(LDA)으로 알려져 있으며, 본 기술 분야에서 잘 알려져 있다. 여기서 알아두어야 할 것은 이러한 특징들에 관한 그 밖의 변형들, 예컨대 LPC 켑스트럼, PLP 등이 사용될 수 있으며, 본 발명은 어느 특정 유형에 한정되지 않는다는 것이다.

음성 특징 벡터(도 6에서 문자 "A"로 나타냄)는 추출된 후 오디오 화자 인식 모듈(616)에 제공된다. 여기서 모듈(616)은 상기 추출된 음향 특징 벡터를 사용하여 화자 식별 및/또는 화자 검증을 수행할 수 있다. 이러한 화자 식별 및 검증 과정은 어떤 통상의 음향 정보 화자 인식 시스템을 통해서도 달성될 수 있다. 예컨대 화자 인식 모듈(616)은 1997년 1월 28일자 미국 특허 출원 제08/788,471호, "명백한 명령 모호성 해명 및 연속 액세스 제어를 위한 텍스트 독립적 화자 인식(Text Independent Speaker Recognition for Transparent Command Ambiguity Resolution and Continuous Access Control)"(본 명세서에 참조로서 포함됨)에서 설명된 인식 기술을 사용할 수도 있다.

모듈(616)에 사용하기 위한 화자 식별 과정의 예시에 대하여 설명하도록 하겠다. 설명하고자 하는 시스템은 H. 베이지(H. Beigi), S.H. 마에스(S.H. Maes), U.V. 차우다리(U.V. Chaudari) 및 J.S. 소렌슨(J.S. Sorenson) 著, "IBM 모델 기반 및 프레임별 화자 인식(IBM model-based and frame-by-frame speaker recognition)"(Speaker Recognition and its Commercial and Forensic Applications, 아비뇽, 프랑스 1998)에 개시되었다. 예시하는 화자 인식 시스템은 두 가지 기술을 사용할 수 있다. 즉 모델 기반의 방식 및 프레임 기반의 방식이다. 여기서 설명할 실시예에서는 오디오에 기초한 화자 식별을 위해 프레임 기반의 방식을 사용할 것이다. 프레임 기반의 방식은 이하의 방식으로 설명될 수 있다.

등록된 i번째 화자에 대응하는 모델을 Mi라 하자. Mi는 파라미터 집합 {μi,j , Σi,j, pi,j}j=1,…,ni(화자 i의 모델의 ni 성분 각각에 대한 평균 벡터, 공분산 행렬 및 혼합 가중치로 구성됨)에 의해 정의되는 혼합 가우시안 모델(mixture Gaussian model)로 표현된다. 이러한 모델들은 d차원의 켑스트럼 특징 벡터 {fm}m=1,…,K를 갖는 K개의 음성 프레임으로 된 시퀀스로 이루어진 트레이닝 데이터를 사용하여 생성된 다. 화자 식별의 목표는, N 프레임으로 된 시퀀스 {fn}n=1,…,N에 의해 표현되는 테스트 데이터를 가장 잘 나타내는 모델 Mi를 찾아내는 것이다. 이러한 결정을 하는 데 있어서, 아래와 같은 프레임 기반의 가중화된 가능도 거리 측정치(weighted likelihood distance measure) di,n을 사용한다.

모호성은 어떤 시점에서 검사되는 가

그 후 테스트 데이터로부터의 모델 Mi의 전체 거리 Di는 모든 테스트 프레임에 걸쳐 거리의 합을 취함으로써 구해진다.

모호성은 어떤 시점에서 검사되는 가

따라서, 이상의 방식에 의해 가장 가까운 매칭 모델을 찾게 되며, 이 모델이 나타내는 사람은 그의 발화가 처리되고 있는 사람인 것으로 판정된다.

그러나 화자 검증은 유사한 방식으로 수행될 수 있는 바, 입력 음향 데이터를 비교하여 저장된 모델에 그 데이터가 충분히 가깝게 매치되는지 여부를 판정한다. 비교 결과 충분히 가깝게 매치되는 경우 발화자 검증이 된 것으로 한다. 이러한 매치는 이를 경쟁 모델과 비교함으로써 수락 또는 거부된다. 이러한 모델들은 요청자인 화자와 유사한 것으로 선택되거나 또는 화자 독립적(즉 단일의 또는 한 세트의 화자 독립적 모델)인 것으로 선택될 수 있다. 요청자가 충분한 마진(가능도 또는 모델에 대한 거리의 레벨에서 계산됨)을 획득한 경우 그 요청자는 수락되며, 그렇지 않은 경우 거부된다. 여기서 알아두어야 할 것은, 등록시에 화자에 대한 입력 음성을 수집하여 각 화자를 특징짓는 혼합 가우시안 모델 Mi를 구축한다는 것이다.

이제 도 6의 비디오 신호 경로(II)를 참조하여 시각 정보 처리 방식을 설명하고자 한다. 시청각 화자 인식 및 발화 검증 모듈에는 능동 화자 얼굴 분할 모듈(620) 및 얼굴 인식 모듈(624)이 포함된다. 능동 화자 얼굴 분할 모듈(620)은 카메라(604)로부터 비디오 입력을 수신한다. 여기서 화자 얼굴 탐지는 압축된 데이터 도메인에서 직접 수행되고/수행되거나, 비디오 정보만이 아닌 오디오 및 비디오 정보로부터 수행될 수도 있다는 것을 알아두어야 하겠다. 어떤 경우이건, 분할 모듈(620)은 일반적으로 화자의 얼굴 및 얼굴 요소를 임의의 비디오 배경 내에서 파악하여 추적한다. 이에 대해서는 이후에 더 상세히 설명하기로 한다. 인식 모듈(624)은 분할 모듈(622)로부터 제공되는 데이터로부터 식별 및/또는 검증 작업을 수행할 수 있고, 이에 의해 비디오의 화자인 것으로 간주되는 사람의 얼굴을 식별 및/또는 검증하게 된다. 검증은 또한 점수 임계화 또는 경쟁 모델을 추가함으로써 수행될 수 있다. 따라서 화자 식별의 시각 모드는, 비디오 시퀀스에서 얼굴을 탐색 및 추적하고 후보 얼굴 템플릿 데이터베이스와 비교하여 이를 인식하는 얼굴 인식 시스템으로서 구현될 수 있다. 추후에 설명할 바와 같이, 발화 검증에 의해 신원 인식을 위해 쓰이는 음성이 실제로 그 사람에 의해 발화되었는지를 검증할 수 있게 된다.

얼굴 탐지 및 인식은 여러 가지 방식으로 수행될 수 있다. 예컨대 적외선 카메라(604)를 채용한 시스템에 있어서는, 얼굴 탐지 및 식별이 F.J. 프로코스키(Francine J. Prokoski) 및 R.R. 리델(R.R. Riedel) 著, "얼굴 및 신체 부위의 적외선 식별(Infrared Identification of Faces and Body Parts)"(BIOMETRICS, Personal Identification in Networked Society, Kluwer Academic Publishers, 1999)에 개시된 바와 같이 수행될 수 있다. 바람직한 실시예에 있어서, A. 시니어의 "얼굴 인식 시스템을 위한 얼굴 및 얼굴 요소 탐색(Face and feature finding for face recognition system)"(시청각 기반의 생체인식 신원 인증에 관한 2차 국제 회의, 워싱턴 DC, 1999년 3월)에서 설명한 기술이 채용될 수 있다. 분할 모듈(622) 및 인식 모듈(624)에 의해 각각 수행되는 얼굴 탐지 및 인식에 관해 이하 설명하도록 한다.

얼굴 탐지

얼굴은 비디오 프레임에 있어서 여러 가지 스케일, 위치 및 방향으로 나타날 수 있다. 이러한 시스템에 있어서, 얼굴은 수직에 가까우며 66 픽셀 높이보다 작은 얼굴은 없다고 가정한다. 그러나 모든 남아있는 위치 및 스케일에서 얼굴을 테스트하기 위해, 시스템은 이미지 피라미드에서 고정된 사이즈의 템플릿을 검색한다. 이미지 피라미드는 원래의 이미지를 반복적으로 다운샘플링하여 원래의 프레임을 점진적으로 낮은 해상도로 표현하도록 함으로써 구축된다. 이러한 각각의 서브 이미 지 내에서는, 얼굴 템플릿과 동일한 사이즈(통상적으로 11x11 픽셀)의 모든 사각형 영역이 후보 얼굴 위치인 것으로 간주된다. 어떤 영역이 얼굴을 포함하는지 여부를 테스트하기 위한 일련의 테스트가 수행된다.

우선 해당 영역이 높은 비율의 피부 색조 픽셀(skin-tone pixel)을 포함해야 하며, 그 후 후보 영역의 명도(intensity)를 트레이닝되는 얼굴 모델과 비교한다. 미리 정의한 색상-색도-명도 공간의 입방체에 속하는 픽셀은 피부 색조인 것으로 간주되며, 피부 색조 픽셀의 비율이 임계값을 초과해야만 그 후보 영역이 추후의 고려 대상이 된다.

얼굴 모델은 주변을 잘라내고 정규화한 그레이스케일 얼굴 이미지로 된 트레이닝 세트에 기초를 두고 있다. 이들 얼굴에 관한 통계가 수집되고, 이를 기초로 하여 다양한 분류자가 트레이닝된다. 선형 프로그램으로 트레이닝된 FLD는 얼굴과 배경 이미지를 구분하게 되며, M. 터크 및 A. 펜트랜드 著, "인식을 위한 고유 얼굴(Eigenfaces for Recognition)"(인지 신경 과학 저널, 제3권, 제1호, 71-86면, 1991)에서 설명된 바 있는 DFFS는 처음 방법에 의해 높은 점수를 받은 얼굴의 품질에 점수를 매기는 데 쓰인다. 이들 얼굴 탐지기 모두로부터의 결합 점수가 높다는 것은 후보 영역이 실제로 얼굴이라는 것을 나타낸다. 고득점의 얼굴 후보에 비해 스케일, 위치 및 회전에 있어 약간의 교란이 있는 후보 얼굴 영역들도 또한 테스트되며, 그 중 최대 점수를 얻은 후보를 선택하여 이들 세 파라미터에 관해 정밀한 추정치를 부여한다.

후속 프레임에 있어서, 얼굴은 새 위치를 예측하기 위해 속도 추정치를 사용 하여 추적되고, 예측된 위치 근처의 후보 지역에서 유사한 스케일 및 회전을 갖는 얼굴을 찾는 데에 모델이 사용된다. 낮은 점수는 추적의 실패로 해석되며, 알고리즘은 끝날 때까지 검색을 다시 시작한다.

얼굴 인식

얼굴을 찾고 나면, 얼굴 탐지에 사용한 기술(FLD 및 DFFS)과 동일한 것을 사용하여 K개의 얼굴 요소를 찾아낸다. 얼굴 요소는 계층적인 방식으로 찾아내는 바, 즉 눈이나 코 입과 같은 큰 얼굴 요소를 먼저 찾고 하위 얼굴 요소를 나중에 찾는다. 이마선이나 턱, 귀라든지 눈, 눈썹, 코, 입의 모서리를 포함하여 29개 정도의 하위 얼굴 요소가 사용된다. 얼굴 및 얼굴 요소의 위치에 대하여 각 얼굴 요소 및 하위 얼굴 요소의 검색 영역을 각각 제한하기 위해 이전의 통계가 사용된다. 추정된 하위 얼굴 요소 위치 각각에 있어서, 가보 제트 표현형 - L. 위스콧(L. Wiskott) 및 C. 폰 데어 말스버그 著, "동적 링크 매칭에 의한 얼굴 인식(Recognizing Faces by Dynamic Link Matching)"(Proceedings of the International Conference on Artificial Neural Networks, 347-352면, 1995)에서 기술됨) - 이 생성된다. 가보 제트는 한 세트의 2차원 가보 필터(각각 가우시안 함수에 의해 변조된 사인파임)이다. 각 필터는 스케일(사인 파장 및 고정된 비율의 가우시안 표준 편차) 및 방향(사인파의)을 갖는다. 여기서는 5개의 스케일과 8개의 방향을 사용하여 각 얼굴 요소 위치에 40개의 복소 계수{a(j), j=1,…,40}가 생기도록 한다.

트레이닝되는 얼굴에 대한 특징 벡터와 테스트 후보간의 거리를 계산하기 위 해 간단한 거리 측정법이 사용된다. i번째 트레이닝 후보와 얼굴 요소 k에 대한 테스트 후보간의 거리는 다음과 같이 정의된다.

모호성은 어떤 시점에서 검사되는 가

이들 유사도의 간단한 평균은

모호성은 어떤 시점에서 검사되는 가

이며, 이는 데이터베이스의 얼굴 템플릿에 대해 테스트되는 얼굴이 얼마나 유사한지에 대한 종합적인 측정치를 제공하게 된다. 이에 따라, 유사성 측정치에 기초하여 대상 비디오 시퀀스의 인물에 대한 식별 및/또는 검증이 이루어지게 된다.

다음으로, 얼굴 인식 모듈(624) 및 오디오 화자 인식 모듈(616)의 결과들은 각각 신뢰 추정 블록(626 및 618)으로 제공되며, 여기에서는 신뢰 추정이 수행된다. 신뢰 추정치라 함은 인식된 입력에 대하여 판정되는 가능도 또는 그 밖의 신뢰 측정치를 말한다. 한 가지 실시예에 있어, 신뢰 추정 과정에는 오디오 신호 및 비디오 신호에 각각 연관된 잡음 레벨의 측정이 포함될 수 있다. 신호와 연관된 노이즈 레벨이 높다는 것은 일반적으로 그 신호와 연관된 인식 결과에 대한 신뢰도가 낮음을 의미한다. 따라서 이후 논할 시각 및 음향 결과에 대해 가중치를 부여할 경우 이러한 신뢰 측정치가 고려된다.

모듈(616 및 624)이 각각 제공하는 오디오 기반의 화자 인식 및 얼굴 인식 점수가 주어진 경우, 결합 식별/검증 모듈(630)에 의해 다음과 같이 시청각 화자 인식/검증이 수행될 수 있다. 상위 N개의 점수가 오디오 및 비디오 기반의 식별 기술 모두에 근거하여 생성된다. 이들 두 리스트는 가중치를 부가하여 더함으로써 결합되고, 최고 점수의 후보가 선택된다. 가중치는 배율 인자(scaling factor)까지만 정의될 필요가 있으므로, 결합 점수 Si av는 단일 파라미터 α의 함수로 정의할 수 있다.

모호성은 어떤 시점에서 검사되는 가

혼합각 α는 오디오 식별 및 얼굴 식별의 상대적 신뢰도에 따라 선택된다. 이를 달성하기 위한 한 가지 방식으로는 일정한 트레이닝 데이터에 대한 시청각 정확도를 최대화하기 위해 α를 최적화하는 것이다. Di(n) 및 Si(n)을 n번째 트레이닝 클립에 관해 계산되는 i번째 등록 화자(i=1,…,P)에 대한 오디오 ID(identification) 및 비디오 ID 점수를 나타내는 것으로 하자. 변수 Ti(n)은 n번째 클립이 i번째 화자에게 속하는 경우 0, 아닌 경우 1인 것으로 하자. 최소화 될 비용 함수는 경험적 오류(empirical error)이며, 이에 관해서는 V.N. 밥닉(V.N. Vapnik), "통계 학습 이론의 본질(The Nature of Statistical Learning Theory)"(Springer, 1995)에서 논하여진 바 있고, 다음과 같이 쓸 수 있다.

모호성은 어떤 시점에서 검사되는 가

여기서

모호성은 어떤 시점에서 검사되는 가

이고,

모호성은 어떤 시점에서 검사되는 가

이다.

과도한 적합화(fitting)를 방지하기 위해 평활화 오류율(smoothed error rate)을 사용할 수도 있으며, 이는 H. 네이(H. Ney)의 "신경망 분류 및 식별 트레이닝 기준의 개연적 해석(On the Probabilistic Interpretation of Neural Network Classification and Discriminative Training Criteria)"(IEEE Transactions on Pattern Analysis and Machine Intelligence, 제17권, 제2호, 107-119면, 1995)에서 논하여진 바 있고 다음과 같이 정의된다.

모호성은 어떤 시점에서 검사되는 가

여기서 η이 클 경우,

모호성은 어떤 시점에서 검사되는 가

의 경우를 제외하고 안쪽의 합에 관한 모든 항이 0으로 접근하며, C'(α)는 원시 오류 계수(raw error count) C(α)에 접근한다. 그렇지 않으면 모든 부정확한 가설{Ti(n)=1이라고 한 경우}은 이들의 점수와 최대 점수 사이의 거리에 관한 감소 함수인 기여도(contribution)를 갖게 된다. 최선의 가설(best hypothesis)이 부정확한 경우에 최대의 기여도를 갖게 된다. 따라서 후자 의 비용 함수를 최소화함으로써 트레이닝 데이터에 대한 인식 정확도뿐만 아니라 최고 점수를 획득하게 하는 마진을 최대화 할 수 있다. 이러한 함수는 또한 미분 가능하다는 장점이 있는 바, 이에 의해 하나 이상의 파라미터가 있는 경우 최적화 과정을 용이하게 할 수 있다.

도 6의 시청각 화자 인식 모듈은 이전의 기술로부터 파생되지만 트레이닝이 필요하지 않은 또 다른 의사결정 또는 점수 융합 기술을 제공한다. 여기에는, 최대 점수와 그 다음 최대 점수 사이의 차이를 최대화시키는 일정한 범위 내의 값 α를 테스트 시에 각 클립에 대해서 선택하는 단계가 포함된다. 그 후 대응하는 최선의 가설 I(n)이 선택된다.

모호성은 어떤 시점에서 검사되는 가

모호성은 어떤 시점에서 검사되는 가

α1 및 α2의 값은 구간 [0, π/2]로 한정되어야 한다. 이러한 기술의 원리는 다음과 같다. {Di, Si} 평면에 있어서, 정확한 의사결정에 대응되는 지점은 다른 지점으로부터 떨어져서 위치하는 것으로 예상된다. 고정된 선형 가중치는, 이 지점이 다른 지점에 대하여 발견될 수 있는 "방향"이 항상 동일한 것(반드시 참일 필요는 없음)으로 가정한다. 상기한

모호성은 어떤 시점에서 검사되는 가

및 I(n)의 관계식은 α1과 α2 사이의 어떤 방향에서도 다른 지점들과 가장 멀리 떨어져 있는 지점을 찾아낸다.

또 다른 해석은 최고의 결합 점수와 그 다음 최고 점수 사이의 거리는 의사결정의 신뢰도를 나타내는 지수라는 것이다. 이 방법은 신뢰 측정치를 최대화시키는 가중치를 융통성 있게 선택한다.

따라서 결합 식별/검증 모듈(630)은 화자에 대한 의사결정을 한다. 검증 시나리오에 있어, 앞서 설명한 기술 중 하나에 기초하여 음향 경로 및 시각 경로 모두를 통하여 검증되었는지 여부에 관한 결정이 화자의 수락을 위해 이루어진다. 그러나 오직 한 쪽 경로만을 통하여 검증된 경우에는 거부될 것이다. 식별 시나리오에 있어서는, 예컨대 얼굴 식별 처리에서의 상위 3개의 점수가 음향 식별 처리에서의 상위 3개의 점수와 결합될 수 있다. 그 후 최고의 결합 점수가 화자에 해당하는 것으로 식별된다.

바람직한 실시예에 있어서, 모듈이 화자에 관한 최종 처분을 결정하기에 앞서 시스템은 발화 검증 작업을 수행한다. 여기서 발화 검증은 음향 특징 추출기(614) 및 시각 음성 특징 추출기(622)로부터의 입력에 기초하여 도 6의 발화 검증 모듈(628)에 의해 수행된다. 발화 검증을 설명하기에 앞서, 시각 음성 특징 벡터 추출을 위한 기술에 관한 설명을 하도록 하겠다. 특히 시각 음성 특징 추출기(622)는, 능동 화자 얼굴 분할 모듈(62)에 의해 비디오 프레임에서 탐지된 얼굴로부터 도 6에서 문자 "V"로 나타낸 시각 음성 특징 벡터(예컨대 입 또는 입술 관련 파라미터)를 추출해 낸다.

추출될 수 있는 시각 음성 특징의 예로서, 입 영역의 그레이스케일 파라미터; 입 영역의 면적, 높이 및 폭과 같은 기하학적/모델 기반의 파라미터; 곡선 적합화에 의해 내측/외측 윤곽의 스플라인(spline) 파라미터에 도달한 입술 윤곽; 3차원 추적에 의해 획득한 모션 파라미터가 있다. 또한, 모듈(622)을 통해 추출될 수 있는 또 다른 특징 세트도 이상의 요인을 고려한다. 이러한 기술은 ASM으로 알려져 있으며, 예인 메튜스 著, "시청각 음성 인식을 위한 특징(Features for audio visual speech recognition)"(East Angalia 대학교 정보 시스템 대학 박사논문, 1998년 1월)에 설명된 바 있다.

따라서, 시각 음성 특징 추출기(622)는 하나 또는 그 이상의 공지의 시각 특징 추출 기술을 사용할 수 있는 반면, 한 가시 실시예에 있어 상기 추출기는 상기 이미지의 입 영역과 연관된 그레이스케일 파라미터를 추출할 수 있다. 입술 모서리의 위치가 주어지면, 스케일 및 회전의 정규화 이후에, 입술 영역을 중심에 포함하는 사각형 영역이 압축이 해제된 원래의 비디오 프레임으로부터 추출된다. 주성분 분석(PCA)은 알려진 바처럼, 이러한 그레이스케일값의 벡터로부터 이보다 저차원의 벡터를 추출하는 데 사용될 수 있다.

모듈(622)에 구현될 수 있는 또 다른 시각 특징 벡터 추출 방법에는 기하학적 특징을 추출하는 단계가 포함될 수 있다. 여기에는 입술 윤곽의 형상과 이것의 시간에 따른 동적 상태로부터의 음성/시각음소(phonetic/visemic) 정보 추출이 수반된다. 통상적인 파라미터로는 입술 모서리, 개구부의 높이 또는 면적 및 내/외측 입술의 곡률이 있을 수 있다. 조음 기관, 예컨대 치아 및 혀의 위치 또한 카메라로 식별할 수 있는 한 특징 파라미터가 될 수 있다.

그레이스케일 값으로부터 이러한 파라미터를 추출하는 방법에는, 파라미터값과 연관된 입술 윤곽과 그레이스케일 이미지 사이의 불일치를 나타내는 함수(예컨대 비용 함수)의 최소화가 포함될 수 있다. 색상 정보는 이들 파라미터를 추출하는 데 또한 활용될 수 있다.

포착한(또는 역다중화 및 압축 해제된) 비디오 스트림으로부터 경계선 탐지를 수행하게 되는 바, 이것의 궁극적인 결과는 예컨대 원, 포물선, 타원 또는 더욱 일반적으로는 스플라인 윤곽선 등 각각 한정된 세트의 파라미터로 기술할 수 있는 파라미터화된 윤곽선이다.

또한 추출될 수 있는 그 밖의 특징에는, 애니메이션을 위한 컴퓨터 그래픽에서 쓰이는 유형의 2차원 또는 3차원 와이어프레임 모델 기반의 기술이 포함된다. 와이어프레임은 다수의 삼각형 패치로 이루어져 있을 수 있다. 이러한 패치들은 다함께 입/입술/턱 영역을 구조적으로 나타내는 바, 이들 각각에는 음성 판독에 유용한 특징들이 포함된다. 이들 파라미터는 또한 이미지의 그레이스케일값들과 조합하여 사용될 수 있으며, 이에 따라 이들 두 방식의 상대적인 장점으로부터 이득을 얻을 수 있게 된다.

추출기(622)로부터 추출된 시각 음성 특징 벡터(V) 및 추출기(614)로부터 추출된 음향 특징 벡터(A)가 주어진 경우, AV 발화 검증기(628)가 검증을 수행한다. 검증에는 예컨대 시각 음소의 무작위 시퀀스 상에서의 오디오 정렬 가능도의 결과 를 비교하는 것이 포함될 수 있다. 알려진 바처럼 비셈(viseme), 즉 시각 음소는 일반적으로 발화에 수반되는 정규적인 입 모양으로서, 청각 음소와 마찬가지로 분류되어 미리 저장된다. 발화 검증과 연관된 목표는, 오디오 경로(I)에서 화자를 검증하기 위해 쓰이는 음성 및 비디오 경로(II)에서 화자를 검증하기 위해 쓰이는 시각 단서가 상관 또는 정렬되도록 하는 판정을 내리는 것이다. 이에 의해 화자를 인식하기 위해 쓰이는 음성 데이터가 실제로 그 화자가 발화한 것이라는 확신을 시스템이 가질 수 있게 된다. 이러한 판정은 많은 장점을 갖는다. 예컨대 발화 검증에 있어 사용자가 시스템을 무력화시키기 위해 미리 녹음된 테이프를 재생하면서 립싱크(lip synch)를 하는지 여부를 판정할 수 있게 된다. 또한 발화 검증에 있어서, 오디오 복호화 경로에서의 오류가 탐지될 수도 있다. 오류의 수에 따라 신뢰 측정치가 생성되어 시스템이 사용할 수 있게 된다.

이제 도 7을 참조하면, 발화 검증 방식에 관한 흐름도가 나타나 있다. 발화 검증은 (i) 감독 모드, 즉 텍스트(스크립트)가 시스템에 알려져 있어 이용 가능한 경우 또는 (ii) 무감독 모드, 즉 텍스트(스크립트)가 시스템에 알려져 있지 않아 이용 불가능한 경우에 수행될 수 있다.

따라서 단계(702A)(무감독 모드)에서는, 검증 대상인 발화된 음성이 고전적인 음성 인식 기술에 의해 복호화될 수 있으며, 이에 의해 복호화된 스크립트 및 이와 연관된 시간 정렬자를 이용할 수 있게 된다. 이는 음향 특징 추출기(614)로부터의 특징 데이터를 사용하여 이루어진다. 동시에 단계(704)에서는, 시각 특징 추출기(622)로부터의 시각 음성 특징 벡터가 시각 음소(viseme) 시퀀스를 생성하기 위해 사용된다.

다음으로 단계(706)에서는 스크립트가 시각 음소에 대하여 정렬된다. 이들 두 정보 스트림을 동기화시키기 위해 고속(또는 기타의) 정렬이 통상의 방식으로 수행될 수 있다. 예컨대 한 가지 실시예에 있어서, 미국 특허 출원 제09/015,150호(대리인측 분류 번호 제YO997-386호), "등록 발화로부터의 음성 전사본 생성 장치 및 방법(Apparatus and Method for Generating Phonetic Transcription from Enrollment Utterances)"(본 명세서에 참조로서 포함됨)에 개시된 바와 같은 고속 정렬이 채용될 수도 있다. 여기서 주의할 것은, 감독 모드에서는 단계(702B)가 단계(702A)를 대체함으로써, 스크립트의 복호화된 버전이 아닌 예상되는 또는 알려진 스크립트가 단계(706)에서 시각 음소와 정렬된다는 것이다. 그 후 단계(708)에서는, 정렬에 관한 가능도를 계산하여 스크립트가 시각 데이터에 얼마나 잘 정렬되는지를 판정한다. 이러한 가능도의 결과는 그 후 의사결정 블록(632)에 제공되는 바, 여기에서는 상기 가능도의 결과는 물론 점수 모듈(630)의 결과를 가지고 화자의 최종 처분, 예컨대 수락 또는 거부 여부를 결정한다. 이는 다양한 장치, 애플리케이션 및 시설 등에 대한 액세스를 허가 또는 거부하는 데 사용될 수 있다.

따라서 무감독 발화 검증 모드에서는, 사용자가 재생 장치를 사용하여 입술을 움직이고 있는 것이 아니라 실제로 말하고 있는지 여부를 시스템이 체크할 수 있게 된다. 또한 선험 오류(priori error)가 오디오 복호화에 있어 검출될 수 있다. 감독 모드에서는, 인식된 텍스트가 추출된 입술 파라미터에 대해 충분히 정렬 또는 상관되어 있는 경우 사용자가 텍스트를 발화했는지를 시스템이 입증할 수 있다.

무감독 검증 모드에서의 발화 검증은 앞서 언급한 미국 특허 출원 제09/369,707호(대리인측 분류번호 제YO999-317호)에서 개시된 바와 같은 음성 탐지를 수행하는데 쓰일 수 있다. 사실, 음향 및 시각 활동이 탐지되면 이것들은 서로에 대해 검증될 수 있다. 결과로서의 음향 발화가 수락되는 경우, 시스템은 음성이 탐지된 것으로 간주한다. 그렇지 않으면 무관한 활동이 존재하는 것으로 간주된다.

여기서 도 6의 시청각 화자 인식 모듈은, 앞서 언급한 미국 특허 출원 제09/369,706호(대리인측 분류번호 제YO999-318호)에서 설명한 시청각 화자 탐지 및 인식에 관한 대체 실시예를 채용할 수도 있다. 예컨대 도 6의 실시예는 의사결정 또는 점수 융합 방식을 설명하고 있지만, 상기 모듈(620)은 앞서 언급한 미국 특허 출원 제09/369,706호(대리인측 분류번호 제YO999-318호)에서 설명한 특징 융합 방식 및/또는 계열 재채점(serial rescoring) 방식을 채용할 수도 있다.

여기서 알아두어야 할 것은, 도 6의 시청각 화자 인식 시스템의 출력은 도 1의 회화 관리자(18)에 제공되어 앞서 설명한 바와 같이 사용자 의도의 모호성을 해소하는데 쓰인다는 것이다.

C. 대화식 가상 머신

이제 도 8a 및 도 8b를 참조하면, 대화식 가상 머신(CVM; Conversational Virtual Machine)의 바람직한 실시예를 나타낸 블록도가 도시되어 있다. 이러한 CVM은 앞서 언급한 1999년 10월 1일자 PCT 특허 출원 제PCT/US99/22927호(대리인측 분류번호 제YO999-111호), "대화식 가상 머신을 통한 대화식 컴퓨팅(Conversational Computing Via Conversational Virtual Machine)"에서 개시되었다. 본 발명의 멀티모드 대화식 컴퓨팅 시스템의 바람직한 실시예에서 사용하기 위한 이러한 머신의 한 가지 구현예에 관한 설명은 이후에 하기로 한다. 그러나 본 발명에 있어서 대화식 컴퓨팅을 구현하기 위한 그 밖의 메커니즘 또한 채용될 수 있음을 명심해야 할 것이다.

이하에 설명할 CVM은 도 1에 있어서 I/O 서브시스템(12)의 일부, I/O 관리자(14), 인식 엔진(16), 회화 관리자(18) 및 문맥 스택(20)을 위한 프레임워크를 제공하는 데 채용될 수 있다. 이하의 CVM에 관한 설명을 통틀어, 이들 도 1의 기능 요소를 구현하는 데 채용될 수 있는 CVM의 구성 요소들은 따로 언급할 것이다. 그러나 CVM를 사용하여 I/O 관리자, 모드 독립적 문맥 관리자(문맥 스택), 회화 관리자(모호성 해소가 수행될 경우), 분류자(기분 및 초점이 판정되는 경우), 애플리케이션을 실행시키기 위해 회화 관리자에게 필요한 엔진 및 API/인터페이스를 구현할 수 있지만, 그 밖의 메커니즘을 대신 사용하여 본 발명의 멀티모드 대화식 컴퓨팅 시스템의 이러한 기능 요소를 구현할 수 있다. 예컨대, 본 발명의 멀티모드 대화식 컴퓨팅 시스템의 기능 요소는, 이러한 기능을 수행하는 브라우저, OSS(OS 서비스) 계층, VM(가상 머신)이나 또는 명백히 이러한 요소들을 구별하지 않고 하드 코딩(hard-coded)된 동등한 서비스를 구현함으로써 이러한 모든 기능을 구현하는 애플리케이션을 통해 구현될 수 있다. 이러한 구현예는 음성 및 비디오 모드만을 지원할 수도 있으며, 이러한 경우 그 밖의 모드(예컨대 필기 인식, GUI 등)를 지원할 필요는 없다.

따라서 CVM은 본 발명에 대하여 앞서 설명한 대화식 컴퓨팅 패러다임에 따라 대화식 컴퓨팅을 구현하기 위한 주요 구성요소로 채용될 수 있다. 한 가지 실시예에 있어서, CVM은 대화식 OS 또는 RTOS(Real-Time OS) 상에서 실행되는 대화식 플랫폼 또는 커널(kernel)이다. CVM 플랫폼은 또한 PvC(Pervasive Computing) 클라이언트 및 서버로 구현될 수도 있으며, 다중 시스템(클라이언트 및 서버)에 걸쳐 분산될 수도 있다. 일반적으로 CVM은, 대화식 서브시스템(예컨대 음성 인식 엔진, TTS 등)과 대화식의 및/또는 통상적인 애플리케이션간의 대화식 API(응용 프로그래밍 인터페이스) 및 프로토콜을 제공한다. CVM은 또한 기존의 애플리케이션에 대한 역호환성을 제공하지만, 더 한정된 인터페이스에 의한다. 이하 상세히 기술할 바처럼, CVM은 통상적인 서비스 및 행위뿐만 아니라, 복수의 애플리케이션 및 장치(CVM 계층을 구비하거나 또는 적어도 대화식으로 인지 가능함)와의 상호작용을 위한 대화식 프로토콜을 제공한다.

여기서 설명하는 상이한 요소 및 프로토콜/API는 이들이 수행하는 기능 또는 이들이 교환하는 정보에 기초하여 정의된다. 이들의 실제 조직 또는 구현은 바뀔 수 있는 바, 예컨대 동일하거나 또는 다른 개체로 구현되거나, 더 큰 구성요소의 일부로서 구현되거나, 또는 독립적으로 실현되는 객체 또는 이러한 객체나 클래스의 군집(family)으로 구현될 수도 있다.

여기서 설명한 대화식 컴퓨팅 패러다임에 기초한 CVM(또는 OS)에 의해서 컴 퓨터 또는 그 밖의 어떤 상호작용 장치는 사용자와 대화할 수 있게 된다. CVM은 또한 머신에 디스플레이 또는 GUI 기능이나 키보드, 펜 또는 지시 장치가 있는지 여부에 관계없이 머신 상에서 복수의 작업을 사용자가 실행할 수 있도록 해 준다. 사실상, 사용자는 이러한 작업들을 대화하는 것처럼 관리할 수 있고, 하나 또는 복수의 동시 작업을 종결시킬 수 있다. 대화식으로 작업을 관리하기 위해서는, 이의 다양한 기능을 수행할 수 있도록 CVM이 혼합 주도권(initiative), 문맥 및 진보된 레벨의 추상화에 의존할 능력을 갖추어야 한다. 혼합 주도권 또는 자유흐름 네비게이션(free-flow navigation)에 의해 사용자는 시스템과의 대화를 통해 요청을 자연스럽게 완료, 변경(modify) 또는 수정(correct)할 수 있게 된다. 혼합 주도권은 또한 CVM이 작업 중에 능동적으로 사용자를 돕거나(도움말을 줄 주도권을 가짐) 지도할 수 있다는 것을 의미하며, 특히 음성이 지원되는 애플리케이션에서 그러하다. 혼합 주도권 기능(capability)은 디스플레이가 없거나 제한된 시스템에서 이를 보상하기 위한 자연스러운 방식이다. 일반적으로, CVM은 종래의 인터페이스 및 사용자 입/출력을 대체한다기보다는 이를 보완하는 것이다. 음성 및 비디오에 관해 설명할 때 사용한 "멀티모드"라는 개념은 마우스, 키보드 또는 그 밖의 펜과 같은 입력 장치에 병행하여 사용될 수 있다. 장치의 한계로 인해 어떤 인터페이스의 구현이 제한되는 경우에 종래의 인터페이스가 대체될 수 있다. 추가적으로, 장치, 티어(tier) 및 서비스에 걸친 인터페이스의 편재성(ubiquity) 및 균일성(uniformity)은 추가적인 필수적 특성이다. CVM 시스템은 높은 정도로 종래의 입력 및/또는 출력 매체와 함께 기능할 수 있다. 사실상 고전적인 키보드 입력 및 지시 장치를 갖추고 전통적 인 모니터 디스플레이와 결합된 컴퓨터도 CVM을 사용함으로서 상당한 이득을 볼 수 있다. 한 가지 예가 2000년 2월 18일자 미국 특허 출원 제09/507,526(대리인측 분류번호 제YO999-178호), "멀티모드 쉘(Multi-Modal Shell)"(1999년 4월 7일자 미국 특허 가출원 제60/128,081호 및 1999년 10월 12일자 미국 특허 가출원 제60/158,777호를 우선권 주장의 기초로 함)에 개시된 바 있으며, 이는 본 명세서에 참조로서 포함되었다. 여기에서는 GUI 모드 및 음성 모드간에 엄격한 동기화가 이루어지는 진정한 다중모드 애플리케이션의 구축 방법을 설명하고 있다. 달리 말해서, 컴퓨터에 말을 하고자 하지 않는 사용자에 대해서도 CVM이 가능한 머신과 상호작용하는 것에 대하여 긍정적인 변화를 극적으로 가져올 수 있다.

이제 도 8a를 참조하면, 본 발명의 바람직한 실시예에 있어서 클라이언트 장치 또는 서버 상에 구현될 수 있는 CVM 시스템을 나타낸 블록도가 도시되어 있다. 앞서 언급한 차량의 예에 있어서, 이는 시스템(10)의 구성 요소가 국지적으로(차량 내), 원격으로(예컨대 차량에 무선으로 접속됨), 또는 이들을 조합한 방식으로 배치될 수 있음을 의미한다. 일반적으로 CVM은 범용 통합 멀티모드(universal coordinated multi-modal) CUI(대화식 사용자 인터페이스; conversational user interface)(780)을 제공한다. CUI의 "멀티모드" 양상이라 함은 앞서 설명한 것처럼 다양한 I/O 자원, 예컨대 음성, 키보드, 펜 및 지시 장치(마우스), 키패드, 터치스크린 등이나 비디오가 CVM 플랫폼과 함께 사용될 수 있다는 것을 의미한다. CUI "범용성(universality)" 양상이라 함은, CVM 시스템이 데스크탑 컴퓨터나 PDA(제한된 디스플레이 기능을 갖춤), 또는 디스플레이가 없는 전화와 연관하여 구현되었는 지의 여부에 관계없이 동일한 UI를 제공한다는 것을 의미한다. 달리 말해서 범용성이라 함은, 음성만 있는 경우부터 멀티모드(즉 음성+GUI)까지, 또는 GUI만 있는 경우까지 지원할 수 있는 장치의 UI를 CVM 시스템이 적절하게 다룰 수 있음을 의미한다. 본 발명에 있어서 시스템은 비디오 입력 데이터도 또한 포함할 수 있도록 확장될 수 있다. 따라서 범용 CUI는 액세스 모드에 관계없이 모든 사용자 상호작용에 대해서 동일한 UI를 제공한다.

더욱이, 범용 CUI의 개념은 통합 CUI의 개념까지 확대된다. 특히, 복수의 장치(복수의 컴퓨터 티어 내 또는 전체에 걸쳐 있음)가 동일한 CUI를 제공한다고 가정하면, 이들은 단일한 화법으로, 즉 통합형 인터페이스로 관리될 수 있다. 즉 복수의 장치가 대화식으로 연결(즉 서로를 인지하고 있음)된 경우, 하나의 인터페이스(예컨대 하나의 마이크)를 통해 이들을 동시에 제어하는 것이 가능하다. 예컨대 음성에 의해, 대화식으로 접속된 스마트폰, 호출기, PDA, 네트워크상의 컴퓨터, 대화식 음성 응답(IVR; Interactive Voice Response) 및 자동차에 내장된 컴퓨터를 범용 통합 CUI를 통해 자동으로 제어할 수 있게 된다. 이러한 CUI 개념은 이후에 더욱 상세히 설명하기로 한다.

CVM 시스템은 대화식 인지(conversationally aware) 애플리케이션(782)(즉, 대화식 프로토콜을 "말하는" 애플리케이션) 및 통상의 애플리케이션(894)을 포함하는 복수의 애플리케이션을 실행시킬 수 있다. 대화식 인지 애플리케이션(782)은 대화식 애플리케이션 API(786)을 통해 CVM 핵심 계층(또는 커널)(788)과 함께 작동하도록 특별히 프로그램된 애플리케이션이다. 일반적으로 CVM 커널(788)은 응용프로 그램 및 장치들간의 대화를 제어하는 바, 이는 이들이 갖는 등록된 대화 기능에 따라 이루어진다. 또한 CVM 커널은, 음성을 I/O 모드로서 추가하는 것을 넘어 대화식 시스템 행위를 제공하도록 하는 통합형 대화식 사용자 인터페이스를 제공한다. CVM 시스템은 통상의 OS 및 API(790)와 통상의 장치 하드웨어(792)상에 구축될 수 있으며, 서버 또는 그 밖의 어떤 클라이언트 장치(PC, PDA, PvC)에도 위치할 수 있다. 통상의 애플리케이션(784)은, OS API를 통해 통상의 애플리케이션의 GUI 및 명령뿐만 아니라 기저의 OS 명령에 대한 액세스를 담당하는 CVM 커널 계층(788)에 의해 관리된다. CVM은 통상의 OS(790)의 대화식 서브시스템(796)(즉 통상의 엔진) 및 통상의 서브시스템(예컨대 파일 시스템 및 통상의 드라이버)을 포함하여 모든 입/출력 문제를 자동으로 처리한다. 일반적으로 대화식 서브시스템(796)은 음성 요청을 질의(query)로 변환하는 것을 담당하고, 또한 적합한 데이터 파일(794){예컨대 문맥, 유한 상태 문법(FSG; finite state grammar), 어휘, 언어 모델, 기호 질의 맵 등}을 사용하여 음성 메시지로 출력 및 결과를 변환하는 것을 담당한다. 대화식 애플리케이션 API(786)는 CVM(788)이 질의를 애플리케이션 호출로 변환시키고 역으로 출력을 음성으로 변환(이는 사용자에게 제공되기에 앞서 적절하게 소팅됨)시키기 위한 모든 정보를 전달한다.

이제 도 8b를 참조하면, 바람직한 실시예에 있어 CVM의 추상 프로그래밍 계층(abstract programming layer)을 나타내고 있다. CVM의 추상 계층에는 CVM 상에서 실행될 수 있는 대화식 인지 애플리케이션(800) 및 통상의 애플리케이션(801)이 포함된다. 멀티모드 모호성 해소에 의존하는 애플리케이션은 CVM상에서 실행되는 애플리케이션의 예이다. 유사하게, 초점 정보 또는 기분을 이용하는 애플리케이션은 CVM 상의 대화식 애플리케이션으로 간주될 수 있다. 이러한 애플리케이션은 시스템이 배치된 환경 내에서 사용자가 원하는 상호작용을 사용자에게 제공하기 위해 시스템이 실행하는 프로그램이다. 앞서 논한 바처럼, 대화식 인지 애플리케이션(800)은 대화식 애플리케이션 API 계층(803)을 통해 CVM 커널 계층(802)과 상호작용을 한다. 대화식 애플리케이션 API 계층(803)은 대화식 프로그래밍 언어/스크립트 및 라이브러리(대화식 기본 클래스)를 포함하고, 이에 의해 CVM 커널(802)이 제공하는 다양한 특징을 제공한다. 예컨대 대화식 프로그래밍 언어/스크립트는 애플리케이션 개발자가 대화식 인지 애플리케이션(800)을 개발할 수 있도록 하는 대화식 API를 제공하며, 또한 개발자가 대화식 기능을 애플리케이션 내에 구축하여 이것이 "대화식 인지"가 가능하도록 만들 수 있게 해 주는 대화식 API 계층(803), 대화식 프로토콜(804) 및 시스템 호출을 제공한다. 이러한 애플리케이션, API 호출 및 프로토콜 호출을 구현하는 코드에는, 라이브러리 링크, 대화식 로직 엔진 및 대화식 기본 클래스를 구비한, 인터프리트 및 컴파일된 스크립트 및 프로그램이 포함된다.

더욱 상세하게는, 대화식 애플리케이션 API 계층(803)에는 복수의 대화식 기본 클래스(805)(또는 기본 회화 구성요소)가 포함되며, 이는 CUI나 대화식 인지 애플리케이션(800)을 구축하는 데 쓰이는 라이브러리 기능을 통해 애플리케이션 개발자에게 제공된다. 대화식 기본 클래스(805)는 기초 구성 요소 또는 대화식 제스처(gesture){T.V. 라만(T.V. Raman), "말하는 컴퓨터를 지향한 청각 사용자 인 터페이스(Auditory User Interface, Toward The Speaking Computer)", Kluwer Academic Publishers, 보스턴, 1997에 기술됨}을 말하고, 이는 모드 또는 모드의 조합(프로시저로 또는 선언으로 구현될 수 있음)에 무관하게 어떠한 대화를 특징지어 준다. 대화식 기본 클래스(805)는 CUI 구축 블록 및 대화식 플랫폼 라이브러리, 회화 모듈 및 구성요소, 그리고 회화 스크립트 및 빈(bean)을 포함한다. 더욱 상세하게는, 대화식 객체(806)(또는 회화 구성요소)는 대화식 기본 클래스(805)(기초 회화 구성요소)로부터 컴파일되며, 이는 자바 또는 C++과 같은 프로그래밍 언어를 통해 이들 라이브러리를 호출하는 코드에서 상이한 개별 클래스를 결합시킴으로써 이루어진다.

앞서 언급한 바처럼, 코딩에는 이러한 기초 회화 구성요소를 선언 코드에 내장시키거나 또는 이들을 명령형 코드(imperative code)로 링크시키는 것이 포함된다. 대화식 기본 클래스(805)를 포함 또는 내장시킴으로써 특정한 회화 작업 또는 애플리케이션을 수행하기 위해 대화식 객체(806)(재활용 가능하거나 그렇지 않은 것)를 구축(선언적으로 또는 컴파일/인터프리트를 통해서)할 수 있게 된다. 여기서 대화식 기본 클래스(CFC; Conversational Foundation Class) 또는 CML만이 VVM을 프로그램하는 방식은 아니라는 것에 유의해야 한다. 애플리케이션 API 및 프로토콜에 인터페이스되는 어떤 프로그래밍 언어도 적합하다. 대화식 객체(806)는 대화식 브라우저(또는 뷰어)(800a) - 본 명세서에 참조로서 포함된, 1999년 10월 1일자 PCT 특허 출원 제PCT/US99/23008(대리인측 분류번호 제YO9998-392호), "대화식 브라우저 및 대화식 시스템(Conversational Browser and Conversational Systems)" 에 개시됨 - 에 의해 처리 또는 적재(load)되는 CML 페이지(내장되었거나 또는 그렇지 않음)에서와 같이 선언적으로 구현될 수도 있다. 대화식 객체에는 CML 페이지를 통해(즉 대화식 브라우저를 거쳐) 적재될 수 있는 애플릿(applet) 또는 객체, CVM상의 명령형 객체(CVM상에 분산될 수 있음), CML내의 스크립트 태그 및 서블릿(servlet) 구성요소가 포함된다.

구현될 수 있는 대화식 제스처의 예는 다음과 같다. 머신은 대화식 제스처 메시지를 사용하여 사용자에게 정보 메시지를 전달할 수 있다. 제스처 메시지는 통상적으로 디스플레이되는 문자열 또는 음성 프롬프트(prompt)로서 제공된다. 음성 메시지의 일부는 CVM상에서 실행되는 다양한 애플리케이션/대화의 현재 상태에 관한 함수일 수 있다. "세트로부터 선택하시오"라는 대화식 제스처는 사용자가 개별적인 선택 세트 중에서 선택해야할 경우의 대화를 캡슐화(encapsulation)하는 데 사용된다. 이는 프롬프트, 기본 선택(default selection)은 물론 합법적인 선택 세트를 캡슐화한다. "범위에서 선택하시오"라는 대화식 제스처는 사용자가 연속적인 값의 범위에서 한 값을 고를 수 있는 경우의 대화를 캡슐화한다. 이 제스처는 유효한 범위, 현재의 선택 및 정보 프롬프트를 캡슐화한다. 이에 더하여, 대화식 제스처 입력은 입력 제한이 더욱 복잡한 경우(또는 존재하지 않을 수 있는 경우)에 사용자 입력을 획득하기 위해 사용된다. 이러한 제스처는 사용자 프롬프트, 요청되는 항목에 관한 애플리케이션 레벨의 의미 구조(semantics) 및 입력의 유효 여부를 테스트하는 조건자(predicate)(가능한 경우)를 캡슐화한다. 앞서 언급한 바처럼, 대화식 기본 클래스는 대화식 제스처의 개념을 포함하고, 또 이를 초월(즉 기초적인 행위 및 서비스의 수준은 물론, 통상의 작업을 수행하는 규칙의 수준으로 확장될 수 있음)한다.

이후 설명할 바처럼, 프로그래밍 모델에 의해 대화식 API를 통한 주 회화 관리자(master dialog manager)와 엔진간의 연결이 가능해진다. 이러한 주 회화 관리자는 도 1의 회화 관리자(18)의 일부로서 구현될 수 있으며, 엔진은 도 1의 인식 엔진 중 하나 또는 그 이상을 포함한다는 점을 알아두어야겠다. 기본 클래스의 데이터 파일 외에도, 인식 엔진이 필요로 하는 데이터(예컨대 문법, 음향 모델, 비디오 패턴 등)가 CVM(내장된 플랫폼 또는 클라이언트 플랫폼)상에 존재한다. 객체의 데이터 파일은 확장되고 적재될 수 있다.

CVM이 제공하는 개발 환경은 본 명세서에서 스포큰 에이지(SPOKEN AGETM)라 불린다. 스포큰 에이지는 사용자로 하여금 CVM을 위한 대화식 인지 애플리케이션을 구축, 시뮬레이션 및 디버깅할 수 있도록 해준다. API 호출의 직접 구현을 제공하는 외에도, 복수의 인물에 대한 진보된 대화식 인터페이스, 출력되는 음성의 종류를 선택할 수 있는 음성 폰트, 그리고 포스트스크립트(Postscript) 및 AFL(Audio Formatting Language)과 같은 대화식 표현을 구축해 주는 대화 형식 지정 언어의 저작 도구를 제공한다.

앞서 언급한 바처럼, 대화식 애플리케이션 API(803)는 대화식 프로그래밍 언어 및 스크립트를 포함하고, 이에 의해 범용 대화식 입/출력, 대화식 로직 및 대화식 메타 정보 교환 프로토콜을 제공하게 된다. 대화식 프로그래밍 언어/스크립트에 의해 어떤 가용 자원도 입/출력 스트림으로 사용할 수 있게 된다. 대화식 엔진(808){도 1의 인식 엔진(16)} 및 대화식 데이터 파일(809){대화식 엔진 API(807)을 통해 CVM(802)가 액세스함}을 사용하여, 각 입력은 이진 또는 ASCII 입력으로 변환되며 이는 내장 객체로서 프로그래밍 언어에 의해 직접 처리될 수 있다. 호출, 플래그(flag) 및 태그가 자동으로 포함될 수 있으며, 이에 의해서 상이한 객체와의 정확한 인터페이스를 위해 필요한 대화식 메타 정보를 객체와 프로세스 사이에서 전달하게 된다. 더욱이, 출력 스트림은 애플리케이션 또는 사용자의 필요에 따라 형식이 특별히 지정될 수 있다. 이러한 프로그래밍 도구에 의해 멀티모드 담화(discourse) 처리가 즉시 구축될 수 있다. 또한 풍부한 대화식 질의 - ASCII/이진 내용에 기초하거나, 또는 NLU(자연어 이해; Natural Language Understanding) 변환된 질의(통상의 서브시스템 및 대화식 서브시스템의 입/출력) 또는 FSG 기반의 질의(시스템이 제한된 명령어를 사용하는 경우)에 기초하여 비교될 수 있음 - 를 처리하기 위해 로직 서술 상태 및 연산자를 확장한다. 로직 연산자는 이러한 시스템을 테스트 또는 변경하기 위해 구현될 수 있다. 대화식 로직 값/연산자는 다음과 같은 것들을 포함하도록 확장될 수 있다. 즉 참(true), 거짓(false), 불비(incomplete), 모호(ambiguous), ASCII 측면의 상이/동등(different/equivalent), NLU 측면의 상이/동등, 능동 질의 필드 측면의 상이/동등, 미확인(unknown), 호환불가(incompatible) 및 비교불가(incomparable)가 그것이다.

게다가, 대화식 애플리케이션 API 계층(803)에는 기저의 OS 기능 및 행위를 확장시키는 코드가 포함된다. 이러한 확장에는 예컨대 임의의 객체와 연관된 고레벨의 추상화 및 추상 카테고리, 추상 카테고리의 자가 등록 메커니즘, 기억, 요약, 대화식 검색, 선택, 재지정(redirection), 사용자 고객화(customization), 트레이닝 능력, 도움말, 다수 사용자 및 보안 능력 및 기본 클래스 라이브러리가 포함된다.

도 8b의 대화식 컴퓨팅 시스템은 대화식 엔진 API 계층(807)을 더 포함하며, 이는 핵심 엔진 대화식 엔진(808)(예컨대 음성 인식, 화자 인식, NL 해석(parsing), NLU, TTS 및 음성 압축/해체 엔진, 시각 인식)과 이를 사용하는 애플리케이션 사이의 인터페이스를 제공한다. 엔진 API 계층(807)은 또한 핵심 엔진이 국지적이든 원격지에 있든 관계없이 이와 통신하기 위한 프로토콜을 제공한다. I/O API 계층(810)은 예컨대 키보드, 마우스, 터치스크린, 키패드 등 통상의 I/O 자원(811)(멀티모드 대화식 UI를 제공하기 위함), 음성 I/O를 포착하기 위한 오디오 서브시스템(오디오 입력/오디오 출력) 및 비디오 I/O를 포착하기 위한 비디오 서브시스템과의 인터페이스를 제공한다. I/O API 계층(810)은 장치 추상화, I/O 추상화 및 UI 추상화를 제공한다. I/O 자원(811)은 I/O API 계층(810)을 통해 CVM 커널 계층(802)으로 등록한다. 여기서 I/O API(810)은 도 1의 I/O 관리자(14)의 일부로서 구현될 수 있으며, I/O 자원(811)은 도 1의 I/O 서브시스템(12)의 일부로서 구현될 수 있음에 유의하자.

핵심 CVM 커널 계층(802)에는 대화식 애플리케이션 및 행위/서비스 관리자 계층(815), 대화식 회화 관리자(중재자) 계층(819), 대화식 자원 관리자 계층(820), 작업 배정자(dispatcher)/관리자(821) 및 메타 정보 관리자(82)가 포함되며, 이들은 CVM 계층(802)의 핵심 기능을 제공한다. 여기서 이들 구성요소는 도 1의 회화 관리자(18)의 일부로서 구현될 수 있음을 알아두자. 대화식 애플리케이션 및 행위/서비스 관리자 계층(815)에는 통상의 애플리케이션(800) 및 대화식 인지 애플리케이션(801)을 관리하기 위한 기능이 포함된다. 이러한 관리 기능에는 예컨대 어느 애플리케이션이 등록되었는지(국지적으로 및 네트워크에 분산되어), 애플리케이션의 회화 인터페이스(존재하는 경우)가 무엇인지 및 각 애플리케이션의 상태가 어떤지를 추적하는 것이 포함된다. 추가적으로, 대화식 애플리케이션 및 서비스/행위 관리자(815)는 CVM 시스템이 제공하는 어떤 특정한 서비스 또는 행위에 관한 모든 작업을 개시한다. 대화식 서비스 및 행위는 사용자가 애플리케이션에 기대하는 대화식 UI의 모든 행위 및 특징이고, 또한 애플리케이션 개발자가 API를 통해(애플리케이션의 개발로 구현할 필요 없이) 액세스하기를 기대하는 상호작용 및 특징이다. CVM 커널(802)게 제공하는 대화식 서비스 및 행위의 예에는 대화식 카테고리화 및 메타 정보, 대화식 객체, 자원 및 파일 관리, 대화식 검색, 대화식 선택, 대화식 고객화, 대화식 보안, 대화식 도움말, 대화식 순위 설정(prioritization), 대화식 자원 관리, 출력 형식 지정(output formatting) 및 표시, 요약, 대화식 지연 동작/에이전트(agent)/기억, 대화식 로직 및 통합 인터페이스 및 장치가 있으며, 이에 한정되지 않는다. 이러한 서비스는 API 호출을 통해 대화식 애플리케이션 API 계층(803)을 거쳐 제공된다. 대화식 애플리케이션 및 행위/서비스 관리자(815)는 장치의 기능(capability) 및 제약(constraint), 애플리케 이션 및/또는 사용자 설정에 대하여 UI를 적합화시키기 위해 필요한 모든 상이한 기능을 실행할 책임을 진다.

대화식 회화 관리자(819)에는 모든 등록된 애플리케이션에 걸친 회화(음성 및 그 밖의 멀티모드 I/O, 예컨대 GUI 키보드, 포인터, 마우스 및 비디오 입력 등을 포함하는 대화식 회화) 관리 및 중재(회화 관리자 중재자, 즉 DMA)를 위한 기능이 포함된다. 특히 대화식 회화 관리자(819)는 사용자가 어떤 정보를 가지고 있는지, 사용자가 어느 입력을 했는지 및 그러한 사용자 입력을 어느 애플리케이션이 취급해야 하는지에 대해 판정한다. DMA는 문맥/히스토리를 사용하여 추상화된 I/O 이벤트(I/O 관리자에 의해 추상화됨)를 처리함으로써 사용자 의도를 파악한다. 추상화된 이벤트가 발생한 경우, DMA는 이벤트의 목표를 판정하고, 필요한 경우 확실하고 완전히 의도가 판정될 때까지 확정, 모호성 해소, 수정, 세부 사항 등을 구한다. 그 후 DMA는 사용자의 질의에 연관된 동작을 실행시킨다. DMA 기능은 멀티모드 I/O 이벤트를 취급함으로써, (1) 목표 애플리케이션 또는 회화(또는 이의 일부)를 판정하고, (2) 과거의 히스토리 및 문맥을 (a) 사용자 의도 파악 (b) 파악한 의도의 모호성 해소, 완결, 수정 또는 확정, 또는 (c) 사용자 의도를 완전히 파악한 후의 작업 배정을 위해 사용한다.

대화식 자원 관리자(820)는 어느 대화식 엔진(808)이 등록되었는지{국지적 대화식 엔진(808) 및/또는 네트워크에 분산된 자원}를 판정하고, 각 등록 자원의 성능 및 상태를 판정한다. 그리고 대화식 자원 관리자(820)는 CPU 사이클 할당 또는 입/출력 우선 순위에 관한 순위를 정하여 능동 애플리케이션의 회화 흐름을 조 정한다(예컨대 현재의 입력 또는 출력을 인식 또는 처리하는 데 연관된 엔진이 우선 순위를 가짐). 마찬가지로 분산 애플리케이션에 대해서는, 능동 전면(foreground) 프로세스에 대한 네트워크 지연을 최소화하는 데 쓰이는 엔진 및 네트워크 경로를 라우팅 및 선택한다.

작업 배정자/관리자(821)는 국지 자원 및 네트워크상의 통상 및 대화식 자원 상에서 사용자 및 머신에 의해 생성된 상이한 작업 및 프로세스를 배정 및 조정한다. 메타 정보 관리자(822)는 메타 정보 저장소(818)를 통해 시스템과 연관된 메타 정보를 관리한다. 메타 정보 관리자(822) 및 저장소(818)는, 통상의 상호작용에서 일반적으로는 알려진 것으로 가정되지만 현재의 대화 레벨에서는 이용할 수 없는 모든 정보를 수집한다. 선험 지식, 문화적·교육적 가설 및 지속적인 정보, 과거의 요청, 참조 사항, 사용자 정보, 응용, 뉴스 등이 그 예이다. 이는 통상적으로 대화 히스토리/문맥의 길이/수명을 초과하여 보존 및 존속되어야 할 필요가 있는 정보이며, 또한 대화를 위한 상식인 것으로 기대되므로 현재 및 과거의 대화에서 정의된 바 없는 정보이다. 또한 명령, 자원 및 매크로(macro) 등에 대한 숏컷(shortcut)은 메타 정보 관리자(822)에 의해 관리되어 메타 정보 저장소(818)에 저장된다. 그리고 메타 정보 저장소(818)에는 사용자 신원에 기초한 사용자 이용 내역이 포함된다. CVM 시스템이 제공하는 대화식 도움말 등의 서비스 및 회화 프롬프트(소개, 질문, 피드백 등)는 사용자 이용 내역에 기초하여 메타 정보 저장소(818)에 저장된 바에 따라 애플리케이션과의 관련성에 맞게 만들어 질 수 있다. 사용자가 이전에 일정한 애플리케이션과 상호작용한 바 있으면, 사용자가 이에 친숙하다는 가정 하 에 설명을 줄일 수 있다. 마찬가지로 사용자가 많은 오류를 발생시키면 설명이 더욱 복잡해질 수 있는 바, 복수의 오류는 사용자가 확신이 없거나 낯설다든지, 또는 애플리케이션이나 기능을 이해하지 못하거나 잘못 이해하는 것으로 해석되기 때문이다.

문맥 스택(817)은 회화 관리자(819)에 의해 관리되며, 이는 회화 관리자 및 중재자와 상호작용하는 문맥 관리자를 통해서 이루어질 수도 있다. 여기서 문맥 스택(817)은 애플리케이션과 연관된 모든 정보를 포함한다. 이러한 정보는 모든 변수, 상태, 입/출력 및 백엔드(backend)에 대한 질의를 포함하며, 이들은 회화 및 회화 중에 발생하는 임의의 외부 이벤트의 맥락에서 수행된다. 문맥 스택은 각 능동 회화(또는 유예된 회화 에이전트/기억)에 대응하는, 조직화 및 소트된 문맥과 연관되어 있다. 전역 히스토리(816)는 CVM 시스템에 포함되며, 애플리케이션 각각의 문맥에서 벗어나 저장된다. 예컨대 전역 히스토리는 대화 세션 중에 취하는 모든 애플리케이션 및 동작에 관한 정보(즉, 현재 세션에서 또는 머신이 활성화된 후부터 사용자와 머신 사이의 회화 히스토리)를 저장한다.

CVM 커널 계층(802)은 백엔드 추상화 계층(823)을 더 포함하는 바, 이는 회화 관리자(819)를 우회하기보다는 이를 통하여 백엔드 비즈니스로직(813)에 대한 액세스를 가능하게 한다. 이에 따라 그러한 액세스가 문맥 스택(817) 및 전역 히스토리(816)에 추가될 수 있다. 예컨대 백엔드 추상화 계층(823)은 회화 관리자(819)에 대한 입/출력을 데이터베이스 질의로 번역할 수 있다. 이 계층(823)은 표준화된 속성값 n쌍(n-tuple)을 데이터베이스 질의로 변환하고, 이러한 질의의 결과를 속성 값 n쌍의 테이블 또는 집합으로 변환하여 회화 관리자(819)로 보낸다. 그리고 대화식 트랜스코딩(transcoding) 계층(824)은 I/O 및 CVM을 실행시키는 장치의 엔진 성능에 기초하여, 사용자에게 제시된 행위, UI 및 회화를 적합화시킨다.

CVM 시스템은 통신 스택(814)(또는 통신 엔진)을 OS(812)가 제공하는 기저 시스템 서비스의 일부로서 더 포함한다. CVM 시스템은 통신 스택을 활용하여 대화식 프로토콜(804)(대화식 통신을 제공하기 위해 대화식 통신 서비스를 확장시켜 줌)을 통해 정보를 전송한다. 여기서 통신 스택(814)은 잘 알려진 OSI(Open System Interconnection) 프로토콜 계층과 관련하여 구현될 수 있으며, 이에 의해 대화식 장치간에 대화식 통신 교환을 가능하게 한다. 본 기술 분야에 알려진 바와 같이, OSI는 7개의 계층을 포함하며, 이들은 네트워크로 연결된 장치의 네트워크상에 분산된 대화식 애플리케이션 사이의 통신을 제공하기 위한 각각의 기능을 수행한다. 이러한 계층(이들의 기능은 잘 알려져 있음)에는 애플리케이션 계층, 표현 계층, 세션 계층, 전송 계층, 네트워크 계층, 데이터 링크 계층 및 물리 계층이 포함된다. 대화식 프로토콜(804)을 통한 대화식 통신을 가능하게 하기 위해 애플리케이션 계층이 확장된다.

대화식 프로토콜(804)에 의해서 일반적으로, 원격 애플리케이션 및 자원이 이들의 대화 성능 및 프록시(proxy)를 등록할 수 있게 된다. 이러한 대화식 프로토콜(804)은 1999년 10월 1일자 PCT 특허 출원 제PCT/US99/22925호(대리인측 분류번호 제YO999-113호), "네트워크 통합 대화식 서비스 제공을 위한 시스템 및 방법(System and Method for Providing Network Coordinated Conversational Services)"에 더 상세히 개시되었으며(대화식 프로토콜은 CVM 시스템을 사용하지 않는 시스템에서 사용되었음), 본 명세서에 참조로서 포함되었다.

도 1의 멀티모드 대화식 컴퓨팅 시스템(10)의 바람직한 실시예는 앞서 언급한 바처럼 도 8a 및 도 8b의 맥락에서 CVM 기반의 시스템을 사용할 수 있지만, 멀티모드 대화식 컴퓨팅 시스템(10)은 그 대신 "대화식 브라우저"로서 구현될 수도 있으며, 이에 관해서는 앞서 언급한 PCT 특허출원 제PCT/US99/23007호(대리인측 분류번호 제 YO998-392호)에 기술된 바 있다. 본 명세서에 의해 본 기술분야의 당업자는 본 발명의 멀티모드 대화식 컴퓨팅 시스템을 구현하는 다양한 방법을 이해할 수 있을 것이다.

D. 대화식 데이터 마이닝

이제 도 9a 및 도 9b를 참조하면, 대화식 데이터 마이닝 시스템의 바람직한 실시예를 나타낸 블록도가 도시되어 있다. 이러한 대화식 데이터 마이닝 시스템은 앞서 언급한 1999년 8월 10일자 미국 특허 출원 제09/371,400호(대리인측 분류번호 제YO999-227호), "대화식 데이터 마이닝"에 기술된 바 있으며, 본 명세서에 참조로서 포함되었다. 도 1의 기분/초점 분류자 모듈(22)의 구현에 채용될 수 있는 이러한 시스템에 관해 이후 설명하기로 한다. 그러나 본 발명에 있어 기분 분류 및 초점 탐지의 구현을 위한 그 밖의 메커니즘이 채용될 수 있음을 염두에 두자.

초점 탐지는 모호성 해명과 함께 도 1의 회화 관리자(18)에 따라서 수행될 수 있으나, 도 1의 기분/초점 분류자(22)에 따라서 수행되는 것이 바람직하며, 그 구현에 관해서는 이후 설명하기로 한다. 여기서 분류 및 데이터 마이닝에 의해 초 점을 판정하는 것은, 기분을 판정하거나 사용자를 분류하는 것과 정확히 동일한 방식으로 이루어진다(이후 설명할 것임). 즉 사용자의 태도 및 움직임/제스처를 사용하여 가장 가능성 있는 초점 항목 및 초점 상태를 확률적으로 판정한다.

도 9a 및 도 9b는 음성 기반의 이벤트 데이터에 대하여 도 1의 기분/초점 분류자(22)에 채용될 수 있는 기분/초점 분류 기술을 일반적으로 나타내고 있다. 그러나 비디오 기반의 이벤트 데이터와 연관된 모드를 포함하도록 확장된 애플리케이션에 관한 설명은 도 9c의 맥락에서 이루어지는 바, 여기서는 이러한 분류 기술이 멀티모드 입력에 쉽게 응용될 수 있음을 나타내었다.

도 9a는 본 발명에 있어서 사용자의 음성과 연관된 데이터를 수집하는 장치를 나타내고 있다. 본 장치는 일반적으로 900과 같이 설계된다. 이 장치는 사용자와의 대화를 수행하는 회화 관리 유닛(902)을 포함한다. 사용자가 제공하는 입력 데이터 이벤트는 도 1의 I/O 관리자(14)를 통해 시스템(900)에 제공되는 것이 바람직하다. 장치(900)는 오디오 포착 모듈(906)을 더 포함하는 바, 이는 회화 관리자 유닛(902)에 연결되어 있고, 대화 중 사용자(904)의 발화와 연관된 음성 파형을 포착한다. 도 9a의 설명 편의를 위해 도시한 것이지만, 오디오 포착 유닛(906)은 도 1의 I/O 서브시스템(12)의 일부일 수 있다. 이러한 경우, 포착된 입력 데이터는 I/O 관리자(14)를 통해 시스템(900)으로 전달된다. 여기서 사용된 바와 같이, 제1 인물과 제2인물(또는 기계, 그렇지 않으면 이들의 조합)과의 사이에 일어나는 임의의 상호작용(적어도 일부의 음성을 포함함)을 포함하도록 대화가 광범위하게 파악되어야 한다. 마찬가지로, 앞서 언급한 본 발명의 멀티모드 시스템(10)의 설명에 기초하여 기분 분류(초점 탐지) 시스템(900)이 유사한 방식으로 비디오를 처리하도록 확장될 수 있다.

장치(900)는 음향 프론트엔드(acoustic front end)(908)를 더 포함하는 바, 이는 오디오 포착 모듈(906)에 연결되어 있고, 음성 파형을 수신 및 디지타이즈(digitize)하여 디지타이즈된 음성 파형을 제공하도록 구성된다. 또한 음향 프론트엔드(908)는 디지타이즈된 음성 파형으로부터 적어도 하나의 음향 특징(적어도 하나의 사용자 속성과 상관됨)을 추출하도록 구성된다. 적어도 하나의 사용자 속성에는 다음 중 적어도 하나가 포함될 수 있다. 즉 성별, 연령, 강세, 모국어, 방언, 사회경제적 계층, 교육 수준 및 감정 상태가 그것이다. 회화 관리 유닛(902)은 음향 프론트엔드(908)로부터 획득한 멜 켑스트럼(MEL cepstra)과 같은 음향 특징을 채용할 수 있는 바, 원하는 경우 그에 대한 직접 연결을 할 수 있다.

장치(900)는 처리 모듈(910)을 더 포함하는 바, 이는 음향 프론트엔드(908)에 연결되어 있고, 적어도 하나의 음향 특징을 분석하여 적어도 하나의 사용자 속성을 판정한다. 또한 장치(900)는 데이터 웨어하우스(data warehouse)(912)를 더 포함하는 바, 이는 처리 모듈(910)에 연결되어 있고, 적어도 하나의 사용자 속성을 적어도 하나의 식별 색인과 함께 후속 데이터 마이닝을 위한 형태로 저장한다. 식별 색인은 이후 설명하기로 한다.

사용자의 성별은 사용자 음성의 피치(pitch)를 분류함으로써, 또는 단순히 그 특성을 집단화(clustering)함으로써 판정될 수 있다. 후자의 방법은, 일정한 성별을 갖는 다수의 화자 집단과 연관된 성문(voice print)을 구축한 후 두 세트의 모델을 가지고 화자 분류를 수행한다. 사용자의 연령은 연령 그룹을 분류함으로써 판정될 수 있는 바, 성별 판정과 유사한 방식이다. 비록 제한된 신뢰도를 갖지만, 연령의 폭넓은 클래스, 예컨대 어린이, 10대, 성인 및 고령자를 이러한 방식으로 분류할 수도 있다.

음향 특징으로부터 강세를 판정하는 것은 본 기술분야에 알려져 있다. 예컨대 링컨(Lincoln) 등의 논문인 "강세 식별에 관한 두 가지 무감독 방식의 비교(A Comparison of Two Unsupervised Approaches to Accent Identification)"{1998 International Conference on Spoken Language Processing(ICSLP'98), 호주 시드니}에서 유용한 기술을 설명하고 있다. 모국어는 강세 분류와 본질적으로 동등한 방식으로 판정될 수 있다. 사용자의 모국어에 관한 메타 정보가 각각의 강세/모국어 모델을 정의하는 데 추가될 수 있다.

즉, 각 모국어에 대한 모델을 생성함에 있어, 그 언어를 자신의 모국어라고 칭하는 이를 활용할 수 있다. 마트루프(Matrouf) 등의 논문인 "어휘 정보를 통합한 언어 식별(Language Identification Incorporating Lexical Information)"(ICSLP'98)에서는 언어 식별에 대한 다양한 기술을 논하고 있다.

방언은 액센트로부터, 또한 그 방언에 특정한 키워드 또는 관용어의 용법으로부터 판정될 수 있다. 예컨대 프랑스어에서 숫자 90을 말하기 위해 "Quatre Vingt Dix" 대신 "nonante"를 선택하였다면, 그 화자를 프랑스나 캐나다 혈동이 아닌 벨기에나 스위스 혈통인 것으로 식별하게 된다. 또한 숫자 80에 대하여 "octante"나 "Huitante" 대신 "quatre-vingt"를 선택하였다면, 그를 스위스인이 아 닌 벨기에인으로 식별하게 되는 것이다. 미국 영어에 있어서, "grocery bag"이라 하지 않고 "grocery sack"이라고 하면 그 사람은 중대서양(Midatlantic) 출신이라기보다는 중서부 출신인 것으로 식별될 것이다. 그 예로서는 "soft drink"에 대해 전자는 "soda", 후자는 "pop"라고 할 것이다. 국제적인 맥락에서, "vacation" 대신 "holiday"라고 하면 미국 출신이라기 보다는 영국 출신인 것으로 식별될 것이다. 이 문단에서 설명한 작업은 이후 설명할 음성 인식기(126)를 사용하여 수행될 수 있다.

사회경제적 계층은 사용자의 인종 배경, 종족 배경, 경제적 지위(예컨대 블루컬러인지 화이트컬러인지, 또는 부유층인지) 등의 요인을 포함할 수 있다. 이러한 판정은 표시된 강세 및 방언을 통해, 그리고 사용자의 단어 선택을 검사함으로써 트레이닝시 이루어진다. 제한된 신뢰도를 갖지만, 이러한 기술은 데이터 마이닝에 유용한 사용자 배경에 관한 충분한 식견을 제공한다.

교육 수준은 사회경제적 계층과 마찬가지 방식으로, 단어 선택 및 강세에 의해 판정될 수 있다. 이 또한 제한된 신뢰도를 갖지만 데이터 마이닝을 위한 목적으로는 충분하다.

사용자의 감정 상태를 음향 특징으로부터 판정하는 것은 본 기술 분야에 잘 알려져 있다. 인식될 수 있는 감정 카테고리에는 분노, 당황, 공포, 불안, 슬픔, 격앙, 절망, 행복, 흥미, 권태, 수치, 경멸, 혼란, 혐오 및 자신감 등이 포함된다. 감정 상태를 관련 음향 특징으로부터 판정하는 방법의 예시는 ICSLP'98에서 발표된 논문들인 페레이라(Pereira) 및 왓슨(Watson)의 "감정의 음향 특성(Some Acoustic Characteristics)", 아미르(Amir) 및 론(Ron)의 "음성에 있어서의 자동 감정 분류(Towards an Automatic Classification of Emotions in Speech)", 화이트사이드(Whiteside)의 "감정 시뮬레이션: 음성 및 동요 측정에 관한 음향적 연구(Simulated Emotions: An Acoustic Study of Voice and Perturbation Measures)"에 설명된 바 있다.

오디오 포착 모듈(906)은 예컨대 A/D 변환기 보드(board), 대화식 음성 응답 시스템 및 마이크 중 적어도 하나를 포함할 수 있다. 회화 관리 유닛(902)은 예컨대 오디오 포착의 구현에 쓰인 것과 같은 전화 대화식 음성 응답 시스템을 포함할 수 있다. 이 대신, 회화 관리 유닛은 단지 인간 조작자(operator)에 대한 음향 인터페이스일 수 있다. 회화 관리자 유닛(902)은 인간 조작자 대신, 또는 그에 더하여 사용자에 대한 머신 프롬프팅(machine-prompting)을 하기 위해, NLU, NLG(자연 언어 생성; natural language generation), FSG 및/또는 TTS를 포함할 수 있다. 처리 모듈(910)은 IVR의 프로세서 부분에 구현될 수 있고, 그렇지 않으면 적합한 소프트웨어에 의해 별개의 범용 컴퓨터로 구현될 수도 있다. 또한 처리 모듈은 ASIC과 같은 특정 용도 회로(application specific circuit)를 사용하여 구현되거나, 그렇지 않으면 개별적인 구성요소, 또는 개별 및 통합 구성요소의 조합을 채용한 특정 용도 회로로 구현될 수 있다.

처리 모듈(910)은 감정 상태 분류자(914)를 포함할 수 있다. 분류자(914)는 감정 상태 분류 모듈(916) 및 감정 상태 원형(prototype) 데이터베이스(918)를 포함할 수 있다.

처리 모듈(910)은 화자 집단화 및 분류자(920)를 더 포함할 수 있다. 요소(920)는 화자 집단화 및 분류 모듈(922) 및 화자 클래스 데이터베이스(924)를 더 포함할 수 있다.

처리 모듈(910)은 음성 인식기(926)를 더 포함할 수 있으며, 음성 인식기 자신은 음성 인식 모듈(928) 및 음성 원형, 언어 모델 및 문법 데이터베이스(930)를 포함한다. 음성 인식기(926)는 회화 관리 유닛(902)의 일부일 수 있으며, 그렇지 않으면 예컨대 처리 모듈(910) 내의 별개 요소일 수 있다. 또한 처리 모듈(910)은 강세 식별자(932)를 포함할 수 있는 바, 여기에는 강세 식별 모듈(934) 및 강세 데이터베이스(936)가 포함된다.

처리 모듈(910)은 요소(914, 920, 926 및 932) 중 어느 한 가지, 또는 이들 모두, 또는 이들의 조합을 포함할 수 있다.

장치(900)는 후처리기(post processor)(938)를 더 포함할 수 있는 바, 이는 데이터 웨어하우스(912)에 연결되어 있고, 사용자 발화를 전사(轉寫; transcribe)하고 그로부터 키워드 검출을 수행하도록 구성된다. 비록 도 9a에서 별개의 항목으로 나타내었지만, 후처리기는 처리 모듈(910)의 일부로 될 수 있고, 그렇지 않으면 이것의 하위 구성요소의 일부로서 될 수도 있다. 예컨대 이는 음성 인식기(926)의 일부로서 구현될 수도 있다. 후처리기(938)는 IVR의 처리기의 일부로서 특정 용도 회로로 구현될 수도 있으며, 그렇지 않으면 적합한 소프트웨어 모듈을 사용하여 범용 컴퓨터 상에 구현될 수도 있다. 후처리기(938)는 음성 인식기(926)를 채용할 수도 있다. 후처리기(938)는 또한 의미 모듈(semantic module)(도시하지 않음)을 포 함하여 구문의 의미를 해석할 수도 있다. 음성 인식기(926)는 의미 모듈을 사용하여, 리스트상의 복호화되는 일부 후보가 무의미하므로 이를 폐기하거나 또는 의미 있는 후보로 교체해야 한다는 것을 타나내도록 할 수 있다.

음향 프론트엔드(908)는 본 기술 분야에 알려진 바와 같이 통상적으로 8차원 이상의 에너지 프론트엔드일 수 있다. 그러나 13, 24 또는 그 밖의 어떤 차원 수도 사용될 수 있다. 멜 켑스트럼은 예컨대 델타 및 델타 델타 파라미터(즉, 1차 및 2차 유한 미분)에 의해 10 msec의 겹침이 있는 25 msec 프레임 상에서 계산될 수 있다. 이러한 음향 특징은 도 9a의 화자 집단화 및 분류자(920), 음성 인식기(926) 및 강세 식별자(932)에 공급될 수 있다.

그 밖의 음향 특징의 유형은 음향 프론트엔드(908)에 의해 추출될 수 있다. 이것들을 감정 상태 특징이라 할 수 있고, 예컨대 연속적인(running) 평균 피치, 피치 지터(pitch jitter), 연속 에너지 편차, 발화 속도, 흔들림(shimmer), 기초 주파수 및 기초 주파수 변화량이 그 예이다. 피치 지터라 함은 피치의 1차 미분에 있어서 부호 변화의 수를 말한다. 흔들림이라 함은 에너지 지터를 말한다. 이러한 특징들은 음향 프론트엔드(908)로부터 감정 상태 분류자(914)로 공급될 수 있다. 앞서 언급한 음향 특징(MEL 켑스트럼 및 감정 상태 특징 포함)은 미가공, 즉 미처리 특징으로 간주될 수 있다.

사용자 질의는 IVR에 의해, 또는 다른 방식으로 전사될 수 있다. 음성 특징은 우선 텍스트 독립적인 화자 분류 시스템에 의해, 예컨대 화자 집단화 및 분류자(920)에서 처리될 수 있다. 이는 화자들의 음성에 관하여 음향 유사성에 기 초한 화자 분류를 가능하게 한다. 이러한 시스템의 구현 및 사용은 1996년 2월 2일자 미국 특허 출원 제60/011,058호, 1997년 1월 28일자 미국 특허 출원 제08/787,031호(1999년 4월 20일자 미국 특허 제5,895,447호로 결정), 1997년 1월 28일자 미국 특허 출원 제08/788,471호 및 1997년 1월 28일자 미국 특허 출원 제08/787,029호(본 명세서에 참조로서 포함됨)에 개시된 바 있다. 화자 분류는 감독 또는 무감독일 수 있다. 감독하는 경우 클래스는 외부 정보에 기초하여 미리 결정된다. 통상적으로 그러한 분류에 의해 남성 대 여성, 성인 대 아동, 원어민 대 비원어민 등을 구별할 수 있다. 이러한 분류 과정의 색인은 처리되는 특징을 포함한다. 이러한 처리의 결과는 감정 상태 분류자(914)에 공급되어 감정 상태 특징을 평균(일정한 클래스에 대해 트레이닝시에 중성 감정 상태에 대하여 관찰함)에 대하여 정규화하는 데 쓰일 수 있다. 감정 상태 분류자(914)는 정규화된 감정 상태를 사용하고, 그 후 감정 상태의 추정치를 출력한다. 이러한 출력은 또한 처리되는 특징의 일부로서 간주될 수도 있다. 요약하자면, 감정 상태 특징은 음성 집단화 및 분류자(920)에 의해 생성되는 각 클래스에 대하여, 감정 상태 분류자(914)에 의해 정규화될 수 있다. 특징은 다음과 같이 정규화한다. X0를 기준 주파수라 하자. Xi를 측정된 주파수라 하자. 그러면 정규화된 특징은 Xi-X0로 주어질 것이다. 이 양은 양수이거나 음수일 수 있고, 일반적으로 차원이 없지는 않다.

음성 인식기(926)는 사용자로부터의 질의를 전사할 수 있다. 이는 화자 독립 또는 클래스 의존적인 LVCSR일 수 있으며, 그렇지 않으면 시스템은 예컨대 욕설 등 을 탐지하는 키워드 검출기처럼 간단한 것일 수도 있다. 이러한 시스템은 본 기술 분야에 있어 잘 알려져 있다. 출력은 완전한 문장일 수 있으나, 더욱 섬세하게 만들 수도 있다. 예컨대 인식된 단어의 시간 정렬이 그것이다. 시간이 찍힌 전사본(transcription)은 또한 처리되는 특징의 일부로 간주될 수 있으며, 이후에 본 발명의 방법과 관련하여 설명하기로 한다. 따라서 거래의 모든 단계로부터의 대화가 전사 및 저장될 수 있다. 도 9a에 나타낸 바와 같이 적합한 데이터가 화자 집단화 및 분류자(920)로부터 감정 상태 분류자(914) 및 화자 인식기(926)로 전송된다. 앞서 언급한 바처럼, 사용자로부터의 입력 음성으로 강세, 방언 및 언어 인식을 수행할 수 있다. 인식 대상인 상이한 강세를 갖는 여러 화자들에 대해, 그들의 음성에 관해 연속 음성 인식기를 트레이닝할 수 있다. 트레이닝되는 화자 각각은 강세 벡터(각 차원은 각 레펨의 각 상태와 연관된 가장 가능성 있는 혼합 구성요소를 나타냄)와 연관될 수 있다. 이들 강세 벡터들 사이의 거리에 기초하여 화자를 집단화할 수 있으며, 이러한 집단은 예컨대 구성원인 화자의 액센트인 것으로 식별될 수 있다. 강세 식별은 사용자의 음성으로부터 강세 벡터를 추출하여 이를 분류함으로써 수행될 수 있다. 앞서 언급한 바처럼, 방언, 사회경제적 계층 등은 사용자가 쓰는 어휘 및 일련의 단어에 기초하여 추정될 수 있다. 적합한 키워드, 문장, 또는 문법 오류를 탐지하여 이를 전문적인 언어학적 지식을 통해 편찬할 수 있다. 강세, 사회경제적 배경, 성별, 연령 등은 처리되는 특징의 일부이다. 도 9a에 나타낸 바와 같이 굵은 화살표로 나타낸, 처리되는 어떤 특징도 데이터 웨어하우스(912)에 저장될 수 있다. 또한 미가공 특징(점선으로 나타냄)도 또한 데 이터 웨어하우스(912)에 저장될 수 있다.

처리된 또는 미가공된 특징 중 어떤 것도 데이터 웨어하우스(912)에 저장될 수 있고, 또한 거래 완료시에, 기존에 수집된 그 밖의 데이터와 연관될 수 있다. 고전적인 데이터 마이닝 기술을 그 후 적용할 수 있다. 이러한 기술은 예컨대 알렉스 버슨(Alex Berson) 및 스티븐 J. 스미스(Stephen J. Smith)의 "데이터 웨어하우징, 데이터 마이닝 및 OAAP(Data Warehousing, Data Mining and OAAP)"(McGraw Hill, 1997) 및 카베나(Cabena) 등의 "데이터 마이닝의 발견(Discovering Data Mining)"(Prentice Hall, 1998)과 같은 서적에서 설명된 바와 같이 알려져 있다. 일정한 비즈니스 목표에 있어서, 예컨대 표적 마케팅, 예측 모델 또는 분류자를 적합한 마이닝 방법을 적용함으로써 자동으로 획득하게 된다. 데이터 웨어하우스(912)에 저장된 모든 데이터는 후속 데이터 마이닝을 용이하게 하기 위한 형식으로 저장될 수 있다. 본 기술 분야의 당업자는 마이닝될 데이터가 저장될 적합한 형식을 알고 있으며, 이는 앞서 참조한 두 책에 설명되어 있다. 비즈니스 목표에는 예컨대 일정한 제품 또는 서비스 구매 제안에 취약한 사용자의 탐지, 자동화 시스템에 대해 문제가 있어 조작자를 바꿔줘야 하는 사용자의 탐지 및 서비스에 불만이 있어 관리자를 바꿔줘야 하는 사용자의 탐지가 포함될 수 있다. 사용자는 장치(900)를 채용한 비즈니스의 고객일 수 있으며, 그렇지 않으면 기타 유형의 시설(예컨대 비영리 시설, 정부 기관 등)의 클라이언트일 수 있다.

특징이 추출되어 의사결정이 모델에 의해 동작으로 반환될 수 있다. 이는 추후 설명하기로 한다.

도 9b는 본 발명에 따른, 사용자와의 상호작용을 위한 실시간 변경가능 음성 시스템(1000)을 나타내고 있다. 도 9a의 것과 유사한 도 9b의 요소에 대해서는 100씩 증가시킨 숫자로 표시하였다. 시스템(1000)은 앞서 논한 것과 유사한 회화 관리 유닛(1002)을 포함할 수 있다. 특히 도 9b에서 나타낸 바와 같이, 유닛(1002)은 인간 조작자 또는 관리자이거나 IVR 또는 VUI(Voice User Interface)일 수 있다. 시스템(1000)은 또한 앞서 언급한 것과 유사한 오디오 포착 모듈(1006) 및 음향 프론트엔드(1008)를 포함할 수 있다. 장치(900)와 마찬가지로 장치(1002)는 직접 음향 프론트엔드(1008)에 연결될 수 있고, 이에 의해 원하는 경우 멜 켑스트럼 또는 프론트엔드(1008)가 판정하는 그 밖의 음향 특징을 사용할 수 있게 된다. 또한 시스템(1000)은 앞서 언급한 것과 유사하지만 이제 설명할 추가적인 특징을 갖는 처리 모듈(1010)을 포함한다. 처리 모듈(1010)은 사용자의 동적 분류를 수행하는 동적 분류 모듈(1040)을 포함할 수 있다. 따라서 처리 모듈(1010)은 음성 시스템(1000)의 행위를 적어도 하나의 사용자 속성(사용자의 음성으로부터 추출된 적어도 하나의 음향 특징에 기초하여 판정된 것임)에 기초하여 변경하도록 구성된다. 시스템(1000)은 비즈니스 로직 유닛(1042)을 더 포함할 수 있는 바, 이는 회화 관리 유닛(1002) 및 동적 분류 모듈(1040)에 연결되어 있고, 음향 프론트엔드(1008)에는 선택적으로 연결된다. 비즈니스 로직 유닛은 IVR 또는 VUI의 처리 부분으로서 구현될 수 있고, 적절하게 프로그램된 범용 컴퓨터의 일부일 수도 있으며, 또는 특정 용도 회로일 수도 있다. 현재로서는, 처리 모듈(1010){모듈(1040) 포함}은 범용 컴퓨터로서, 비즈니스 로직(1042)은 IVR 시스템의 프로세서 부분으로 구현되는 것 이 바람직하다. 동적 분류 모듈1040)은 비즈니스 로직 유닛(1042) 및 회화 관리 유닛(1002)에 대한 실시간 피드백일 수 있는 피드백을 제공하도록 구성된다.

데이터 웨어하우스(1012) 및 후처리기(1038)는 도시한 바와 같이 선택적으로 제공될 수도 있으며, 앞서 언급한 바처럼 데이터 수집 장치(900)에 대해 작동할 수 있다. 그러나 여기서 중요한 것은, 본 발명의 실시간 변경 가능 음성 시스템(1000)에 있어서 데이터 웨어하우징은 선택적이며, 원하는 경우 시스템은 요소(1040, 1042 및 1002)들에 대해 논한 실시간 피드백으로 한정될 수 있다.

처리 모듈(1010)은 인간 조작자에게 촉구함으로써, 회화 관리 유닛(1002)에 접속된 피드백 라인에 의해 제안한 대로 시스템(1000)의 행위를, 적어도 부분적으로 수정할 수 있다. 예컨대 인간 조작자는 사용자의 화가 나있는 감정 상태를 탐지한 경우 경보를 받을 수 있으며, 사용자를 진정시키는 말을 하거나 또는 더 고위의 감독자를 바꿔주도록 촉구를 받을 수 있다. 또한 처리 모듈(1010)은 시스템(1000)의 비즈니스 로직(1042)을 변경할 수 있다. 이는 예컨대 처리 모듈(1010) 및 비즈니스 로직 유닛(1042)이 IVR 시스템의 일부인 경우 수행될 수 있다. 비즈니스 로직에는 시스템(1000)이 탐지한 사용자의 속성에 기초하여 사용자에 대한 마케팅 제의를 맞추는 것이 포함될 수 있으며, 비즈니스 로직을 변경하는 예는 이후 설명하도록 하겠다.

이제 도 9c를 참조하면, 앞서 설명한 기분/초점 분류 기술이 멀티모드 환경(음성 및 비디오 입력 이벤트 데이터 포함)에서 도 1의 기분/초점 분류자(2)에 의해 어떻게 구현되는지를 나타낸 블록도가 도시되어 있다. 도시한 바처럼, 도 9c에 나 타낸 분류자에는 음성 입력 채널(1050-1), 음성 채널 제어기(1052-1) 및 음성 기반의 기분 분류 서브시스템(1054-1)이 포함된다. 분류자에는 또한 비디오 입력 채널(1050-N), 비디오 채널 제어기(1052-N) 및 비디오 기반의 기분 분류 서브시스템(1054-N)이 포함된다. 물론 그 밖의 입력 채널 및 이에 대응하는 분류 서브시스템 또한 그 밖의 모드에 대해 분류자를 확장시키도록 포함될 수 있다. 개개의 분류 서브시스템은 각각 이들이 입력 채널로부터의 미가공 특징을 취하여, 인식 및 분류 엔진을 채용하여 그 특징을 처리하고, 데이터 웨어하우스(1058)와 관련해서 동적 분류 판정을 한다. 이러한 과정을 세부 사항은 앞서 도 9a 및 도 9b에 관해 설명한 바 있다. 비디오 특징은 음성 특징과 마찬가지로 취급될 수 있다. 그 후 각 입력 모드로부터의 데이터를 사용하여 블록(1056)에서 결합 동적 분류를 수행할 수 있으며, 이에 의해 종합적인 분류 판정을 하게 된다. 비즈니스 로직 유닛(1060) 및 멀티모드 쉘(1062)은 기분/초점 분류자에 의해 실행되는 특정 애플리케이션에 따라 프로세스를 제어하는데 쓰인다. 채널 제어기(1052-1 및 1052-N)는 음성 데이터 및 비디오 데이터의 입력을 각각 제어하는 데 쓰인다.

따라서 여기서 알아두어야 할 것은, 사용자의 기분을 판정한 후 앞서 설명한 바처럼 기분 분류 시스템은 도 1의 I/O 서브시스템(12)에 대하여, 사용자의 기분 및/또는 초점을 바꾸는 효과를 갖게끔 그 환경 내의 장치를 조정(예컨대 온도 제어 시스템, 음악 시스템 등)하도록 I/O 관리자(14)를 통해 지시할 수 있다는 것이다.

이제 도 10을 참조하면, 본 발명에 따른 멀티모드 대화식 컴퓨팅 시스템의 하드웨어 구현예를 나타낸 블록도가 도시되어 있다. 이 특정한 구현예에서, 도 1 내지 도 9c에 나타낸 본 발명의 시스템 예와 연관된 여러 동작을 제어 및 수행하기 위한 프로세서(1092)가 메모리(1094) 및 사용자 인터페이스(1096)와 연결되어 있다. 여기서 "프로세서"라는 용어는 예컨대 CPU 및/또는 그 밖의 처리 회로를 포함하는 어떠한 처리 장치라도 포함하도록 한 것이라는 점을 밝혀두고자 한다. 예컨대 프로세서는 본 기술 분야에 알려진 바와 같은 DSP(Digital Signal Processor)일 수 있다. "메모리"라는 용어는 프로세서나 CPU와 연관된 메모리, 예컨대 RAM, ROM, 고정식 메모리 장치(예컨대 하드 드라이브), 이동식 메모리 장치(예컨대 디스켓), 플래시 메모리 등을 포함하도록 하였다. 또한 "사용자 인터페이스"라는 용어는, 처리 유닛에 대한 데이터 입력을 위한 하나 또는 그 이상의 입력 장치(예컨대 키보드) 및/또는 처리 유닛과 연관된 결과를 제공하기 위한 하나 또는 그 이상의 출력 장치(예컨대 CRT 디스플레이 및/또는 프린터)를 포함하도록 한 것이다. 사용자 인터페이스(1096)는 또한 사용자 음성을 수신하기 위한 하나 또는 그 이상의 마이크 및 이미지 데이터를 포착하기 위한 하나 또는 그 이상의 카메라/센서는 물론 멀티모드 시스템에서 쓰이는 그 밖의 I/O 인터페이스 장치를 포함하게 된다.

따라서 앞서 설명한 본 발명의 방식을 수행하기 위한 명령어 또는 코드를 포함하는 컴퓨터 소프트웨어는 하나 또는 그 이상의 관련 메모리 장치(예컨대 ROM, 고정식 또는 이동식 메모리)에 저장될 수 있고, 사용할 준비가 된 경우 부분적 또는 전체적으로 적재되어(예컨대 RAM으로) CPU에 의해 실행된다. 어떤 경우이건, 도 1 내지 도 9c에 나타낸 요소들은 다양한 형태의 하드웨어, 소프트웨어 또는 이들의 조합으로 구현될 수 있는 바, 예컨대 하나 또는 그 이상의 DSP(관련 메모리 구비), 특정 용도 IC, 기능 회로, 하나 또는 그 이상의 적절하게 프로그램된 범용 디지털 컴퓨터(관련 메모리 구비) 등이 그것이다. 본 명세서의 설명에 의해 본 기술 분야에서 통상의 지식을 가진 자는 본 발명의 요소들의 그 밖의 구현예를 파악할 수 있을 것이다.

비록 본 발명의 실시예에 관해 첨부된 도면을 참조하여 설명하였지만, 이들 특정 실시예로 본 발명이 한정되는 것이 아니며, 본 기술 분야의 당업자는 본 발명의 범주 또는 취지로부터 벗어나지 않고 다양한 그 밖의 변환 및 변경을 할 수 있을 것이라는 점을 알아두어야겠다.

Claims (38)

  1. 멀티모드 대화식 컴퓨팅 시스템에 있어서,

    상기 시스템은 사용자 인터페이스 서브시스템, 적어도 하나의 프로세서 및 메모리를 포함하고,

    상기 사용자 인터페이스 서브시스템은 자신이 배치된 환경으로부터 멀티모드 데이터를 입력받도록 구성되고, 상기 멀티모드 데이터는 제1 모드 입력 센서와 연관된 데이터 및 적어도 제2 모드 입력 센서와 연관된 데이터를 포함하며, 상기 환경은 하나 또는 그 이상의 사용자 및 상기 멀티모드 시스템에 의해 제어 가능한 하나 또는 그 이상의 장치를 포함하고,

    상기 적어도 하나의 프로세서는 회화 관리자 모듈 또는 초점 및 기분 분류 모듈 중 적어도 하나를 포함하며, 상기 사용자 인터페이스 서브시스템과 동작적으로 결합되고,

    (i) 상기 사용자 인터페이스 서브시스템으로부터 멀티모드 입력 데이터의 적어도 일부를 수신하고,

    (ii) 상기 수신된 멀티모드 입력 데이터의 적어도 일부에 기초하여 상기 하나 또는 그 이상의 사용자 중 적어도 한 명의 의도, 초점 및 기분을 판정하는 것이 가능하며,

    (iii) 상기 판정된 의도, 상기 판정된 초점 및 상기 판정된 기분 중 적어도 하나에 기초하여 하나 또는 그 이상의 동작을 상기 환경에서 실행시키도록

    구성되며,

    상기 메모리는 상기 적어도 하나의 프로세서에 동작적으로 결합되고, 후속 판정에서 사용할 수 있도록 상기 프로세서에 의해 내려진 상기 의도, 초점 및 기분 판정과 연관된 결과의 적어도 일부를 저장하고,

    상기 의도 판정은, 상기 수신된 멀티모드 데이터의 적어도 일부에 기초하여, 상기 환경의 상기 하나 또는 그 이상의 사용자 및 상기 하나 또는 그 이상의 장치와 연관된 기준 모호성을 해명하는 것을 포함하는 것인 멀티모드 대화식 컴퓨팅 시스템.

  2. 멀티모드 대화식 컴퓨팅 시스템에 있어서,

    상기 시스템은 사용자 인터페이스 서브시스템, 적어도 하나의 프로세서 및 메모리를 포함하고,

    상기 사용자 인터페이스 서브시스템은 자신이 배치된 환경으로부터 멀티모드 데이터를 입력받도록 구성되고, 상기 멀티모드 데이터는 제1 모드 입력 센서와 연관된 데이터 및 적어도 제2 모드 입력 센서와 연관된 데이터를 포함하며, 상기 환경은 하나 또는 그 이상의 사용자 및 상기 멀티모드 시스템에 의해 제어 가능한 하나 또는 그 이상의 장치를 포함하고,

    상기 적어도 하나의 프로세서는 회화 관리자 모듈 또는 초점 및 기분 분류 모듈 중 적어도 하나를 포함하며, 상기 사용자 인터페이스 서브시스템과 동작적으로 결합되고,

    (i) 상기 사용자 인터페이스 서브시스템으로부터 멀티모드 입력 데이터의 적어도 일부를 수신하고,

    (ii) 상기 수신된 멀티모드 입력 데이터의 적어도 일부에 기초하여 상기 하나 또는 그 이상의 사용자 중 적어도 한 명의 의도, 초점 및 기분 중 적어도 하나를 판정하고,

    (iii) 상기 판정된 의도, 상기 판정된 초점 및 상기 판정된 기분 중 적어도 하나에 기초하여 하나 또는 그 이상의 동작을 상기 환경에서 실행시키도록

    구성되며,

    상기 메모리는 상기 적어도 하나의 프로세서에 동작적으로 결합되고, 후속 판정에서 사용할 수 있도록 상기 프로세서에 의해 내려진 상기 의도, 초점 및 기분 판정과 연관된 결과의 적어도 일부를 저장하고,

    상기 의도 판정은, 상기 수신된 멀티모드 데이터의 적어도 일부에 기초하여, 상기 환경의 상기 하나 또는 그 이상의 사용자 및 상기 하나 또는 그 이상의 장치와 연관된 기준 모호성을 해명하는 것을 포함하며,

    상기 환경에서 상기 하나 또는 그 이상의 동작 실행은, 상기 환경의 상기 하나 또는 그 이상의 장치가 상기 하나 또는 그 이상의 사용자의 상기 판정된 의도, 초점 및 기분 중 적어도 하나를 충족시키도록 제어하는 것을 포함하는 것인 멀티모드 대화식 컴퓨팅 시스템.

  3. 멀티모드 대화식 컴퓨팅 시스템에 있어서,

    상기 시스템은 사용자 인터페이스 서브시스템, 적어도 하나의 프로세서 및 메모리를 포함하고,

    상기 사용자 인터페이스 서브시스템은 자신이 배치된 환경으로부터 멀티모드 데이터를 입력받도록 구성되고, 상기 멀티모드 데이터는 제1 모드 입력 센서와 연관된 데이터 및 적어도 제2 모드 입력 센서와 연관된 데이터를 포함하며, 상기 환경은 하나 또는 그 이상의 사용자 및 상기 멀티모드 시스템에 의해 제어 가능한 하나 또는 그 이상의 장치를 포함하고,

    상기 적어도 하나의 프로세서는 회화 관리자 모듈 또는 초점 및 기분 분류 모듈 중 적어도 하나를 포함하며, 상기 사용자 인터페이스 서브시스템과 동작적으로 결합되고,

    (i) 상기 사용자 인터페이스 서브시스템으로부터 멀티모드 입력 데이터의 적어도 일부를 수신하고,

    (ii) 상기 수신된 멀티모드 입력 데이터의 적어도 일부에 기초하여 상기 하나 또는 그 이상의 사용자 중 적어도 한 명의 의도, 초점 및 기분 중 적어도 하나를 판정하고,

    (iii) 상기 판정된 의도, 상기 판정된 초점 및 상기 판정된 기분 중 적어도 하나에 기초하여 하나 또는 그 이상의 동작을 상기 환경에서 실행시키도록

    구성되며,

    상기 메모리는 상기 적어도 하나의 프로세서에 동작적으로 결합되고, 후속 판정에서 사용할 수 있도록 상기 프로세서에 의해 내려진 상기 의도, 초점 및 기분 판정과 연관된 결과의 적어도 일부를 저장하고,

    상기 의도 판정은, 상기 수신된 멀티모드 데이터의 적어도 일부에 기초하여, 상기 환경의 상기 하나 또는 그 이상의 사용자 및 상기 하나 또는 그 이상의 장치와 연관된 기준 모호성을 해명하는 것을 포함하며,

    상기 환경에서 상기 하나 또는 그 이상의 동작 실행은, 상기 환경의 상기 하나 또는 그 이상의 장치가 상기 판정 중 적어도 하나를 내리는 데 도움이 되는 추가적인 사용자 입력을 요청하도록 제어하는 것을 포함하는 것인 멀티모드 대화식 컴퓨팅 시스템.

  4. 멀티모드 대화식 컴퓨팅 시스템에 있어서,

    상기 시스템은 사용자 인터페이스 서브시스템, 적어도 하나의 프로세서 및 메모리를 포함하고,

    상기 사용자 인터페이스 서브시스템은 자신이 배치된 환경으로부터 멀티모드 데이터를 입력받도록 구성되고, 상기 멀티모드 데이터는 제1 모드 입력 센서와 연관된 데이터 및 적어도 제2 모드 입력 센서와 연관된 데이터를 포함하며, 상기 환경은 하나 또는 그 이상의 사용자 및 상기 멀티모드 시스템에 의해 제어 가능한 하나 또는 그 이상의 장치를 포함하고,

    상기 적어도 하나의 프로세서는 회화 관리자 모듈 또는 초점 및 기분 분류 모듈 중 적어도 하나를 포함하며, 상기 사용자 인터페이스 서브시스템과 동작적으로 결합되고,

    (i) 상기 사용자 인터페이스 서브시스템으로부터 멀티모드 입력 데이터의 적어도 일부를 수신하고,

    (ii) 상기 수신된 멀티모드 입력 데이터의 적어도 일부에 기초하여 상기 하나 또는 그 이상의 사용자 중 적어도 한 명의 의도, 초점 및 기분 중 적어도 하나를 판정하고,

    (iii) 상기 판정된 의도, 상기 판정된 초점 및 상기 판정된 기분 중 적어도 하나에 기초하여 하나 또는 그 이상의 동작을 상기 환경에서 실행시키도록

    구성되며,

    상기 메모리는 상기 적어도 하나의 프로세서에 동작적으로 결합되고, 후속 판정에서 사용할 수 있도록 상기 프로세서에 의해 내려진 상기 의도, 초점 및 기분 판정과 연관된 결과의 적어도 일부를 저장하고,

    상기 의도 판정은, 상기 수신된 멀티모드 데이터의 적어도 일부에 기초하여, 상기 환경의 상기 하나 또는 그 이상의 사용자 및 상기 하나 또는 그 이상의 장치와 연관된 기준 모호성을 해명하는 것을 포함하며,

    상기 하나 또는 그 이상의 동작 실행은, 상기 시스템이 이전의 입력으로부터 파악한 것을 추가적으로 완성하거나, 수정하거나 또는 모호성을 해소하는 것 중 적어도 하나의 처리를 개시하는 것을 포함하는 것인 멀티모드 대화식 컴퓨팅 시스템.

  5. 멀티모드 대화식 컴퓨팅 시스템에 있어서,

    상기 시스템은 사용자 인터페이스 서브시스템, 적어도 하나의 프로세서 및 메모리를 포함하고,

    상기 사용자 인터페이스 서브시스템은 자신이 배치된 환경으로부터 멀티모드 데이터를 입력받도록 구성되고, 상기 멀티모드 데이터는 제1 모드 입력 센서와 연관된 데이터 및 적어도 제2 모드 입력 센서와 연관된 데이터를 포함하며, 상기 환경은 하나 또는 그 이상의 사용자 및 상기 멀티모드 시스템에 의해 제어 가능한 하나 또는 그 이상의 장치를 포함하고,

    상기 적어도 하나의 프로세서는 회화 관리자 모듈 또는 초점 및 기분 분류 모듈 중 적어도 하나를 포함하며, 상기 사용자 인터페이스 서브시스템과 동작적으로 결합되고,

    (i) 상기 사용자 인터페이스 서브시스템으로부터 멀티모드 입력 데이터의 적어도 일부를 수신하고,

    (ii) 상기 수신된 멀티모드 입력 데이터의 적어도 일부에 기초하여 상기 하나 또는 그 이상의 사용자 중 적어도 한 명의 의도, 초점 및 기분 중 적어도 하나를 판정하고,

    (iii) 상기 판정된 의도, 상기 판정된 초점 및 상기 판정된 기분 중 적어도 하나에 기초하여 하나 또는 그 이상의 동작을 상기 환경에서 실행시키도록

    구성되며,

    상기 메모리는 상기 적어도 하나의 프로세서에 동작적으로 결합되고, 후속 판정에서 사용할 수 있도록 상기 프로세서에 의해 내려진 상기 의도, 초점 및 기분 판정과 연관된 결과의 적어도 일부를 저장하고,

    상기 의도 판정은, 상기 수신된 멀티모드 데이터의 적어도 일부에 기초하여, 상기 환경의 상기 하나 또는 그 이상의 사용자 및 상기 하나 또는 그 이상의 장치와 연관된 기준 모호성을 해명하는 것을 포함하며,

    상기 적어도 하나의 프로세서는 상기 하나 또는 그 이상의 판정을 하기에 앞서 상기 수신된 멀티모드 입력 데이터를 하나 또는 그 이상의 이벤트로 추상화하도록 더 구성된 것인 멀티모드 대화식 컴퓨팅 시스템.

  6. 멀티모드 대화식 컴퓨팅 시스템에 있어서,

    상기 시스템은 사용자 인터페이스 서브시스템, 적어도 하나의 프로세서 및 메모리를 포함하고,

    상기 사용자 인터페이스 서브시스템은 자신이 배치된 환경으로부터 멀티모드 데이터를 입력받도록 구성되고, 상기 멀티모드 데이터는 제1 모드 입력 센서와 연관된 데이터 및 적어도 제2 모드 입력 센서와 연관된 데이터를 포함하며, 상기 환경은 하나 또는 그 이상의 사용자 및 상기 멀티모드 시스템에 의해 제어 가능한 하나 또는 그 이상의 장치를 포함하고,

    상기 적어도 하나의 프로세서는 회화 관리자 모듈 또는 초점 및 기분 분류 모듈 중 적어도 하나를 포함하며, 상기 사용자 인터페이스 서브시스템과 동작적으로 결합되고,

    (i) 상기 사용자 인터페이스 서브시스템으로부터 멀티모드 입력 데이터의 적어도 일부를 수신하고,

    (ii) 상기 수신된 멀티모드 입력 데이터의 적어도 일부에 기초하여 상기 하나 또는 그 이상의 사용자 중 적어도 한 명의 의도, 초점 및 기분 중 적어도 하나를 판정하고,

    (iii) 상기 판정된 의도, 상기 판정된 초점 및 상기 판정된 기분 중 적어도 하나에 기초하여 하나 또는 그 이상의 동작을 상기 환경에서 실행시키도록

    구성되며,

    상기 메모리는 상기 적어도 하나의 프로세서에 동작적으로 결합되고, 후속 판정에서 사용할 수 있도록 상기 프로세서에 의해 내려진 상기 의도, 초점 및 기분 판정과 연관된 결과의 적어도 일부를 저장하고,

    상기 의도 판정은, 상기 수신된 멀티모드 데이터의 적어도 일부에 기초하여, 상기 환경의 상기 하나 또는 그 이상의 사용자 및 상기 하나 또는 그 이상의 장치와 연관된 기준 모호성을 해명하는 것을 포함하며,

    상기 적어도 하나의 프로세서는 상기 하나 또는 그 이상의 판정을 하기에 앞서 상기 수신된 멀티모드 입력 데이터에 대한 하나 또는 그 이상의 인식 작업을 수행하도록 더 구성된 것인 멀티모드 대화식 컴퓨팅 시스템.

  7. 멀티모드 대화식 컴퓨팅 시스템에 있어서,

    상기 시스템은 사용자 인터페이스 서브시스템, 입/출력 관리자 모듈, 하나 또는 그 이상의 인식 엔진, 회화 관리자 모듈, 초점 및 기분 분류 모듈 및 문맥 스택 메모리를 포함하고,

    상기 사용자 인터페이스 서브시스템은 자신이 배치된 환경으로부터 멀티모드 데이터를 입력받도록 구성되고, 상기 멀티모드 데이터는 제1 모드 입력 센서와 연관된 데이터 및 적어도 제2 모드 입력 센서와 연관된 데이터를 포함하며, 상기 환경은 하나 또는 그 이상의 사용자 및 상기 멀티모드 시스템에 의해 제어 가능한 하나 또는 그 이상의 장치를 포함하고,

    상기 입/출력 관리자 모듈은 상기 사용자 인터페이스 서브시스템에 동작적으로 결합되고, 상기 멀티모드 입력 데이터를 하나 또는 그 이상의 이벤트로 추상화하도록 구성되며,

    상기 하나 또는 그 이상의 인식 엔진은 상기 입/출력 관리자 모듈에 동작적으로 결합되고, 필요한 경우 상기 추상화된 멀티모드 입력 데이터에 대한 하나 또는 그 이상의 인식 작업을 수행하도록 구성되며,

    상기 회화 관리자 모듈은 상기 하나 또는 그 이상의 인식 엔진 및 상기 입/출력 관리자 모듈에 동작적으로 결합되고,

    (i) 상기 추상화된 멀티모드 입력 데이터의 일부 및 필요한 경우 상기 인식된 멀티모드 입력 데이터를 수신하고,

    (ii) 상기 수신된 멀티모드 입력 데이터의 적어도 일부에 기초하여 상기 하나 또는 그 이상의 사용자 중 적어도 한 명의 의도를 판정하며,

    (iii) 상기 판정된 의도에 기초하여 하나 또는 그 이상의 동작을 상기 환경에서 실행시키도록

    구성되며,

    상기 초점 및 기분 분류 모듈은 상기 하나 또는 그 이상의 인식 엔진 및 상기 입/출력 관리자 모듈에 동작적으로 결합되고,

    (i) 상기 추상화된 멀티모드 입력 데이터의 일부 및 필요한 경우 상기 인식된 멀티모드 입력 데이터를 수신하고,

    (ii) 상기 수신된 멀티모드 입력 데이터의 적어도 일부에 기초하여 상기 하나 또는 그 이상의 사용자 중 적어도 한 명의 초점 및 기분 중 적어도 하나를 판정하며,

    (iii) 상기 초점 및 기분 중 적어도 하나에 기초하여 하나 또는 그 이상의 동작을 상기 환경에서 실행시키도록

    구성되며,

    상기 문맥 스택 메모리는 상기 회화 관리자 모듈, 상기 하나 또는 그 이상의 인식 엔진 및 상기 초점 및 기분 분류 모듈에 동작적으로 결합되고, 후속 판정에서 사용할 수 있도록 상기 회화 관리자 및 상기 분류 모듈에 의해 내려진 상기 의도, 초점 및 기분 판정과 연관된 결과의 적어도 일부를 저장하고,

    상기 의도 판정은, 상기 수신된 멀티모드 데이터의 적어도 일부에 기초하여, 상기 환경의 상기 하나 또는 그 이상의 사용자 및 상기 하나 또는 그 이상의 장치와 연관된 기준 모호성을 해명하는 것을 포함하는 것인 멀티모드 대화식 컴퓨팅 시스템.

  8. 컴퓨터 기반의 대화식 컴퓨팅 방법에 있어서,

    하나 또는 그 이상의 사용자 및 하나 또는 그 이상의 제어 가능한 장치를 포함하는 환경으로부터 멀티모드 데이터(제1 모드 입력 센서와 연관된 데이터 및 적어도 제2 모드 입력 센서와 연관된 데이터를 포함)를 획득하는 단계와,

    회화 관리자 모듈 또는 초점 및 기분 분류 모듈 중 적어도 하나를 포함하는 프로세서에 의해, 상기 획득된 멀티모드 입력 데이터의 적어도 일부에 기초하여 상기 적어도 하나 또는 그 이상의 사용자 중 적어도 한 명의 의도, 초점 및 기분을 판정하는 능력을 제공하는 단계와,

    상기 판정된 의도, 상기 판정된 초점 및 상기 판정된 기분 중 적어도 하나에 기초하여 하나 또는 그 이상의 동작을 상기 환경에서 실행시키는 단계와,

    후속 판정에서 사용할 수 있도록 상기 의도, 초점 및 기분 판정과 연관된 결과의 적어도 일부를 저장하는 단계를 포함하고,

    상기 의도 판정은, 상기 수신된 멀티모드 데이터의 적어도 일부에 기초하여, 상기 환경의 상기 하나 또는 그 이상의 사용자 및 상기 하나 또는 그 이상의 장치와 연관된 기준 모호성을 해명하는 것을 포함하는 것인 컴퓨터 기반의 대화식 컴퓨팅 방법.

  9. 컴퓨터 기반의 대화식 컴퓨팅 방법에 있어서,

    하나 또는 그 이상의 사용자 및 하나 또는 그 이상의 제어 가능한 장치를 포함하는 환경으로부터 멀티모드 데이터(제1 모드 입력 센서와 연관된 데이터 및 적어도 제2 모드 입력 센서와 연관된 데이터를 포함)를 획득하는 단계와,

    회화 관리자 모듈 또는 초점 및 기분 분류 모듈 중 적어도 하나를 포함하는 프로세서에 의해, 상기 획득된 멀티모드 입력 데이터의 적어도 일부에 기초하여 상기 적어도 하나 또는 그 이상의 사용자 중 적어도 한 명의 의도, 초점 및 기분 중 적어도 하나를 판정하는 단계와,

    상기 판정된 의도, 상기 판정된 초점 및 상기 판정된 기분 중 적어도 하나에 기초하여 하나 또는 그 이상의 동작을 상기 환경에서 실행시키는 단계와,

    후속 판정에서 사용할 수 있도록 상기 의도, 초점 및 기분 판정과 연관된 결과의 적어도 일부를 저장하는 단계를 포함하고,

    상기 의도 판정은, 상기 수신된 멀티모드 데이터의 적어도 일부에 기초하여, 상기 환경의 상기 하나 또는 그 이상의 사용자 및 상기 하나 또는 그 이상의 장치와 연관된 기준 모호성을 해명하는 것을 포함하며,

    상기 환경에서 하나 또는 그 이상의 동작을 실행시키는 단계는, 상기 환경의 상기 하나 또는 그 이상의 장치가 상기 하나 또는 그 이상의 사용자의 상기 판정된 의도, 초점 및 기분 중 적어도 하나를 충족시키도록 제어하는 단계를 포함하는 것인 컴퓨터 기반의 대화식 컴퓨팅 방법.

  10. 컴퓨터 기반의 대화식 컴퓨팅 방법에 있어서,

    하나 또는 그 이상의 사용자 및 하나 또는 그 이상의 제어 가능한 장치를 포함하는 환경으로부터 멀티모드 데이터(제1 모드 입력 센서와 연관된 데이터 및 적어도 제2 모드 입력 센서와 연관된 데이터를 포함)를 획득하는 단계와,

    회화 관리자 모듈 또는 초점 및 기분 분류 모듈 중 적어도 하나를 포함하는 프로세서에 의해, 상기 획득된 멀티모드 입력 데이터의 적어도 일부에 기초하여 상기 적어도 하나 또는 그 이상의 사용자 중 적어도 한 명의 의도, 초점 및 기분 중 적어도 하나를 판정하는 단계와,

    상기 판정된 의도, 상기 판정된 초점 및 상기 판정된 기분 중 적어도 하나에 기초하여 하나 또는 그 이상의 동작을 상기 환경에서 실행시키는 단계와,

    후속 판정에서 사용할 수 있도록 상기 의도, 초점 및 기분 판정과 연관된 결과의 적어도 일부를 저장하는 단계를 포함하고,

    상기 의도 판정은, 상기 수신된 멀티모드 데이터의 적어도 일부에 기초하여, 상기 환경의 상기 하나 또는 그 이상의 사용자 및 상기 하나 또는 그 이상의 장치와 연관된 기준 모호성을 해명하는 것을 포함하며,

    상기 환경에서 하나 또는 그 이상의 동작을 실행시키는 단계는, 상기 환경의 상기 하나 또는 그 이상의 장치가 상기 판정 중 적어도 하나를 내리는 데 도움이 되는 추가적인 사용자 입력을 요청하도록 제어하는 단계를 포함하는 것인 컴퓨터 기반의 대화식 컴퓨팅 방법.

  11. 컴퓨터 기반의 대화식 컴퓨팅 방법에 있어서,

    하나 또는 그 이상의 사용자 및 하나 또는 그 이상의 제어 가능한 장치를 포함하는 환경으로부터 멀티모드 데이터(제1 모드 입력 센서와 연관된 데이터 및 적어도 제2 모드 입력 센서와 연관된 데이터를 포함)를 획득하는 단계와,

    회화 관리자 모듈 또는 초점 및 기분 분류 모듈 중 적어도 하나를 포함하는 프로세서에 의해, 상기 획득된 멀티모드 입력 데이터의 적어도 일부에 기초하여 상기 적어도 하나 또는 그 이상의 사용자 중 적어도 한 명의 의도, 초점 및 기분 중 적어도 하나를 판정하는 단계와,

    상기 판정된 의도, 상기 판정된 초점 및 상기 판정된 기분 중 적어도 하나에 기초하여 하나 또는 그 이상의 동작을 상기 환경에서 실행시키는 단계와,

    후속 판정에서 사용할 수 있도록 상기 의도, 초점 및 기분 판정과 연관된 결과의 적어도 일부를 저장하는 단계를 포함하고,

    상기 의도 판정은, 상기 수신된 멀티모드 데이터의 적어도 일부에 기초하여, 상기 환경의 상기 하나 또는 그 이상의 사용자 및 상기 하나 또는 그 이상의 장치와 연관된 기준 모호성을 해명하는 것을 포함하며,

    상기 하나 또는 그 이상의 동작을 실행시키는 단계는, 상기 시스템이 이전의 입력으로부터 파악한 것을 추가적으로 완성하거나, 수정하거나 또는 모호성을 해소하는 것 중 적어도 하나의 처리를 개시하는 단계를 포함하는 것인 컴퓨터 기반의 대화식 컴퓨팅 방법.

  12. 컴퓨터 기반의 대화식 컴퓨팅 방법에 있어서,

    하나 또는 그 이상의 사용자 및 하나 또는 그 이상의 제어 가능한 장치를 포함하는 환경으로부터 멀티모드 데이터(제1 모드 입력 센서와 연관된 데이터 및 적어도 제2 모드 입력 센서와 연관된 데이터를 포함)를 획득하는 단계와,

    회화 관리자 모듈 또는 초점 및 기분 분류 모듈 중 적어도 하나를 포함하는 프로세서에 의해, 상기 획득된 멀티모드 입력 데이터의 적어도 일부에 기초하여 상기 적어도 하나 또는 그 이상의 사용자 중 적어도 한 명의 의도, 초점 및 기분 중 적어도 하나를 판정하는 단계와,

    상기 판정된 의도, 상기 판정된 초점 및 상기 판정된 기분 중 적어도 하나에 기초하여 하나 또는 그 이상의 동작을 상기 환경에서 실행시키는 단계와,

    후속 판정에서 사용할 수 있도록 상기 의도, 초점 및 기분 판정과 연관된 결과의 적어도 일부를 저장하는 단계를 포함하고,

    상기 하나 또는 그 이상의 판정을 하기에 앞서 상기 수신된 멀티모드 입력 데이터를 하나 또는 그 이상의 이벤트로 추상화하는 단계를 더 포함하며,

    상기 의도 판정은, 상기 수신된 멀티모드 데이터의 적어도 일부에 기초하여, 상기 환경의 상기 하나 또는 그 이상의 사용자 및 상기 하나 또는 그 이상의 장치와 연관된 기준 모호성을 해명하는 것을 포함하는 것인 컴퓨터 기반의 대화식 컴퓨팅 방법.

  13. 컴퓨터 기반의 대화식 컴퓨팅 방법에 있어서,

    하나 또는 그 이상의 사용자 및 하나 또는 그 이상의 제어 가능한 장치를 포함하는 환경으로부터 멀티모드 데이터(제1 모드 입력 센서와 연관된 데이터 및 적어도 제2 모드 입력 센서와 연관된 데이터를 포함)를 획득하는 단계와,

    회화 관리자 모듈 또는 초점 및 기분 분류 모듈 중 적어도 하나를 포함하는 프로세서에 의해, 상기 획득된 멀티모드 입력 데이터의 적어도 일부에 기초하여 상기 적어도 하나 또는 그 이상의 사용자 중 적어도 한 명의 의도, 초점 및 기분 중 적어도 하나를 판정하는 단계와,

    상기 판정된 의도, 상기 판정된 초점 및 상기 판정된 기분 중 적어도 하나에 기초하여 하나 또는 그 이상의 동작을 상기 환경에서 실행시키는 단계와,

    후속 판정에서 사용할 수 있도록 상기 의도, 초점 및 기분 판정과 연관된 결과의 적어도 일부를 저장하는 단계와,

    상기 하나 또는 그 이상의 판정을 하기에 앞서 상기 수신된 멀티모드 입력 데이터에 대한 하나 또는 그 이상의 인식 작업을 수행하는 단계를 포함하고,

    상기 의도 판정은, 상기 수신된 멀티모드 데이터의 적어도 일부에 기초하여, 상기 환경의 상기 하나 또는 그 이상의 사용자 및 상기 하나 또는 그 이상의 장치와 연관된 기준 모호성을 해명하는 것을 포함하는 것인 컴퓨터 기반의 대화식 컴퓨팅 방법.

  14. 대화식 컴퓨팅 수행을 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체에 있어서,

    상기 기록 매체에는,

    하나 또는 그 이상의 사용자 및 하나 또는 그 이상의 제어 가능한 장치를 포함하는 환경으로부터 멀티모드 데이터(제1 모드 입력 센서와 연관된 데이터 및 적어도 제2 모드 입력 센서와 연관된 데이터를 포함)를 획득하는 단계와,

    회화 관리자 모듈 또는 초점 및 기분 분류 모듈 중 적어도 하나를 포함하는 프로세서에 의해, 상기 획득된 멀티모드 입력 데이터의 적어도 일부에 기초하여 상기 적어도 하나 또는 그 이상의 사용자 중 적어도 한 명의 의도, 초점 및 기분을 판정하는 능력을 제공하는 단계와,

    상기 판정된 의도, 상기 판정된 초점 및 상기 판정된 기분 중 적어도 하나에 기초하여 하나 또는 그 이상의 동작을 상기 환경에서 실행시키는 단계와,

    후속 판정에서 사용할 수 있도록 상기 의도, 초점 및 기분 판정과 연관된 결과의 적어도 일부를 저장하는 단계

    를 실행시키기 위한 하나 또는 그 이상의 프로그램이 기록되어 있고,

    상기 의도 판정은, 상기 수신된 멀티모드 데이터의 적어도 일부에 기초하여, 상기 환경의 상기 하나 또는 그 이상의 사용자 및 상기 하나 또는 그 이상의 장치와 연관된 기준 모호성을 해명하는 것을 포함하는 것인 컴퓨터 판독 가능한 기록 매체.

  15. 멀티모드 대화식 컴퓨팅 시스템에 있어서,

    상기 시스템은 사용자 인터페이스 서브시스템, 적어도 하나의 프로세서 및 메모리를 포함하고,

    상기 사용자 인터페이스 서브시스템은 자신이 배치된 환경으로부터 멀티모드 데이터를 입력받도록 구성되고, 상기 멀티모드 데이터는 적어도 오디오 기반의 데이터 및 이미지 기반의 데이터를 포함하며, 상기 환경은 하나 또는 그 이상의 사용자 및 상기 멀티모드 시스템에 의해 제어 가능한 하나 또는 그 이상의 장치를 포함하고,

    상기 적어도 하나의 프로세서는 회화 관리자 모듈 또는 초점 및 기분 분류 모듈 중 적어도 하나를 포함하며, 상기 사용자 인터페이스 서브시스템과 동작적으로 결합되고,

    (i) 상기 사용자 인터페이스 서브시스템으로부터 멀티모드 입력 데이터의 적어도 일부를 수신하고,

    (ii) 상기 수신된 멀티모드 입력 데이터의 적어도 일부에 기초하여 상기 하나 또는 그 이상의 사용자 중 적어도 한 명의 의도, 초점 및 기분을 판정하는 것이 가능하며,

    (iii) 상기 판정된 의도, 상기 판정된 초점 및 상기 판정된 기분 중 적어도 하나에 기초하여 하나 또는 그 이상의 동작을 상기 환경에서 실행시키도록

    구성되며,

    상기 메모리는 상기 적어도 하나의 프로세서에 동작적으로 결합되고, 후속 판정에서 사용할 수 있도록 상기 프로세서에 의해 내려진 상기 의도, 초점 및 기분 판정과 연관된 결과의 적어도 일부를 저장하고,

    상기 의도 판정은, 상기 수신된 멀티모드 데이터의 적어도 일부에 기초하여, 상기 환경의 상기 하나 또는 그 이상의 사용자 및 상기 하나 또는 그 이상의 장치와 연관된 기준 모호성을 해명하는 것을 포함하는 것인 멀티모드 대화식 컴퓨팅 시스템.

  16. 제19항에 있어서, 상기 사용자 인터페이스 서브시스템은, 상기 이미지 기반의 데이터를 포착하기 위해 상기 환경에 배치된 하나 또는 그 이상의 이미지 포착 장치를 포함하는 것인 멀티모드 대화식 컴퓨팅 시스템.

  17. 제22항에 있어서, 상기 이미지 기반의 데이터는 가시 파장 스펙트럼 및 비가시 파장 스펙트럼 중 적어도 하나에 속하는 것인 멀티모드 대화식 컴퓨팅 시스템.

  18. 제22항에 있어서, 상기 이미지 기반의 데이터는 비디오, 적외선 및 무선 주파수 기반의 이미지 데이터 중 적어도 하나인 것인 멀티모드 대화식 컴퓨팅 시스템.

  19. 제19항에 있어서, 상기 사용자 인터페이스 서브시스템은, 상기 오디오 기반의 데이터를 포착하기 위해 상기 환경에 배치된 하나 또는 그 이상의 오디오 포착 장치를 포함하는 것인 멀티모드 대화식 컴퓨팅 시스템.

  20. 제25항에 있어서, 상기 하나 또는 그 이상의 오디오 포착 장치는 하나 또는 그 이상의 마이크를 포함하는 것인 멀티모드 대화식 컴퓨팅 시스템.

  21. 제19항에 있어서, 상기 사용자 인터페이스 서브시스템은, GUI(Graphical User Interface) 기반의 데이터를 포착하기 위해 상기 환경에 배치된 하나 또는 그 이상의 GUI 기반의 입력 장치를 포함하는 것인 멀티모드 대화식 컴퓨팅 시스템.

  22. 제19항에 있어서, 상기 사용자 인터페이스 서브시스템은, 필적 기반의 데이터를 포착하기 위해 상기 환경에 배치된 스타일러스(stylus) 기반의 입력 장치를 포함하는 것인 멀티모드 대화식 컴퓨팅 시스템.

  23. 멀티모드 대화식 컴퓨팅 시스템에 있어서,

    상기 시스템은 사용자 인터페이스 서브시스템, 적어도 하나의 프로세서 및 메모리를 포함하고,

    상기 사용자 인터페이스 서브시스템은 자신이 배치된 환경으로부터 멀티모드 데이터를 입력받도록 구성되고, 상기 멀티모드 데이터는 적어도 오디오 기반의 데이터 및 이미지 기반의 데이터를 포함하며, 상기 환경은 하나 또는 그 이상의 사용자 및 상기 멀티모드 시스템에 의해 제어 가능한 하나 또는 그 이상의 장치를 포함하고,

    상기 적어도 하나의 프로세서는 회화 관리자 모듈 또는 초점 및 기분 분류 모듈 중 적어도 하나를 포함하며, 상기 사용자 인터페이스 서브시스템과 동작적으로 결합되고,

    (i) 상기 사용자 인터페이스 서브시스템으로부터 멀티모드 입력 데이터의 적어도 일부를 수신하고,

    (ii) 상기 수신된 멀티모드 입력 데이터의 적어도 일부에 기초하여 상기 하나 또는 그 이상의 사용자 중 적어도 한 명의 의도, 초점 및 기분 중 적어도 하나를 판정하며,

    (iii) 상기 판정된 의도, 상기 판정된 초점 및 상기 판정된 기분 중 적어도 하나에 기초하여 하나 또는 그 이상의 동작을 상기 환경에서 실행시키도록

    구성되며,

    상기 메모리는 상기 적어도 하나의 프로세서에 동작적으로 결합되고, 후속 판정에서 사용할 수 있도록 상기 프로세서에 의해 내려진 상기 의도, 초점 및 기분 판정과 연관된 결과의 적어도 일부를 저장하고,

    상기 의도 판정은, 상기 수신된 멀티모드 데이터의 적어도 일부에 기초하여, 상기 환경의 상기 하나 또는 그 이상의 사용자 및 상기 하나 또는 그 이상의 장치와 연관된 기준 모호성을 해명하는 것을 포함하며,

    상기 환경에서 상기 하나 또는 그 이상의 동작 실행은, 상기 환경의 상기 하나 또는 그 이상의 장치가 상기 하나 또는 그 이상의 사용자의 상기 판정된 의도, 초점 및 기분 중 적어도 하나를 충족시키도록 제어하는 것을 포함하는 것인 멀티모드 대화식 컴퓨팅 시스템.

  24. 멀티모드 대화식 컴퓨팅 시스템에 있어서,

    상기 시스템은 사용자 인터페이스 서브시스템, 적어도 하나의 프로세서 및 메모리를 포함하고,

    상기 사용자 인터페이스 서브시스템은 자신이 배치된 환경으로부터 멀티모드 데이터를 입력받도록 구성되고, 상기 멀티모드 데이터는 적어도 오디오 기반의 데이터 및 이미지 기반의 데이터를 포함하며, 상기 환경은 하나 또는 그 이상의 사용자 및 상기 멀티모드 시스템에 의해 제어 가능한 하나 또는 그 이상의 장치를 포함하고,

    상기 적어도 하나의 프로세서는 회화 관리자 모듈 또는 초점 및 기분 분류 모듈 중 적어도 하나를 포함하며, 상기 사용자 인터페이스 서브시스템과 동작적으로 결합되고,

    (i) 상기 사용자 인터페이스 서브시스템으로부터 멀티모드 입력 데이터의 적어도 일부를 수신하고,

    (ii) 상기 수신된 멀티모드 입력 데이터의 적어도 일부에 기초하여 상기 하나 또는 그 이상의 사용자 중 적어도 한 명의 의도, 초점 및 기분 중 적어도 하나를 판정하며,

    (iii) 상기 판정된 의도, 상기 판정된 초점 및 상기 판정된 기분 중 적어도 하나에 기초하여 하나 또는 그 이상의 동작을 상기 환경에서 실행시키도록

    구성되며,

    상기 메모리는 상기 적어도 하나의 프로세서에 동작적으로 결합되고, 후속 판정에서 사용할 수 있도록 상기 프로세서에 의해 내려진 상기 의도, 초점 및 기분 판정과 연관된 결과의 적어도 일부를 저장하고,

    상기 의도 판정은, 상기 수신된 멀티모드 데이터의 적어도 일부에 기초하여, 상기 환경의 상기 하나 또는 그 이상의 사용자 및 상기 하나 또는 그 이상의 장치와 연관된 기준 모호성을 해명하는 것을 포함하며,

    상기 환경에서 상기 하나 또는 그 이상의 동작 실행은, 상기 환경의 상기 하나 또는 그 이상의 장치가 상기 판정 중 적어도 하나를 내리는 데 도움이 되는 추가적인 사용자 입력을 요청하도록 제어하는 것을 포함하는 것인 멀티모드 대화식 컴퓨팅 시스템.

  25. 멀티모드 대화식 컴퓨팅 시스템에 있어서,

    상기 시스템은 사용자 인터페이스 서브시스템, 적어도 하나의 프로세서 및 메모리를 포함하고,

    상기 사용자 인터페이스 서브시스템은 자신이 배치된 환경으로부터 멀티모드 데이터를 입력받도록 구성되고, 상기 멀티모드 데이터는 적어도 오디오 기반의 데이터 및 이미지 기반의 데이터를 포함하며, 상기 환경은 하나 또는 그 이상의 사용자 및 상기 멀티모드 시스템에 의해 제어 가능한 하나 또는 그 이상의 장치를 포함하고,

    상기 적어도 하나의 프로세서는 회화 관리자 모듈 또는 초점 및 기분 분류 모듈 중 적어도 하나를 포함하며, 상기 사용자 인터페이스 서브시스템과 동작적으로 결합되고,

    (i) 상기 사용자 인터페이스 서브시스템으로부터 멀티모드 입력 데이터의 적어도 일부를 수신하고,

    (ii) 상기 수신된 멀티모드 입력 데이터의 적어도 일부에 기초하여 상기 하나 또는 그 이상의 사용자 중 적어도 한 명의 의도, 초점 및 기분 중 적어도 하나를 판정하며,

    (iii) 상기 판정된 의도, 상기 판정된 초점 및 상기 판정된 기분 중 적어도 하나에 기초하여 하나 또는 그 이상의 동작을 상기 환경에서 실행시키도록

    구성되며,

    상기 메모리는 상기 적어도 하나의 프로세서에 동작적으로 결합되고, 후속 판정에서 사용할 수 있도록 상기 프로세서에 의해 내려진 상기 의도, 초점 및 기분 판정과 연관된 결과의 적어도 일부를 저장하고,

    상기 의도 판정은, 상기 수신된 멀티모드 데이터의 적어도 일부에 기초하여, 상기 환경의 상기 하나 또는 그 이상의 사용자 및 상기 하나 또는 그 이상의 장치와 연관된 기준 모호성을 해명하는 것을 포함하며,

    상기 적어도 하나의 프로세서는 상기 하나 또는 그 이상의 판정을 하기에 앞서 상기 수신된 멀티모드 입력 데이터를 하나 또는 그 이상의 이벤트로 추상화하도록 더 구성된 것인 멀티모드 대화식 컴퓨팅 시스템.

  26. 멀티모드 대화식 컴퓨팅 시스템에 있어서,

    상기 시스템은 사용자 인터페이스 서브시스템, 적어도 하나의 프로세서 및 메모리를 포함하고,

    상기 사용자 인터페이스 서브시스템은 자신이 배치된 환경으로부터 멀티모드 데이터를 입력받도록 구성되고, 상기 멀티모드 데이터는 적어도 오디오 기반의 데이터 및 이미지 기반의 데이터를 포함하며, 상기 환경은 하나 또는 그 이상의 사용자 및 상기 멀티모드 시스템에 의해 제어 가능한 하나 또는 그 이상의 장치를 포함하고,

    상기 적어도 하나의 프로세서는 회화 관리자 모듈 또는 초점 및 기분 분류 모듈 중 적어도 하나를 포함하며, 상기 사용자 인터페이스 서브시스템과 동작적으로 결합되고,

    (i) 상기 사용자 인터페이스 서브시스템으로부터 멀티모드 입력 데이터의 적어도 일부를 수신하고,

    (ii) 상기 수신된 멀티모드 입력 데이터의 적어도 일부에 기초하여 상기 하나 또는 그 이상의 사용자 중 적어도 한 명의 의도, 초점 및 기분 중 적어도 하나를 판정하며,

    (iii) 상기 판정된 의도, 상기 판정된 초점 및 상기 판정된 기분 중 적어도 하나에 기초하여 하나 또는 그 이상의 동작을 상기 환경에서 실행시키도록

    구성되며,

    상기 메모리는 상기 적어도 하나의 프로세서에 동작적으로 결합되고, 후속 판정에서 사용할 수 있도록 상기 프로세서에 의해 내려진 상기 의도, 초점 및 기분 판정과 연관된 결과의 적어도 일부를 저장하고,

    상기 의도 판정은, 상기 수신된 멀티모드 데이터의 적어도 일부에 기초하여, 상기 환경의 상기 하나 또는 그 이상의 사용자 및 상기 하나 또는 그 이상의 장치와 연관된 기준 모호성을 해명하는 것을 포함하며,

    상기 적어도 하나의 프로세서는 상기 하나 또는 그 이상의 판정을 하기에 앞서 상기 수신된 멀티모드 입력 데이터에 대한 하나 또는 그 이상의 인식 작업을 수행하도록 더 구성된 것인 멀티모드 대화식 컴퓨팅 시스템.

  27. 제32항에 있어서, 상기 하나 또는 그 이상의 인식 작업 중 하나는 음성 인식을 포함하는 것인 멀티모드 대화식 컴퓨팅 시스템.

  28. 제32항에 있어서, 상기 하나 또는 그 이상의 인식 작업 중 하나는 화자 인식을 포함하는 것인 멀티모드 대화식 컴퓨팅 시스템.

  29. 제32항에 있어서, 상기 하나 또는 그 이상의 인식 작업 중 하나는 제스처 인식을 포함하는 것인 멀티모드 대화식 컴퓨팅 시스템.

  30. 멀티모드 대화식 컴퓨팅 시스템에 있어서,

    상기 시스템은 사용자 인터페이스 서브시스템, 적어도 하나의 프로세서 및 메모리를 포함하고,

    상기 사용자 인터페이스 서브시스템은 자신이 배치된 환경으로부터 멀티모드 데이터를 입력받도록 구성되고, 상기 멀티모드 데이터는 적어도 오디오 기반의 데이터 및 이미지 기반의 데이터를 포함하며, 상기 환경은 하나 또는 그 이상의 사용자 및 상기 멀티모드 시스템에 의해 제어 가능한 하나 또는 그 이상의 장치를 포함하고,

    상기 적어도 하나의 프로세서는 회화 관리자 모듈 또는 초점 및 기분 분류 모듈 중 적어도 하나를 포함하며, 상기 사용자 인터페이스 서브시스템과 동작적으로 결합되고,

    (i) 상기 사용자 인터페이스 서브시스템으로부터 멀티모드 입력 데이터의 적어도 일부를 수신하고,

    (ii) 상기 수신된 멀티모드 입력 데이터의 적어도 일부에 기초하여 상기 하나 또는 그 이상의 사용자 중 적어도 한 명의 의도, 초점 및 기분 중 적어도 하나를 판정하며,

    (iii) 상기 판정된 의도, 상기 판정된 초점 및 상기 판정된 기분 중 적어도 하나에 기초하여 하나 또는 그 이상의 동작을 상기 환경에서 실행시키도록

    구성되며,

    상기 메모리는 상기 적어도 하나의 프로세서에 동작적으로 결합되고, 후속 판정에서 사용할 수 있도록 상기 프로세서에 의해 내려진 상기 의도, 초점 및 기분 판정과 연관된 결과의 적어도 일부를 저장하고,

    상기 의도 판정은, 상기 수신된 멀티모드 데이터의 적어도 일부에 기초하여, 상기 환경의 상기 하나 또는 그 이상의 사용자 및 상기 하나 또는 그 이상의 장치와 연관된 기준 모호성을 해명하는 것을 포함하며,

    상기 하나 또는 그 이상의 동작 실행은, 상기 시스템이 이전의 입력으로부터 파악한 것을 추가적으로 완성하거나, 수정하거나 또는 모호성을 해소하는 것 중 적어도 하나의 처리를 개시하는 것을 포함하는 것인 멀티모드 대화식 컴퓨팅 시스템.

  31. 멀티모드 대화식 컴퓨팅 시스템에 있어서, 상기 시스템은 사용자 인터페이스 서브시스템, 입/출력 관리자 모듈, 하나 또는 그 이상의 인식 엔진, 회화 관리자 모듈, 초점 및 기분 분류 모듈 및 문맥 스택 메모리를 포함하고,

    상기 사용자 인터페이스 서브시스템은 자신이 배치된 환경으로부터 멀티모드 데이터를 입력받도록 구성되고, 상기 멀티모드 데이터는 적어도 오디오 기반의 데이터 및 이미지 기반의 데이터를 포함하며, 상기 환경은 하나 또는 그 이상의 사용자 및 상기 멀티모드 시스템에 의해 제어 가능한 하나 또는 그 이상의 장치를 포함하고,

    상기 입/출력 관리자 모듈은 상기 사용자 인터페이스 서브시스템에 동작적으로 결합되고, 상기 멀티모드 입력 데이터를 하나 또는 그 이상의 이벤트로 추상화하도록 구성되며,

    상기 하나 또는 그 이상의 인식 엔진은 상기 입/출력 관리자 모듈에 동작적으로 결합되고, 필요한 경우 상기 추상화된 멀티모드 입력 데이터에 대한 하나 또는 그 이상의 인식 작업을 수행하도록 구성되며,

    상기 회화 관리자 모듈은 상기 하나 또는 그 이상의 인식 엔진 및 상기 입/출력 관리자 모듈에 동작적으로 결합되고,

    (i) 상기 추상화된 멀티모드 입력 데이터의 일부 및 필요한 경우 상기 인식된 멀티모드 입력 데이터를 수신하고,

    (ii) 상기 수신된 멀티모드 입력 데이터의 적어도 일부에 기초하여 상기 하나 또는 그 이상의 사용자 중 적어도 한 명의 의도를 판정하며,

    (iii) 상기 판정된 의도에 기초하여 하나 또는 그 이상의 동작을 상기 환경에서 실행시키도록

    구성되며,

    상기 초점 및 기분 분류 모듈은 상기 하나 또는 그 이상의 인식 엔진 및 상기 입/출력 관리자 모듈에 동작적으로 결합되고,

    (i) 상기 추상화된 멀티모드 입력 데이터의 일부 및 필요한 경우 상기 인식된 멀티모드 입력 데이터를 수신하고,

    (ii) 상기 수신된 멀티모드 입력 데이터의 적어도 일부에 기초하여 상기 하나 또는 그 이상의 사용자 중 적어도 한 명의 초점 및 기분 중 적어도 하나를 판정하며,

    (iii) 상기 초점 및 기분 중 적어도 하나에 기초하여 하나 또는 그 이상의 동작을 상기 환경에서 실행시키도록

    구성되며,

    상기 문맥 스택 메모리는 상기 회화 관리자 모듈, 상기 하나 또는 그 이상의 인식 엔진 및 상기 초점 및 기분 분류 모듈에 동작적으로 결합되고, 후속 판정에서 사용할 수 있도록 상기 회화 관리자 및 상기 분류 모듈에 의해 내려진 상기 의도, 초점 및 기분 판정과 연관된 결과의 적어도 일부를 저장하고,

    상기 의도 판정은, 상기 수신된 멀티모드 데이터의 적어도 일부에 기초하여, 상기 환경의 상기 하나 또는 그 이상의 사용자 및 상기 하나 또는 그 이상의 장치와 연관된 기준 모호성을 해명하는 것을 포함하는 것인 멀티모드 대화식 컴퓨팅 시스템.

  32. 컴퓨터 기반의 대화식 컴퓨팅 방법에 있어서,

    하나 또는 그 이상의 사용자 및 하나 또는 그 이상의 제어 가능한 장치를 포함하는 환경으로부터 멀티모드 데이터(적어도 오디오 기반의 데이터 및 이미지 기반의 데이터를 포함)를 획득하는 단계와,

    회화 관리자 모듈 또는 초점 및 기분 분류 모듈 중 적어도 하나를 포함하는 프로세서에 의해, 상기 획득된 멀티모드 입력 데이터의 적어도 일부에 기초하여 상기 적어도 하나 또는 그 이상의 사용자 중 적어도 한 명의 의도, 초점 및 기분을 판정하는 능력을 제공하는 단계와,

    상기 판정된 의도, 상기 판정된 초점 및 상기 판정된 기분 중 적어도 하나에 기초하여 하나 또는 그 이상의 동작을 상기 환경에서 실행시키는 단계와,

    후속 판정에서 사용할 수 있도록 상기 의도, 초점 및 기분 판정과 연관된 결과의 적어도 일부를 저장하는 단계를 포함하고,

    상기 의도 판정은, 상기 수신된 멀티모드 데이터의 적어도 일부에 기초하여, 상기 환경의 상기 하나 또는 그 이상의 사용자 및 상기 하나 또는 그 이상의 장치와 연관된 기준 모호성을 해명하는 것을 포함하는 것인 컴퓨터 기반의 대화식 컴퓨팅 방법.

KR1020037010176A 2001-02-05 2002-01-31 다중모드 입력을 이용한 다중모드 초점 탐지, 기준 모호성해명 및 기분 분류를 위한 시스템 및 방법 KR100586767B1 (ko)

Priority Applications (3)

Application NumberPriority DateFiling DateTitle
US09/776,654 US6964023B2 (en) 2001-02-05 2001-02-05 System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input
US09/776,654 2001-02-05
PCT/US2002/002853 WO2002063599A1 (en) 2001-02-05 2002-01-31 System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input

Publications (2)

Publication NumberPublication Date
KR20030077012A KR20030077012A (ko) 2003-09-29
KR100586767B1 true KR100586767B1 (ko) 2006-06-08

Family

ID=25108023

Family Applications (1)

Application NumberTitlePriority DateFiling Date
KR1020037010176A KR100586767B1 (ko) 2001-02-05 2002-01-31 다중모드 입력을 이용한 다중모드 초점 탐지, 기준 모호성해명 및 기분 분류를 위한 시스템 및 방법

Country Status (8)

CountryLink
US (1) US6964023B2 (ko)
EP (1) EP1358650A4 (ko)
JP (1) JP2004538543A (ko)
KR (1) KR100586767B1 (ko)
CN (1) CN1310207C (ko)
CA (1) CA2437164A1 (ko)
HK (1) HK1063371A1 (ko)
WO (1) WO2002063599A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication numberPriority datePublication dateAssigneeTitle
WO2014181946A1 (ko) * 2013-05-08 2014-11-13 주식회사 아몬드 소프트 빅 데이터 추출 시스템 및 방법

Families Citing this family (646)

* Cited by examiner, † Cited by third party
Publication numberPriority datePublication dateAssigneeTitle
US6775264B1 (en) 1997-03-03 2004-08-10 Webley Systems, Inc. Computer, internet and telecommunications based network
AU6630800A (en) 1999-08-13 2001-03-13 Pixo, Inc. Methods and apparatuses for display and traversing of links in page character array
US6721705B2 (en) 2000-02-04 2004-04-13 Webley Systems, Inc. Robust voice browser system and voice activated device controller
US7516190B2 (en) 2000-02-04 2009-04-07 Parus Holdings, Inc. Personal voice-based information retrieval system
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US20130158367A1 (en) * 2000-06-16 2013-06-20 Bodymedia, Inc. System for monitoring and managing body weight and other physiological conditions including iterative and personalized planning, intervention and reporting capability
CA2425844A1 (en) 2000-10-16 2002-04-25 Eliza Corporation Method of and system for providing adaptive respondent training in a speech recognition application
WO2003103217A1 (en) * 2002-01-20 2003-12-11 Scientific Generics Limited Biometric authentication system
GB0113255D0 (en) * 2001-05-31 2001-07-25 Scient Generics Ltd Number generator
JP2002366166A (ja) * 2001-06-11 2002-12-20 Pioneer Electronic Corp コンテンツ提供システム及び方法、並びにそのためのコンピュータプログラム
US6934675B2 (en) * 2001-06-14 2005-08-23 Stephen C. Glinski Methods and systems for enabling speech-based internet searches
US8301503B2 (en) * 2001-07-17 2012-10-30 Incucomm, Inc. System and method for providing requested information to thin clients
WO2004019315A1 (en) * 2001-07-17 2004-03-04 Nohr Steven P System and method for finger held hardware device
US7274800B2 (en) * 2001-07-18 2007-09-25 Intel Corporation Dynamic gesture recognition from stereo sequences
US20030065505A1 (en) * 2001-08-17 2003-04-03 At&T Corp. Systems and methods for abstracting portions of information that is represented with finite-state devices
US7167832B2 (en) * 2001-10-15 2007-01-23 At&T Corp. Method for dialog management
US8195597B2 (en) * 2002-02-07 2012-06-05 Joseph Carrabis System and method for obtaining subtextual information regarding an interaction between an individual and a programmable device
US20030110038A1 (en) * 2001-10-16 2003-06-12 Rajeev Sharma Multi-modal gender classification using support vector machines (SVMs)
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US7406421B2 (en) 2001-10-26 2008-07-29 Intellisist Inc. Systems and methods for reviewing informational content in a vehicle
US8249880B2 (en) * 2002-02-14 2012-08-21 Intellisist, Inc. Real-time display of system instructions
ITTO20011035A1 (it) * 2001-10-30 2003-04-30 Loquendo Spa Metodo per la gestione di dialoghi persona-macchina ad iniziativa mista basato sull'interazione vocale.
GB2388739B (en) * 2001-11-03 2004-06-02 Dremedia Ltd Time ordered indexing of an information stream
GB2381638B (en) * 2001-11-03 2004-02-04 Dremedia Ltd Identifying audio characteristics
JP4226247B2 (ja) * 2002-01-15 2009-02-18 富士フイルム株式会社 画像処理装置
US20040205482A1 (en) * 2002-01-24 2004-10-14 International Business Machines Corporation Method and apparatus for active annotation of multimedia content
DE10210799B4 (de) * 2002-03-12 2006-04-27 Siemens Ag Anpassung einer Mensch-Maschine-Schnittstelle in Abhängigkeit eines Psychoprofils und einer momentanen Befindlichkeit eines Anwenders
US7489687B2 (en) * 2002-04-11 2009-02-10 Avaya. Inc. Emergency bandwidth allocation with an RSVP-like protocol
US7869998B1 (en) 2002-04-23 2011-01-11 At&T Intellectual Property Ii, L.P. Voice-enabled dialog system
US7209883B2 (en) * 2002-05-09 2007-04-24 Intel Corporation Factorial hidden markov model for audiovisual speech recognition
US7165029B2 (en) * 2002-05-09 2007-01-16 Intel Corporation Coupled hidden Markov model for audiovisual speech recognition
US20030212552A1 (en) * 2002-05-09 2003-11-13 Liang Lu Hong Face recognition procedure useful for audiovisual speech recognition
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7305340B1 (en) * 2002-06-05 2007-12-04 At&T Corp. System and method for configuring voice synthesis
JP4020189B2 (ja) * 2002-06-26 2007-12-12 株式会社リコー 画像処理回路
GB0215118D0 (en) * 2002-06-28 2002-08-07 Hewlett Packard Co Dynamic resource allocation in a multimodal system
US7177816B2 (en) * 2002-07-05 2007-02-13 At&T Corp. System and method of handling problematic input during context-sensitive help for multi-modal dialog systems
US7177815B2 (en) * 2002-07-05 2007-02-13 At&T Corp. System and method of context-sensitive help for multi-modal dialog systems
US7693720B2 (en) 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
US7363398B2 (en) * 2002-08-16 2008-04-22 The Board Of Trustees Of The Leland Stanford Junior University Intelligent total access system
US20040042643A1 (en) * 2002-08-28 2004-03-04 Symtron Technology, Inc. Instant face recognition system
US7788096B2 (en) * 2002-09-03 2010-08-31 Microsoft Corporation Method and apparatus for generating decision tree questions for speech processing
US20040073690A1 (en) * 2002-09-30 2004-04-15 Neil Hepworth Voice over IP endpoint call admission
US7359979B2 (en) * 2002-09-30 2008-04-15 Avaya Technology Corp. Packet prioritization and associated bandwidth and buffer management techniques for audio over IP
US8176154B2 (en) 2002-09-30 2012-05-08 Avaya Inc. Instantaneous user initiation voice quality feedback
US6925438B2 (en) * 2002-10-08 2005-08-02 Motorola, Inc. Method and apparatus for providing an animated display with translated speech
AU2003275491A1 (en) * 2002-10-09 2004-05-04 Bodymedia, Inc. Method and apparatus for auto journaling of continuous or discrete body states utilizing physiological and/or contextual parameters
US7171043B2 (en) * 2002-10-11 2007-01-30 Intel Corporation Image recognition using hidden markov models and coupled hidden markov models
US7133811B2 (en) * 2002-10-15 2006-11-07 Microsoft Corporation Staged mixture modeling
KR100580619B1 (ko) * 2002-12-11 2006-05-16 삼성전자주식회사 사용자와 에이전트 간의 대화 관리방법 및 장치
US20040113939A1 (en) * 2002-12-11 2004-06-17 Eastman Kodak Company Adaptive display system
US8645122B1 (en) 2002-12-19 2014-02-04 At&T Intellectual Property Ii, L.P. Method of handling frequently asked questions in a natural language dialog service
US7472063B2 (en) * 2002-12-19 2008-12-30 Intel Corporation Audio-visual feature fusion and support vector machine useful for continuous speech recognition
KR100506085B1 (ko) * 2002-12-28 2005-08-05 삼성전자주식회사 혀영상 처리장치 및 혀영상을 이용한 건강 모니터링장치
US7203368B2 (en) * 2003-01-06 2007-04-10 Intel Corporation Embedded bayesian network for pattern recognition
US7313561B2 (en) 2003-03-12 2007-12-25 Microsoft Corporation Model definition schema
US7275024B2 (en) * 2003-03-12 2007-09-25 Microsoft Corporation Automatic generation of a dimensional model for business analytics from an object model for online transaction processing
US7546226B1 (en) 2003-03-12 2009-06-09 Microsoft Corporation Architecture for automating analytical view of business applications
US7762665B2 (en) 2003-03-21 2010-07-27 Queen's University At Kingston Method and apparatus for communication between humans and devices
US7779114B2 (en) 2003-04-17 2010-08-17 International Business Machines Corporation Method and system for administering devices with multiple user metric spaces
US8145743B2 (en) * 2003-04-17 2012-03-27 International Business Machines Corporation Administering devices in dependence upon user metric vectors
US7669134B1 (en) 2003-05-02 2010-02-23 Apple Inc. Method and apparatus for displaying information during an instant messaging session
US7197366B2 (en) 2003-05-15 2007-03-27 International Business Machines Corporation Method and system for administering devices including an action log
US20040249637A1 (en) * 2003-06-04 2004-12-09 Aurilab, Llc Detecting repeated phrases and inference of dialogue models
US20040249825A1 (en) * 2003-06-05 2004-12-09 International Business Machines Corporation Administering devices with dynamic action lists
US20040249826A1 (en) * 2003-06-05 2004-12-09 International Business Machines Corporation Administering devices including creating a user reaction log
US7464062B2 (en) 2003-06-26 2008-12-09 International Business Machines Corporation Administering devices in dependence upon user metric vectors including generic metric spaces
US7151969B2 (en) 2003-06-26 2006-12-19 International Business Machines Corporation Administering devices in dependence upon user metric vectors with optimizing metric action lists
US7386863B2 (en) * 2003-06-26 2008-06-10 International Business Machines Corporation Administering devices in dependence upon user metric vectors with multiple users
US20050108366A1 (en) * 2003-07-02 2005-05-19 International Business Machines Corporation Administering devices with domain state objects
US7437443B2 (en) * 2003-07-02 2008-10-14 International Business Machines Corporation Administering devices with domain state objects
US20050004788A1 (en) * 2003-07-03 2005-01-06 Lee Hang Shun Raymond Multi-level confidence measures for task modeling and its application to task-oriented multi-modal dialog management
US20050050137A1 (en) * 2003-08-29 2005-03-03 International Business Machines Corporation Administering devices in dependence upon metric patterns
US7460652B2 (en) 2003-09-26 2008-12-02 At&T Intellectual Property I, L.P. VoiceXML and rule engine based switchboard for interactive voice response (IVR) services
US20050071462A1 (en) * 2003-09-30 2005-03-31 Ibm Corporation Creating user metric patterns
US20050071463A1 (en) * 2003-09-30 2005-03-31 Ibm Corporation Administering devices in dependence upon device content metadata
US6961668B2 (en) * 2003-10-23 2005-11-01 International Business Machines Corporation Evaluating test actions
US20050108429A1 (en) * 2003-10-23 2005-05-19 International Business Machines Corporation Devices in a domain
US7461143B2 (en) 2003-10-23 2008-12-02 International Business Machines Corporation Administering devices including allowed action lists
US7263511B2 (en) * 2003-10-23 2007-08-28 International Business Machines Corporation Creating user metric patterns including user notification
US7199802B2 (en) * 2003-10-24 2007-04-03 Microsoft Corporation Multiple-mode window presentation system and process
JP2005157494A (ja) * 2003-11-20 2005-06-16 Aruze Corp 会話制御装置及び会話制御方法
US7257454B2 (en) * 2003-11-21 2007-08-14 Taiwan Semiconductor Manufacturing Company, Ltd. Dynamically adjusting the distribution for dispatching lot between current and downstream tool by using expertise weighting mechanism
US7634478B2 (en) * 2003-12-02 2009-12-15 Microsoft Corporation Metadata driven intelligent data navigation
US7376565B2 (en) * 2003-12-15 2008-05-20 International Business Machines Corporation Method, system, and apparatus for monitoring security events using speech recognition
US7542971B2 (en) * 2004-02-02 2009-06-02 Fuji Xerox Co., Ltd. Systems and methods for collaborative note-taking
US20050177373A1 (en) * 2004-02-05 2005-08-11 Avaya Technology Corp. Methods and apparatus for providing context and experience sensitive help in voice applications
US7412393B1 (en) * 2004-03-01 2008-08-12 At&T Corp. Method for developing a dialog manager using modular spoken-dialog components
US7421393B1 (en) 2004-03-01 2008-09-02 At&T Corp. System for developing a dialog manager using modular spoken-dialog components
US7369100B2 (en) * 2004-03-04 2008-05-06 Eastman Kodak Company Display system and method with multi-person presentation function
US7090358B2 (en) * 2004-03-04 2006-08-15 International Business Machines Corporation System, apparatus and method of displaying information for foveal vision and peripheral vision
US20050197843A1 (en) * 2004-03-07 2005-09-08 International Business Machines Corporation Multimodal aggregating unit
JP4458888B2 (ja) * 2004-03-22 2010-04-28 富士通株式会社 会議支援システム、議事録生成方法、およびコンピュータプログラム
US20050240424A1 (en) * 2004-04-27 2005-10-27 Xiaofan Lin System and method for hierarchical attribute extraction within a call handling system
US7676754B2 (en) * 2004-05-04 2010-03-09 International Business Machines Corporation Method and program product for resolving ambiguities through fading marks in a user interface
FR2871978B1 (fr) * 2004-06-16 2006-09-22 Alcatel Sa Procede de traitement de signaux sonores pour un terminal de communication et terminal de communication mettant en oeuvre ce procede
US7663788B2 (en) * 2004-06-29 2010-02-16 Fujifilm Corporation Image correcting apparatus and method, and image correction program
US7978827B1 (en) 2004-06-30 2011-07-12 Avaya Inc. Automatic configuration of call handling based on end-user needs and characteristics
US7936861B2 (en) 2004-07-23 2011-05-03 At&T Intellectual Property I, L.P. Announcement system and method of use
US8165281B2 (en) 2004-07-28 2012-04-24 At&T Intellectual Property I, L.P. Method and system for mapping caller information to call center agent transactions
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US7580837B2 (en) 2004-08-12 2009-08-25 At&T Intellectual Property I, L.P. System and method for targeted tuning module of a speech recognition system
WO2006135394A2 (en) * 2004-08-20 2006-12-21 The Regents Of The University Of Colorado, A Body Corporate Biometric signature and identification through the use of projective invariants
US7295904B2 (en) * 2004-08-31 2007-11-13 International Business Machines Corporation Touch gesture based interface for motor vehicle
JP4311322B2 (ja) * 2004-09-28 2009-08-12 ソニー株式会社 視聴コンテンツ提供システム及び視聴コンテンツ提供方法
US7197130B2 (en) 2004-10-05 2007-03-27 Sbc Knowledge Ventures, L.P. Dynamic load balancing between multiple locations with different telephony system
US7668889B2 (en) 2004-10-27 2010-02-23 At&T Intellectual Property I, Lp Method and system to combine keyword and natural language search results
US7657005B2 (en) * 2004-11-02 2010-02-02 At&T Intellectual Property I, L.P. System and method for identifying telephone callers
US7502835B1 (en) * 2004-11-17 2009-03-10 Juniper Networks, Inc. Virtual folders for tracking HTTP sessions
US7461134B2 (en) * 2004-11-19 2008-12-02 W.A. Krapf, Inc. Bi-directional communication between a web client and a web server
US7724889B2 (en) 2004-11-29 2010-05-25 At&T Intellectual Property I, L.P. System and method for utilizing confidence levels in automated call routing
US7864942B2 (en) 2004-12-06 2011-01-04 At&T Intellectual Property I, L.P. System and method for routing calls
US7242751B2 (en) 2004-12-06 2007-07-10 Sbc Knowledge Ventures, L.P. System and method for speech recognition-enabled automatic call routing
KR20060066416A (ko) * 2004-12-13 2006-06-16 한국전자통신연구원 음성 코덱을 이용한 후두 원격 진단 서비스 장치 및 그 방법
TWI251754B (en) * 2004-12-16 2006-03-21 Delta Electronics Inc Method for optimizing loads of speech/user recognition system
US7747437B2 (en) * 2004-12-16 2010-06-29 Nuance Communications, Inc. N-best list rescoring in speech recognition
US8340971B1 (en) * 2005-01-05 2012-12-25 At&T Intellectual Property Ii, L.P. System and method of dialog trajectory analysis
US7751551B2 (en) 2005-01-10 2010-07-06 At&T Intellectual Property I, L.P. System and method for speech-enabled call routing
TWI269268B (en) * 2005-01-24 2006-12-21 Delta Electronics Inc Speech recognizing method and system
US7627109B2 (en) 2005-02-04 2009-12-01 At&T Intellectual Property I, Lp Call center system for multiple transaction selections
US7697766B2 (en) * 2005-03-17 2010-04-13 Delphi Technologies, Inc. System and method to determine awareness
US7996219B2 (en) 2005-03-21 2011-08-09 At&T Intellectual Property Ii, L.P. Apparatus and method for model adaptation for spoken language understanding
US8223954B2 (en) 2005-03-22 2012-07-17 At&T Intellectual Property I, L.P. System and method for automating customer relations in a communications environment
US20060229882A1 (en) * 2005-03-29 2006-10-12 Pitney Bowes Incorporated Method and system for modifying printed text to indicate the author's state of mind
US7653547B2 (en) * 2005-03-31 2010-01-26 Microsoft Corporation Method for testing a speech server
US7636432B2 (en) 2005-05-13 2009-12-22 At&T Intellectual Property I, L.P. System and method of determining call treatment of repeat calls
US20060260624A1 (en) * 2005-05-17 2006-11-23 Battelle Memorial Institute Method, program, and system for automatic profiling of entities
US20060271520A1 (en) * 2005-05-27 2006-11-30 Ragan Gene Z Content-based implicit search query
US20090049388A1 (en) * 2005-06-02 2009-02-19 Ronnie Bernard Francis Taib Multimodal computer navigation
US20070015121A1 (en) * 2005-06-02 2007-01-18 University Of Southern California Interactive Foreign Language Teaching
US8005204B2 (en) 2005-06-03 2011-08-23 At&T Intellectual Property I, L.P. Call routing system and method of using the same
US7657020B2 (en) 2005-06-03 2010-02-02 At&T Intellectual Property I, Lp Call routing system and method of using the same
US7917365B2 (en) * 2005-06-16 2011-03-29 Nuance Communications, Inc. Synchronizing visual and speech events in a multimodal application
US7496513B2 (en) * 2005-06-28 2009-02-24 Microsoft Corporation Combined input processing for a computing device
US7457753B2 (en) * 2005-06-29 2008-11-25 University College Dublin National University Of Ireland Telephone pathology assessment
US8503641B2 (en) 2005-07-01 2013-08-06 At&T Intellectual Property I, L.P. System and method of automated order status retrieval
JP4717539B2 (ja) * 2005-07-26 2011-07-06 キヤノン株式会社 撮像装置及び撮像方法
DE602006009191D1 (de) * 2005-07-26 2009-10-29 Canon Kk Bildaufnahmegerät und -verfahren
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US20070038633A1 (en) * 2005-08-10 2007-02-15 International Business Machines Corporation Method and system for executing procedures in mixed-initiative mode
US7904300B2 (en) * 2005-08-10 2011-03-08 Nuance Communications, Inc. Supporting multiple speech enabled user interface consoles within a motor vehicle
US8073699B2 (en) * 2005-08-16 2011-12-06 Nuance Communications, Inc. Numeric weighting of error recovery prompts for transfer to a human agent from an automated speech response system
US8526577B2 (en) 2005-08-25 2013-09-03 At&T Intellectual Property I, L.P. System and method to access content from a speech-enabled automated system
US20070055523A1 (en) * 2005-08-25 2007-03-08 Yang George L Pronunciation training system
US7949529B2 (en) * 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
US8548157B2 (en) 2005-08-29 2013-10-01 At&T Intellectual Property I, L.P. System and method of managing incoming telephone calls at a call center
US8265939B2 (en) * 2005-08-31 2012-09-11 Nuance Communications, Inc. Hierarchical methods and apparatus for extracting user intent from spoken utterances
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US8447592B2 (en) * 2005-09-13 2013-05-21 Nuance Communications, Inc. Methods and apparatus for formant-based voice systems
US8825482B2 (en) 2005-09-15 2014-09-02 Sony Computer Entertainment Inc. Audio, video, simulation, and user interface paradigms
US20070066916A1 (en) * 2005-09-16 2007-03-22 Imotions Emotion Technology Aps System and method for determining human emotion by analyzing eye properties
US7889892B2 (en) * 2005-10-13 2011-02-15 Fujifilm Corporation Face detecting method, and system and program for the methods
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
JP4888996B2 (ja) * 2005-10-21 2012-02-29 株式会社ユニバーサルエンターテインメント 会話制御装置
US20070092007A1 (en) * 2005-10-24 2007-04-26 Mediatek Inc. Methods and systems for video data processing employing frame/field region predictions in motion estimation
US7840898B2 (en) * 2005-11-01 2010-11-23 Microsoft Corporation Video booklet
KR100715949B1 (ko) * 2005-11-11 2007-05-08 삼성전자주식회사 고속 음악 무드 분류 방법 및 그 장치
US20070117072A1 (en) * 2005-11-21 2007-05-24 Conopco Inc, D/B/A Unilever Attitude reaction monitoring
US8209182B2 (en) * 2005-11-30 2012-06-26 University Of Southern California Emotion recognition system
US7860718B2 (en) * 2005-12-08 2010-12-28 Electronics And Telecommunications Research Institute Apparatus and method for speech segment detection and system for speech recognition
US20070143307A1 (en) * 2005-12-15 2007-06-21 Bowers Matthew N Communication system employing a context engine
US7552098B1 (en) 2005-12-30 2009-06-23 At&T Corporation Methods to distribute multi-class classification learning on several processors
KR100745980B1 (ko) * 2006-01-11 2007-08-06 삼성전자주식회사 분류기 통합을 위한 스코어 합성 방법 및 장치
US8265349B2 (en) * 2006-02-07 2012-09-11 Qualcomm Incorporated Intra-mode region-of-interest video object segmentation
US8150155B2 (en) 2006-02-07 2012-04-03 Qualcomm Incorporated Multi-mode region-of-interest video object segmentation
US8265392B2 (en) 2006-02-07 2012-09-11 Qualcomm Incorporated Inter-mode region-of-interest video object segmentation
US8209181B2 (en) * 2006-02-14 2012-06-26 Microsoft Corporation Personal audio-video recorder for live meetings
JP5055781B2 (ja) 2006-02-14 2012-10-24 株式会社日立製作所 会話音声分析方法、及び、会話音声分析装置
US8781837B2 (en) * 2006-03-23 2014-07-15 Nec Corporation Speech recognition system and method for plural applications
US7848917B2 (en) * 2006-03-30 2010-12-07 Microsoft Corporation Common word graph based multimodal input
US8150692B2 (en) * 2006-05-18 2012-04-03 Nuance Communications, Inc. Method and apparatus for recognizing a user personality trait based on a number of compound words used by the user
JP2007318438A (ja) * 2006-05-25 2007-12-06 Yamaha Corp 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム
US20070288898A1 (en) * 2006-06-09 2007-12-13 Sony Ericsson Mobile Communications Ab Methods, electronic devices, and computer program products for setting a feature of an electronic device based on at least one user characteristic
US8332218B2 (en) * 2006-06-13 2012-12-11 Nuance Communications, Inc. Context-based grammars for automated speech recognition
US20080005068A1 (en) * 2006-06-28 2008-01-03 Microsoft Corporation Context-based search, retrieval, and awareness
MX2009000206A (es) * 2006-07-12 2009-06-08 Medical Cyberworlds Inc Sistema de entrenamiento medico computarizado.
US7502767B1 (en) * 2006-07-21 2009-03-10 Hewlett-Packard Development Company, L.P. Computing a count of cases in a class
US9583096B2 (en) * 2006-08-15 2017-02-28 Nuance Communications, Inc. Enhancing environment voice macros via a stackable save/restore state of an object within an environment controlled by voice commands for control of vehicle components
US20080059027A1 (en) * 2006-08-31 2008-03-06 Farmer Michael E Methods and apparatus for classification of occupancy using wavelet transforms
US8374874B2 (en) * 2006-09-11 2013-02-12 Nuance Communications, Inc. Establishing a multimodal personality for a multimodal application in dependence upon attributes of user interaction
US8073681B2 (en) * 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US20080091515A1 (en) * 2006-10-17 2008-04-17 Patentvc Ltd. Methods for utilizing user emotional state in a business process
US20100007726A1 (en) * 2006-10-19 2010-01-14 Koninklijke Philips Electronics N.V. Method and apparatus for classifying a person
US9830912B2 (en) 2006-11-30 2017-11-28 Ashwin P Rao Speak and touch auto correction interface
WO2008067562A2 (en) * 2006-11-30 2008-06-05 Rao Ashwin P Multimodal speech recognition system
US8000969B2 (en) * 2006-12-19 2011-08-16 Nuance Communications, Inc. Inferring switching conditions for switching between modalities in a speech application environment extended for interactive text exchanges
US7912724B1 (en) * 2007-01-18 2011-03-22 Adobe Systems Incorporated Audio comparison using phoneme matching
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US7617337B1 (en) 2007-02-06 2009-11-10 Avaya Inc. VoIP quality tradeoff system
US20080201369A1 (en) * 2007-02-16 2008-08-21 At&T Knowledge Ventures, Lp System and method of modifying media content
EP2135231A4 (en) * 2007-03-01 2014-10-15 Adapx Inc SYSTEM AND METHOD FOR DYNAMIC LEARNING
US8069044B1 (en) * 2007-03-16 2011-11-29 Adobe Systems Incorporated Content matching using phoneme comparison and scoring
US8983051B2 (en) 2007-04-03 2015-03-17 William F. Barton Outgoing call classification and disposition
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8131556B2 (en) * 2007-04-03 2012-03-06 Microsoft Corporation Communications using different modalities
JP4337064B2 (ja) * 2007-04-04 2009-09-30 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
WO2008122974A1 (en) * 2007-04-06 2008-10-16 Technion Research & Development Foundation Ltd. Method and apparatus for the use of cross modal association to isolate individual media sources
US7925505B2 (en) * 2007-04-10 2011-04-12 Microsoft Corporation Adaptation of language models and context free grammar in speech recognition
US8856002B2 (en) * 2007-04-12 2014-10-07 International Business Machines Corporation Distance metrics for universal pattern processing tasks
US8131549B2 (en) 2007-05-24 2012-03-06 Microsoft Corporation Personality-based device
US20090033622A1 (en) * 2007-05-30 2009-02-05 24/8 Llc Smartscope/smartshelf
US8166109B2 (en) * 2007-06-21 2012-04-24 Cisco Technology, Inc. Linking recognized emotions to non-visual representations
DE102007030209A1 (de) * 2007-06-27 2009-01-08 Siemens Audiologische Technik Gmbh Glättungsverfahren
ITFI20070177A1 (it) 2007-07-26 2009-01-27 Riccardo Vieri Sistema per la creazione e impostazione di una campagna pubblicitaria derivante dall'inserimento di messaggi pubblicitari all'interno di uno scambio di messaggi e metodo per il suo funzionamento.
US8351843B2 (en) * 2007-09-04 2013-01-08 Ibiquity Digital Corporation Digital radio broadcast receiver, broadcasting methods and methods for tagging content of interest
US8660479B2 (en) * 2007-09-04 2014-02-25 Ibiquity Digital Corporation Digital radio broadcast receiver, broadcasting methods and methods for tagging content of interest
CN101119209A (zh) * 2007-09-19 2008-02-06 腾讯科技(深圳)有限公司 虚拟宠物系统和虚拟宠物聊天方法、装置
US20090083035A1 (en) * 2007-09-25 2009-03-26 Ritchie Winson Huang Text pre-processing for text-to-speech generation
US8218811B2 (en) 2007-09-28 2012-07-10 Uti Limited Partnership Method and system for video interaction based on motion swarms
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
JP2009086581A (ja) * 2007-10-03 2009-04-23 Toshiba Corp 音声認識の話者モデルを作成する装置およびプログラム
US8165886B1 (en) 2007-10-04 2012-04-24 Great Northern Research LLC Speech interface system and method for control and interaction with applications on a computing system
WO2009045861A1 (en) * 2007-10-05 2009-04-09 Sensory, Incorporated Systems and methods of performing speech recognition using gestures
CN101414348A (zh) * 2007-10-19 2009-04-22 三星电子株式会社 多角度人脸识别方法和系统
US8364694B2 (en) 2007-10-26 2013-01-29 Apple Inc. Search assistant for digital media assets
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US8127235B2 (en) 2007-11-30 2012-02-28 International Business Machines Corporation Automatic increasing of capacity of a virtual space in a virtual world
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US20090164919A1 (en) 2007-12-24 2009-06-25 Cary Lee Bates Generating data for managing encounters in a virtual world environment
US8219407B1 (en) 2007-12-27 2012-07-10 Great Northern Research, LLC Method for processing the output of a speech recognizer
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8327272B2 (en) 2008-01-06 2012-12-04 Apple Inc. Portable multifunction device, method, and graphical user interface for viewing and managing electronic calendars
US20090198496A1 (en) * 2008-01-31 2009-08-06 Matthias Denecke Aspect oriented programmable dialogue manager and apparatus operated thereby
JP5181704B2 (ja) * 2008-02-07 2013-04-10 日本電気株式会社 データ処理装置、姿勢推定システム、姿勢推定方法およびプログラム
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8289283B2 (en) 2008-03-04 2012-10-16 Apple Inc. Language input interface on a device
EP2099198A1 (en) * 2008-03-05 2009-09-09 Sony Corporation Method and device for personalizing a multimedia application
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US9161715B2 (en) * 2008-05-23 2015-10-20 Invention Science Fund I, Llc Determination of extent of congruity between observation of authoring user and observation of receiving user
US9101263B2 (en) * 2008-05-23 2015-08-11 The Invention Science Fund I, Llc Acquisition and association of data indicative of an inferred mental state of an authoring user
US8615664B2 (en) * 2008-05-23 2013-12-24 The Invention Science Fund I, Llc Acquisition and particular association of inference data indicative of an inferred mental state of an authoring user and source identity data
US20090292658A1 (en) * 2008-05-23 2009-11-26 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Acquisition and particular association of inference data indicative of inferred mental states of authoring users
US9192300B2 (en) * 2008-05-23 2015-11-24 Invention Science Fund I, Llc Acquisition and particular association of data indicative of an inferred mental state of an authoring user
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US8219397B2 (en) * 2008-06-10 2012-07-10 Nuance Communications, Inc. Data processing system for autonomously building speech identification and tagging data
US20090327974A1 (en) * 2008-06-26 2009-12-31 Microsoft Corporation User interface for gestural control
WO2010006087A1 (en) * 2008-07-08 2010-01-14 David Seaberg Process for providing and editing instructions, data, data structures, and algorithms in a computer system
US20100010370A1 (en) 2008-07-09 2010-01-14 De Lemos Jakob System and method for calibrating and normalizing eye data in emotional testing
KR100889026B1 (ko) 2008-07-22 2009-03-17 김정태 이미지를 이용한 검색 시스템
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8136944B2 (en) 2008-08-15 2012-03-20 iMotions - Eye Tracking A/S System and method for identifying the existence and position of text in visual media content and for determining a subjects interactions with the text
US8165881B2 (en) * 2008-08-29 2012-04-24 Honda Motor Co., Ltd. System and method for variable text-to-speech with minimized distraction to operator of an automotive vehicle
US20100057465A1 (en) * 2008-09-03 2010-03-04 David Michael Kirsch Variable text-to-speech for automotive application
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8285550B2 (en) * 2008-09-09 2012-10-09 Industrial Technology Research Institute Method and system for generating dialogue managers with diversified dialogue acts
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8352272B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for text to speech synthesis
US8355919B2 (en) 2008-09-29 2013-01-15 Apple Inc. Systems and methods for text normalization for text to speech synthesis
US8218751B2 (en) 2008-09-29 2012-07-10 Avaya Inc. Method and apparatus for identifying and eliminating the source of background noise in multi-party teleconferences
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8396714B2 (en) 2008-09-29 2013-03-12 Apple Inc. Systems and methods for concatenation of words in text to speech synthesis
US8352268B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9922640B2 (en) 2008-10-17 2018-03-20 Ashwin P Rao System and method for multimodal utterance detection
KR101019335B1 (ko) * 2008-11-11 2011-03-07 주식회사 팬택 제스처를 이용한 이동단말의 어플리케이션 제어 방법 및 시스템
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US8494857B2 (en) 2009-01-06 2013-07-23 Regents Of The University Of Minnesota Automatic measurement of speech fluency
US20100178956A1 (en) * 2009-01-14 2010-07-15 Safadi Rami B Method and apparatus for mobile voice recognition training
US8327040B2 (en) 2009-01-26 2012-12-04 Micron Technology, Inc. Host controller
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
KR101041039B1 (ko) * 2009-02-27 2011-06-14 고려대학교 산학협력단 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치
WO2010100567A2 (en) 2009-03-06 2010-09-10 Imotions- Emotion Technology A/S System and method for determining emotional response to olfactory stimuli
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US9123341B2 (en) * 2009-03-18 2015-09-01 Robert Bosch Gmbh System and method for multi-modal input synchronization and disambiguation
US9183554B1 (en) * 2009-04-21 2015-11-10 United Services Automobile Association (Usaa) Systems and methods for user authentication via mobile device
JP5911796B2 (ja) * 2009-04-30 2016-04-27 サムスン エレクトロニクス カンパニー リミテッド マルチモーダル情報を用いるユーザ意図推論装置及び方法
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8363957B2 (en) * 2009-08-06 2013-01-29 Delphi Technologies, Inc. Image classification system and method thereof
KR20120048021A (ko) * 2009-08-20 2012-05-14 코닌클리케 필립스 일렉트로닉스 엔.브이. 이미지 분석을 위한 방법 및 시스템
US9154730B2 (en) * 2009-10-16 2015-10-06 Hewlett-Packard Development Company, L.P. System and method for determining the active talkers in a video conference
US20110093263A1 (en) * 2009-10-20 2011-04-21 Mowzoon Shahin M Automated Video Captioning
US9653066B2 (en) * 2009-10-23 2017-05-16 Nuance Communications, Inc. System and method for estimating the reliability of alternate speech recognition hypotheses in real time
US8121618B2 (en) 2009-10-28 2012-02-21 Digimarc Corporation Intuitive computing methods and systems
US9171541B2 (en) 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
KR101644015B1 (ko) 2009-11-27 2016-08-01 삼성전자주식회사 시스템과 다수 사용자 간의 대화 인터페이스 장치
KR101377459B1 (ko) * 2009-12-21 2014-03-26 한국전자통신연구원 자동 통역 장치 및 그 방법
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
JP5407880B2 (ja) * 2010-01-13 2014-02-05 株式会社リコー 光走査装置及び画像形成装置
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10496753B2 (en) * 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US9507418B2 (en) * 2010-01-21 2016-11-29 Tobii Ab Eye tracker based contextual action
US8676581B2 (en) * 2010-01-22 2014-03-18 Microsoft Corporation Speech recognition analysis via identification information
US8977584B2 (en) 2010-01-25 2015-03-10 Newvaluexchange Global Ai Llp Apparatuses, methods and systems for a digital conversation management platform
US9205328B2 (en) 2010-02-18 2015-12-08 Activision Publishing, Inc. Videogame system and method that enables characters to earn virtual fans by completing secondary objectives
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
EP2550614A4 (en) * 2010-03-23 2013-09-18 Nokia Corp METHOD AND DEVICE FOR DETERMINING THE AGE SPILL OF A USER
JP2011209787A (ja) * 2010-03-29 2011-10-20 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
US10353495B2 (en) * 2010-08-20 2019-07-16 Knowles Electronics, Llc Personalized operation of a mobile device using sensor signatures
US9682324B2 (en) 2010-05-12 2017-06-20 Activision Publishing, Inc. System and method for enabling players to participate in asynchronous, competitive challenges
US8560318B2 (en) * 2010-05-14 2013-10-15 Sony Computer Entertainment Inc. Methods and system for evaluating potential confusion within grammar structure for set of statements to be used in speech recognition during computing event
US8639516B2 (en) 2010-06-04 2014-01-28 Apple Inc. User-specific noise suppression for voice quality improvements
US8296151B2 (en) * 2010-06-18 2012-10-23 Microsoft Corporation Compound gesture-speech commands
US20110313762A1 (en) * 2010-06-20 2011-12-22 International Business Machines Corporation Speech output with confidence indication
US8903891B2 (en) * 2010-06-24 2014-12-02 Sap Se User interface communication utilizing service request identification to manage service requests
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US9104670B2 (en) 2010-07-21 2015-08-11 Apple Inc. Customized search or acquisition of digital media assets
JP2012047924A (ja) * 2010-08-26 2012-03-08 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US8594997B2 (en) * 2010-09-27 2013-11-26 Sap Ag Context-aware conversational user interface
US9484046B2 (en) 2010-11-04 2016-11-01 Digimarc Corporation Smartphone-based methods and systems
US8676574B2 (en) 2010-11-10 2014-03-18 Sony Computer Entertainment Inc. Method for tone/intonation recognition using auditory attention cues
US8966036B1 (en) * 2010-11-24 2015-02-24 Google Inc. Method and system for website user account management based on event transition matrixes
WO2012068705A1 (en) * 2010-11-25 2012-05-31 Telefonaktiebolaget L M Ericsson (Publ) Analysis system and method for audio data
US8559606B2 (en) 2010-12-07 2013-10-15 Microsoft Corporation Multimodal telephone calls
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
KR101749100B1 (ko) * 2010-12-23 2017-07-03 한국전자통신연구원 디바이스 제어를 위한 제스처/음향 융합 인식 시스템 및 방법
CN102637071A (zh) * 2011-02-09 2012-08-15 英华达(上海)电子有限公司 应用于多媒体输入设备的多媒体输入方法
US9047867B2 (en) * 2011-02-21 2015-06-02 Adobe Systems Incorporated Systems and methods for concurrent signal recognition
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US20120239396A1 (en) * 2011-03-15 2012-09-20 At&T Intellectual Property I, L.P. Multimodal remote control
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US8756061B2 (en) 2011-04-01 2014-06-17 Sony Computer Entertainment Inc. Speech syllable/vowel/phone boundary detection using auditory attention cues
US20120259638A1 (en) * 2011-04-08 2012-10-11 Sony Computer Entertainment Inc. Apparatus and method for determining relevance of input speech
WO2012143939A2 (en) 2011-04-13 2012-10-26 Tata Consultancy Services Limited System and method for demographic analytics based on multimodal information
US9230549B1 (en) 2011-05-18 2016-01-05 The United States Of America As Represented By The Secretary Of The Air Force Multi-modal communications (MMC)
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US20120310642A1 (en) 2011-06-03 2012-12-06 Apple Inc. Automatically creating a mapping between text data and audio data
US8975903B2 (en) 2011-06-09 2015-03-10 Ford Global Technologies, Llc Proximity switch having learned sensitivity and method therefor
US8928336B2 (en) 2011-06-09 2015-01-06 Ford Global Technologies, Llc Proximity switch having sensitivity control and method therefor
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8929598B2 (en) * 2011-06-29 2015-01-06 Olympus Imaging Corp. Tracking apparatus, tracking method, and storage medium to store tracking program
JP5664480B2 (ja) * 2011-06-30 2015-02-04 富士通株式会社 異常状態検出装置、電話機、異常状態検出方法、及びプログラム
KR101801327B1 (ko) * 2011-07-29 2017-11-27 삼성전자주식회사 감정 정보 생성 장치, 감정 정보 생성 방법 및 감정 정보 기반 기능 추천 장치
US10004286B2 (en) 2011-08-08 2018-06-26 Ford Global Technologies, Llc Glove having conductive ink and method of interacting with proximity sensor
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US9143126B2 (en) 2011-09-22 2015-09-22 Ford Global Technologies, Llc Proximity switch having lockout control for controlling movable panel
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
EP2766901B1 (en) 2011-10-17 2016-09-21 Nuance Communications, Inc. Speech signal enhancement using visual information
US10112556B2 (en) 2011-11-03 2018-10-30 Ford Global Technologies, Llc Proximity switch having wrong touch adaptive learning and method
US8994228B2 (en) 2011-11-03 2015-03-31 Ford Global Technologies, Llc Proximity switch having wrong touch feedback
US8878438B2 (en) 2011-11-04 2014-11-04 Ford Global Technologies, Llc Lamp and proximity switch assembly and method
GB2496893A (en) * 2011-11-25 2013-05-29 Nokia Corp Presenting Name Bubbles at Different Image Zoom Levels
JP5682543B2 (ja) * 2011-11-28 2015-03-11 トヨタ自動車株式会社 対話装置、対話方法及び対話プログラム
US9250713B2 (en) * 2011-12-05 2016-02-02 Microsoft Technology Licensing, Llc Control exposure
KR101749143B1 (ko) * 2011-12-26 2017-06-20 인텔 코포레이션 탑승자 오디오 및 시각적 입력의 차량 기반 결정
US20130212501A1 (en) * 2012-02-10 2013-08-15 Glen J. Anderson Perceptual computing with conversational agent
KR101971697B1 (ko) * 2012-02-24 2019-04-23 삼성전자주식회사 사용자 디바이스에서 복합 생체인식 정보를 이용한 사용자 인증 방법 및 장치
US8843364B2 (en) 2012-02-29 2014-09-23 Adobe Systems Incorporated Language informed source separation
US9384493B2 (en) 2012-03-01 2016-07-05 Visa International Service Association Systems and methods to quantify consumer sentiment based on transaction data
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9576593B2 (en) 2012-03-15 2017-02-21 Regents Of The University Of Minnesota Automated verbal fluency assessment
US8687880B2 (en) 2012-03-20 2014-04-01 Microsoft Corporation Real time head pose estimation
CN102592593B (zh) * 2012-03-31 2014-01-01 山东大学 一种考虑语音中多线性群组稀疏特性的情绪特征提取方法
US9568527B2 (en) 2012-04-11 2017-02-14 Ford Global Technologies, Llc Proximity switch assembly and activation method having virtual button mode
US9520875B2 (en) 2012-04-11 2016-12-13 Ford Global Technologies, Llc Pliable proximity switch assembly and activation method
US9219472B2 (en) 2012-04-11 2015-12-22 Ford Global Technologies, Llc Proximity switch assembly and activation method using rate monitoring
US9184745B2 (en) 2012-04-11 2015-11-10 Ford Global Technologies, Llc Proximity switch assembly and method of sensing user input based on signal rate of change
US9944237B2 (en) 2012-04-11 2018-04-17 Ford Global Technologies, Llc Proximity switch assembly with signal drift rejection and method
US9197206B2 (en) 2012-04-11 2015-11-24 Ford Global Technologies, Llc Proximity switch having differential contact surface
US9287864B2 (en) 2012-04-11 2016-03-15 Ford Global Technologies, Llc Proximity switch assembly and calibration method therefor
US9831870B2 (en) 2012-04-11 2017-11-28 Ford Global Technologies, Llc Proximity switch assembly and method of tuning same
US9559688B2 (en) 2012-04-11 2017-01-31 Ford Global Technologies, Llc Proximity switch assembly having pliable surface and depression
US9531379B2 (en) 2012-04-11 2016-12-27 Ford Global Technologies, Llc Proximity switch assembly having groove between adjacent proximity sensors
US9660644B2 (en) 2012-04-11 2017-05-23 Ford Global Technologies, Llc Proximity switch assembly and activation method
US9065447B2 (en) 2012-04-11 2015-06-23 Ford Global Technologies, Llc Proximity switch assembly and method having adaptive time delay
US8933708B2 (en) 2012-04-11 2015-01-13 Ford Global Technologies, Llc Proximity switch assembly and activation method with exploration mode
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9136840B2 (en) 2012-05-17 2015-09-15 Ford Global Technologies, Llc Proximity switch assembly having dynamic tuned threshold
JP2013242763A (ja) * 2012-05-22 2013-12-05 Clarion Co Ltd 対話装置、対話システム、および対話制御方法
US9251704B2 (en) * 2012-05-29 2016-02-02 GM Global Technology Operations LLC Reducing driver distraction in spoken dialogue
US8981602B2 (en) 2012-05-29 2015-03-17 Ford Global Technologies, Llc Proximity switch assembly having non-switch contact and method
US8849041B2 (en) * 2012-06-04 2014-09-30 Comcast Cable Communications, Llc Data recognition in content
US9337832B2 (en) 2012-06-06 2016-05-10 Ford Global Technologies, Llc Proximity switch and method of adjusting sensitivity therefor
US9881616B2 (en) * 2012-06-06 2018-01-30 Qualcomm Incorporated Method and systems having improved speech recognition
US10019994B2 (en) 2012-06-08 2018-07-10 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9641172B2 (en) 2012-06-27 2017-05-02 Ford Global Technologies, Llc Proximity switch assembly having varying size electrode fingers
US20140007115A1 (en) * 2012-06-29 2014-01-02 Ning Lu Multi-modal behavior awareness for human natural command control
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
TWI456515B (zh) * 2012-07-13 2014-10-11 Univ Nat Chiao Tung 融合人臉辨識及語音辨識之身份辨識系統、其方法及其服務型機器人
US9672815B2 (en) * 2012-07-20 2017-06-06 Interactive Intelligence Group, Inc. Method and system for real-time keyword spotting for speech analytics
US9263060B2 (en) 2012-08-21 2016-02-16 Marian Mason Publishing Company, Llc Artificial neural network based system for classification of the emotional content of digital music
EP2888669B1 (en) 2012-08-24 2021-03-31 Interactive Intelligence, INC. Method and system for selectively biased linear discriminant analysis in automatic speech recognition systems
US9424840B1 (en) 2012-08-31 2016-08-23 Amazon Technologies, Inc. Speech recognition platforms
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US8922340B2 (en) 2012-09-11 2014-12-30 Ford Global Technologies, Llc Proximity switch based door latch release
US9105268B2 (en) 2012-09-19 2015-08-11 24/7 Customer, Inc. Method and apparatus for predicting intent in IVR using natural language queries
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
US8484025B1 (en) * 2012-10-04 2013-07-09 Google Inc. Mapping an audio utterance to an action using a classifier
US9020822B2 (en) 2012-10-19 2015-04-28 Sony Computer Entertainment Inc. Emotion recognition using auditory attention cues extracted from users voice
US9031293B2 (en) 2012-10-19 2015-05-12 Sony Computer Entertainment Inc. Multi-modal sensor based emotion recognition and emotional interface
WO2014070872A2 (en) * 2012-10-30 2014-05-08 Robert Bosch Gmbh System and method for multimodal interaction with reduced distraction in operating vehicles
US8796575B2 (en) 2012-10-31 2014-08-05 Ford Global Technologies, Llc Proximity switch assembly having ground layer
KR20140070861A (ko) * 2012-11-28 2014-06-11 한국전자통신연구원 멀티 모달 hmi 제어 장치 및 방법
US9672811B2 (en) 2012-11-29 2017-06-06 Sony Interactive Entertainment Inc. Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection
US9265458B2 (en) 2012-12-04 2016-02-23 Sync-Think, Inc. Application of smooth pursuit cognitive testing paradigms to clinical drug development
US20140173440A1 (en) * 2012-12-13 2014-06-19 Imimtek, Inc. Systems and methods for natural interaction with operating systems and application graphical user interfaces using gestural and vocal input
US9646605B2 (en) * 2013-01-22 2017-05-09 Interactive Intelligence Group, Inc. False alarm reduction in speech recognition systems using contextual information
US9190058B2 (en) * 2013-01-25 2015-11-17 Microsoft Technology Licensing, Llc Using visual cues to disambiguate speech inputs
KR102050897B1 (ko) * 2013-02-07 2019-12-02 삼성전자주식회사 음성 대화 기능을 구비한 휴대 단말기 및 이의 음성 대화 방법
KR20150104615A (ko) 2013-02-07 2015-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9380976B2 (en) 2013-03-11 2016-07-05 Sync-Think, Inc. Optical neuroinformatics
US9311204B2 (en) 2013-03-13 2016-04-12 Ford Global Technologies, Llc Proximity interface development system having replicator and method
US10424292B1 (en) * 2013-03-14 2019-09-24 Amazon Technologies, Inc. System for recognizing and responding to environmental noises
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US10061476B2 (en) 2013-03-14 2018-08-28 Aperture Investments, Llc Systems and methods for identifying, searching, organizing, selecting and distributing content based on mood
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US10242097B2 (en) 2013-03-14 2019-03-26 Aperture Investments, Llc Music selection and organization using rhythm, texture and pitch
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US9875304B2 (en) 2013-03-14 2018-01-23 Aperture Investments, Llc Music selection and organization using audio fingerprints
US10225328B2 (en) 2013-03-14 2019-03-05 Aperture Investments, Llc Music selection and organization using audio fingerprints
US11271993B2 (en) 2013-03-14 2022-03-08 Aperture Investments, Llc Streaming music categorization using rhythm, texture and pitch
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10623480B2 (en) 2013-03-14 2020-04-14 Aperture Investments, Llc Music categorization using rhythm, texture and pitch
US11151899B2 (en) 2013-03-15 2021-10-19 Apple Inc. User training by intelligent digital assistant
WO2014144949A2 (en) * 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
KR101904293B1 (ko) 2013-03-15 2018-10-05 애플 인크. 콘텍스트-민감성 방해 처리
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US20140288939A1 (en) * 2013-03-20 2014-09-25 Navteq B.V. Method and apparatus for optimizing timing of audio commands based on recognized audio patterns
US9202459B2 (en) * 2013-04-19 2015-12-01 GM Global Technology Operations LLC Methods and systems for managing dialog of speech systems
US9609272B2 (en) * 2013-05-02 2017-03-28 Avaya Inc. Optimized video snapshot
WO2014176790A1 (en) 2013-05-03 2014-11-06 Nokia Corporation A method and technical equipment for people identification
US9251275B2 (en) * 2013-05-16 2016-02-02 International Business Machines Corporation Data clustering and user modeling for next-best-action decisions
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
AU2014278592B2 (en) 2013-06-09 2017-09-07 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
WO2014200731A1 (en) 2013-06-13 2014-12-18 Apple Inc. System and method for emergency calls initiated by voice command
TW201504839A (zh) * 2013-07-19 2015-02-01 Quanta Comp Inc 可攜式電子裝置及互動式人臉登入方法
US20150039312A1 (en) * 2013-07-31 2015-02-05 GM Global Technology Operations LLC Controlling speech dialog using an additional sensor
KR101749009B1 (ko) 2013-08-06 2017-06-19 애플 인크. 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화
US9165182B2 (en) * 2013-08-19 2015-10-20 Cisco Technology, Inc. Method and apparatus for using face detection information to improve speaker segmentation
US11199906B1 (en) 2013-09-04 2021-12-14 Amazon Technologies, Inc. Global user input management
US9330171B1 (en) * 2013-10-17 2016-05-03 Google Inc. Video annotation using deep network architectures
US9779722B2 (en) * 2013-11-05 2017-10-03 GM Global Technology Operations LLC System for adapting speech recognition vocabulary
US20150154002A1 (en) * 2013-12-04 2015-06-04 Google Inc. User interface customization based on speaker characteristics
US9354778B2 (en) 2013-12-06 2016-05-31 Digimarc Corporation Smartphone-based methods and systems
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
TWI543635B (zh) * 2013-12-18 2016-07-21 jing-feng Liu Speech Acquisition Method of Hearing Aid System and Hearing Aid System
KR101550580B1 (ko) * 2014-01-17 2015-09-08 한국과학기술연구원 사용자 인터페이스 장치 및 그것의 제어 방법
CN110459214B (zh) * 2014-01-20 2022-05-13 华为技术有限公司 语音交互方法及装置
US9218410B2 (en) * 2014-02-06 2015-12-22 Contact Solutions LLC Systems, apparatuses and methods for communication flow modification
US9311639B2 (en) 2014-02-11 2016-04-12 Digimarc Corporation Methods, apparatus and arrangements for device to device communication
GB2523353B (en) * 2014-02-21 2017-03-01 Jaguar Land Rover Ltd System for use in a vehicle
US9412363B2 (en) 2014-03-03 2016-08-09 Microsoft Technology Licensing, Llc Model based approach for on-screen item selection and disambiguation
US10304458B1 (en) * 2014-03-06 2019-05-28 Board of Trustees of the University of Alabama and the University of Alabama in Huntsville Systems and methods for transcribing videos using speaker identification
US8825585B1 (en) * 2014-03-11 2014-09-02 Fmr Llc Interpretation of natural communication
US10095850B2 (en) * 2014-05-19 2018-10-09 Kadenze, Inc. User identity authentication techniques for on-line content or access
US9966079B2 (en) * 2014-03-24 2018-05-08 Lenovo (Singapore) Pte. Ltd. Directing voice input based on eye tracking
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US9972054B1 (en) 2014-05-20 2018-05-15 State Farm Mutual Automobile Insurance Company Accident fault determination for autonomous vehicles
US10373259B1 (en) 2014-05-20 2019-08-06 State Farm Mutual Automobile Insurance Company Fully autonomous vehicle insurance pricing
US9646428B1 (en) 2014-05-20 2017-05-09 State Farm Mutual Automobile Insurance Company Accident response using autonomous vehicle monitoring
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9508360B2 (en) * 2014-05-28 2016-11-29 International Business Machines Corporation Semantic-free text analysis for identifying traits
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10146318B2 (en) * 2014-06-13 2018-12-04 Thomas Malzbender Techniques for using gesture recognition to effectuate character selection
US9697828B1 (en) * 2014-06-20 2017-07-04 Amazon Technologies, Inc. Keyword detection modeling using contextual and environmental information
US9600743B2 (en) 2014-06-27 2017-03-21 International Business Machines Corporation Directing field of vision based on personal interests
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10376792B2 (en) 2014-07-03 2019-08-13 Activision Publishing, Inc. Group composition matchmaking system and method for multiplayer video games
US11030696B1 (en) 2014-07-21 2021-06-08 State Farm Mutual Automobile Insurance Company Methods of providing insurance savings based upon telematics and anonymous driver data
US9972184B2 (en) * 2014-07-24 2018-05-15 State Farm Mutual Automobile Insurance Company Systems and methods for monitoring a vehicle operator and for monitoring an operating environment within the vehicle
US9646198B2 (en) * 2014-08-08 2017-05-09 International Business Machines Corporation Sentiment analysis in a video conference
US9471837B2 (en) 2014-08-19 2016-10-18 International Business Machines Corporation Real-time analytics to identify visual objects of interest
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
CN104217226B (zh) * 2014-09-09 2017-07-11 天津大学 基于深度神经网络与条件随机场的对话行为识别方法
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
EP3195145A4 (en) 2014-09-16 2018-01-24 VoiceBox Technologies Corporation Voice commerce
WO2016044321A1 (en) 2014-09-16 2016-03-24 Min Tang Integration of domain information into state transitions of a finite state transducer for natural language processing
US10317992B2 (en) 2014-09-25 2019-06-11 Microsoft Technology Licensing, Llc Eye gaze for spoken language understanding in multi-modal conversational interactions
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9747896B2 (en) 2014-10-15 2017-08-29 Voicebox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
JP5907231B1 (ja) * 2014-10-15 2016-04-26 富士通株式会社 入力情報支援装置、入力情報支援方法および入力情報支援プログラム
US10038443B2 (en) 2014-10-20 2018-07-31 Ford Global Technologies, Llc Directional proximity switch assembly
JP6365229B2 (ja) 2014-10-23 2018-08-01 株式会社デンソー 多感覚インタフェースの制御方法および多感覚インタフェース制御装置、多感覚インタフェースシステム
US9269374B1 (en) * 2014-10-27 2016-02-23 Mattersight Corporation Predictive video analytics system and methods
US10241509B1 (en) 2014-11-13 2019-03-26 State Farm Mutual Automobile Insurance Company Autonomous vehicle control assessment and selection
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9898170B2 (en) 2014-12-10 2018-02-20 International Business Machines Corporation Establishing user specified interaction modes in a question answering dialogue
US10118099B2 (en) 2014-12-16 2018-11-06 Activision Publishing, Inc. System and method for transparently styling non-player characters in a multiplayer video game
US20160371662A1 (en) * 2015-02-04 2016-12-22 Empire Technology Development Llc Adaptive merchant site sampling linked to payment transactions
US9374465B1 (en) * 2015-02-11 2016-06-21 Language Line Services, Inc. Multi-channel and multi-modal language interpretation system utilizing a gated or non-gated configuration
EP3262490A4 (en) * 2015-02-23 2018-10-17 Somniq, Inc. Empathetic user interface, systems, and methods for interfacing with empathetic computing device
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9654103B2 (en) 2015-03-18 2017-05-16 Ford Global Technologies, Llc Proximity switch assembly having haptic feedback and method
US9431003B1 (en) 2015-03-27 2016-08-30 International Business Machines Corporation Imbuing artificial intelligence systems with idiomatic traits
US9552810B2 (en) 2015-03-31 2017-01-24 International Business Machines Corporation Customizable and individualized speech recognition settings interface for users with language accents
US10418032B1 (en) * 2015-04-10 2019-09-17 Soundhound, Inc. System and methods for a virtual assistant to manage and use context in a natural language dialog
CN104820678B (zh) * 2015-04-15 2018-10-19 小米科技有限责任公司 音频信息识别方法及装置
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10315113B2 (en) 2015-05-14 2019-06-11 Activision Publishing, Inc. System and method for simulating gameplay of nonplayer characters distributed across networked end user devices
US9548733B2 (en) 2015-05-20 2017-01-17 Ford Global Technologies, Llc Proximity sensor assembly having interleaved electrode configuration
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10471348B2 (en) 2015-07-24 2019-11-12 Activision Publishing, Inc. System and method for creating and sharing customized video game weapon configurations in multiplayer video games via one or more social networks
US10437871B2 (en) * 2015-08-12 2019-10-08 Hithink Royalflush Information Network Co., Ltd. Method and system for sentiment analysis of information
CN105159111B (zh) * 2015-08-24 2019-01-25 百度在线网络技术(北京)有限公司 基于人工智能的智能交互设备控制方法及系统
US9870649B1 (en) 2015-08-28 2018-01-16 State Farm Mutual Automobile Insurance Company Shared vehicle usage, monitoring and feedback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
CN105187981A (zh) * 2015-09-18 2015-12-23 智车优行科技(北京)有限公司 车内音场分布控制装置及方法
US9665567B2 (en) 2015-09-21 2017-05-30 International Business Machines Corporation Suggesting emoji characters based on current contextual emotional state of user
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US9886958B2 (en) 2015-12-11 2018-02-06 Microsoft Technology Licensing, Llc Language and domain independent model based approach for on-screen item selection
USD806711S1 (en) 2015-12-11 2018-01-02 SomniQ, Inc. Portable electronic device
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
KR102434604B1 (ko) * 2016-01-05 2022-08-23 한국전자통신연구원 개인화된 음성 인식을 수행하기 위한 음성 인식 단말, 음성 인식 서버 및 음성 인식 방법
CN105700682A (zh) * 2016-01-08 2016-06-22 北京乐驾科技有限公司 基于视觉和语音的智能性别、情绪识别检测系统及方法
US10134278B1 (en) 2016-01-22 2018-11-20 State Farm Mutual Automobile Insurance Company Autonomous vehicle application
US10395332B1 (en) 2016-01-22 2019-08-27 State Farm Mutual Automobile Insurance Company Coordinated autonomous vehicle automatic area scanning
US10482226B1 (en) 2016-01-22 2019-11-19 State Farm Mutual Automobile Insurance Company System and method for autonomous vehicle sharing using facial recognition
US10324463B1 (en) 2016-01-22 2019-06-18 State Farm Mutual Automobile Insurance Company Autonomous vehicle operation adjustment based upon route
US11441916B1 (en) 2016-01-22 2022-09-13 State Farm Mutual Automobile Insurance Company Autonomous vehicle trip routing
US11242051B1 (en) 2016-01-22 2022-02-08 State Farm Mutual Automobile Insurance Company Autonomous vehicle action communications
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9817817B2 (en) 2016-03-17 2017-11-14 International Business Machines Corporation Detection and labeling of conversational actions
JP2017182776A (ja) * 2016-03-29 2017-10-05 株式会社デンソー 車両周辺監視装置及びコンピュータプログラム
US9767349B1 (en) * 2016-05-09 2017-09-19 Xerox Corporation Learning emotional states using personalized calibration tasks
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US10832665B2 (en) * 2016-05-27 2020-11-10 Centurylink Intellectual Property Llc Internet of things (IoT) human interface apparatus, system, and method
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10235993B1 (en) * 2016-06-14 2019-03-19 Friday Harbor Llc Classifying signals using correlations of segments
WO2018023106A1 (en) 2016-07-29 2018-02-01 Erik SWART System and method of disambiguating natural language processing requests
US10789534B2 (en) 2016-07-29 2020-09-29 International Business Machines Corporation Measuring mutual understanding in human-computer conversation
US9922649B1 (en) * 2016-08-24 2018-03-20 Jpmorgan Chase Bank, N.A. System and method for customer interaction management
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
KR101700099B1 (ko) * 2016-10-11 2017-01-31 미디어젠(주) 하이브리드 음성인식 복합 성능 자동 평가시스템
US10135989B1 (en) 2016-10-27 2018-11-20 Intuit Inc. Personalized support routing based on paralinguistic information
KR20180055243A (ko) * 2016-11-16 2018-05-25 엘지전자 주식회사 이동단말기 및 그 제어방법
US10500498B2 (en) 2016-11-29 2019-12-10 Activision Publishing, Inc. System and method for optimizing virtual games
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10515623B1 (en) * 2016-12-23 2019-12-24 Amazon Technologies, Inc. Non-speech input to speech processing system
US10229682B2 (en) 2017-02-01 2019-03-12 International Business Machines Corporation Cognitive intervention for voice recognition failure
US11128675B2 (en) 2017-03-20 2021-09-21 At&T Intellectual Property I, L.P. Automatic ad-hoc multimedia conference generator
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10535344B2 (en) * 2017-06-08 2020-01-14 Microsoft Technology Licensing, Llc Conversational system user experience
US10769138B2 (en) 2017-06-13 2020-09-08 International Business Machines Corporation Processing context-based inquiries for knowledge retrieval
KR102299847B1 (ko) * 2017-06-26 2021-09-08 삼성전자주식회사 얼굴 인증 방법 및 장치
US10503467B2 (en) * 2017-07-13 2019-12-10 International Business Machines Corporation User interface sound emanation activity classification
US11315560B2 (en) 2017-07-14 2022-04-26 Cognigy Gmbh Method for conducting dialog between human and computer
US11424947B2 (en) * 2017-08-02 2022-08-23 Lenovo (Singapore) Pte. Ltd. Grouping electronic devices to coordinate action based on context awareness
US10409132B2 (en) 2017-08-30 2019-09-10 International Business Machines Corporation Dynamically changing vehicle interior
US10561945B2 (en) 2017-09-27 2020-02-18 Activision Publishing, Inc. Methods and systems for incentivizing team cooperation in multiplayer gaming environments
US11040286B2 (en) 2017-09-27 2021-06-22 Activision Publishing, Inc. Methods and systems for improved content generation in multiplayer gaming environments
US10974150B2 (en) 2017-09-27 2021-04-13 Activision Publishing, Inc. Methods and systems for improved content customization in multiplayer gaming environments
US10714144B2 (en) * 2017-11-06 2020-07-14 International Business Machines Corporation Corroborating video data with audio data from video content to create section tagging
CN108081901A (zh) * 2017-11-08 2018-05-29 珠海格力电器股份有限公司 车载空调控制方法及装置
US10515640B2 (en) * 2017-11-08 2019-12-24 Intel Corporation Generating dialogue based on verification scores
US10864443B2 (en) 2017-12-22 2020-12-15 Activision Publishing, Inc. Video game content aggregation, normalization, and publication systems and methods
CN108091324B (zh) 2017-12-22 2021-08-17 北京百度网讯科技有限公司 语气识别方法、装置、电子设备和计算机可读存储介质
KR20190079503A (ko) * 2017-12-27 2019-07-05 한국전자통신연구원 얼굴 인식을 위한 얼굴 자세 등록 장치 및 방법
CN108520748B (zh) * 2018-02-01 2020-03-03 百度在线网络技术(北京)有限公司 一种智能设备功能引导方法及系统
US20210005203A1 (en) 2018-03-13 2021-01-07 Mitsubishi Electric Corporation Voice processing apparatus and voice processing method
CN108492350A (zh) * 2018-04-02 2018-09-04 吉林动画学院 基于唇读技术的角色口型动画制作方法
WO2019204186A1 (en) * 2018-04-18 2019-10-24 Sony Interactive Entertainment Inc. Integrated understanding of user characteristics by multimodal processing
US10789200B2 (en) 2018-06-01 2020-09-29 Dell Products L.P. Server message block remote direct memory access persistent memory dialect
US10831442B2 (en) * 2018-10-19 2020-11-10 International Business Machines Corporation Digital assistant user interface amalgamation
US11342002B1 (en) * 2018-12-05 2022-05-24 Amazon Technologies, Inc. Caption timestamp predictor
US10770072B2 (en) 2018-12-10 2020-09-08 International Business Machines Corporation Cognitive triggering of human interaction strategies to facilitate collaboration, productivity, and learning
US11455982B2 (en) * 2019-01-07 2022-09-27 Cerence Operating Company Contextual utterance resolution in multimodal systems
US11315692B1 (en) * 2019-02-06 2022-04-26 Vitalchat, Inc. Systems and methods for video-based user-interaction and information-acquisition
US10902220B2 (en) 2019-04-12 2021-01-26 The Toronto-Dominion Bank Systems and methods of generating responses associated with natural language input
CN110390942A (zh) * 2019-06-28 2019-10-29 平安科技(深圳)有限公司 基于婴儿哭声的情绪检测方法及其装置
DE102019118184A1 (de) * 2019-07-05 2021-01-07 Bayerische Motoren Werke Aktiengesellschaft System und Verfahren zur nutzerindividuellen Anpassung von Fahrzeugparametern
US11257493B2 (en) 2019-07-11 2022-02-22 Soundhound, Inc. Vision-assisted speech processing
US11263634B2 (en) 2019-08-16 2022-03-01 Advanced New Technologies Co., Ltd. Payment method and device
JP6977004B2 (ja) * 2019-08-23 2021-12-08 サウンドハウンド,インコーポレイテッド 車載装置、発声を処理する方法およびプログラム
US20210064957A1 (en) * 2019-09-04 2021-03-04 Tencent America LLC Understanding a query intention for medical artificial intelligence systems using semi-supervised deep learning
US11097193B2 (en) 2019-09-11 2021-08-24 Activision Publishing, Inc. Methods and systems for increasing player engagement in multiplayer gaming environments
CN111128157B (zh) * 2019-12-12 2022-05-27 珠海格力电器股份有限公司 一种智能家电的免唤醒语音识别控制方法、计算机可读存储介质及空调
US11132535B2 (en) * 2019-12-16 2021-09-28 Avaya Inc. Automatic video conference configuration to mitigate a disability
CN113362828B (zh) * 2020-03-04 2022-07-05 阿波罗智联(北京)科技有限公司 用于识别语音的方法和装置
US11354906B2 (en) * 2020-04-13 2022-06-07 Adobe Inc. Temporally distributed neural networks for video semantic segmentation
GB2596141A (en) * 2020-06-19 2021-12-22 Continental Automotive Gmbh Driving companion
US11351459B2 (en) 2020-08-18 2022-06-07 Activision Publishing, Inc. Multiplayer video games with virtual characters having dynamically generated attribute profiles unconstrained by predefined discrete values
WO2022081622A1 (en) * 2020-10-14 2022-04-21 Openstream Inc. System and method for multi-modality soft-agent for query population and information mining

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication numberPriority datePublication dateAssigneeTitle
FR2683648B1 (fr) * 1991-11-12 1996-12-13 Apple Computer Procede de choix d'objets dans une sequence d'images mobiles et piste d'essai de reussite correspondante.
GB2266037B (en) * 1992-03-13 1996-02-14 Quantel Ltd An electronic video processing system
US5517021A (en) * 1993-01-19 1996-05-14 The Research Foundation State University Of New York Apparatus and method for eye tracking interface
JPH0612401A (ja) * 1992-06-26 1994-01-21 Fuji Xerox Co Ltd 感情模擬装置
FR2696574B1 (fr) * 1992-10-06 1994-11-18 Sextant Avionique Procédé et dispositif d'analyse d'un message fourni par des moyens d'interaction à un système de dialogue homme-machine.
JPH06131437A (ja) * 1992-10-20 1994-05-13 Hitachi Ltd 複合形態による操作指示方法
US5694150A (en) * 1995-09-21 1997-12-02 Elo Touchsystems, Inc. Multiuser/multi pointing device graphical user interface system
US5895447A (en) * 1996-02-02 1999-04-20 International Business Machines Corporation Speech recognition using thresholded speaker class model selection or model adaptation
US5937383A (en) * 1996-02-02 1999-08-10 International Business Machines Corporation Apparatus and methods for speech recognition including individual or speaker class dependent decoding history caches for fast word acceptance or rejection
US6073101A (en) * 1996-02-02 2000-06-06 International Business Machines Corporation Text independent speaker recognition for transparent command ambiguity resolution and continuous access control
US5912721A (en) * 1996-03-13 1999-06-15 Kabushiki Kaisha Toshiba Gaze detection apparatus and its method as well as information display apparatus
US5771042A (en) * 1996-07-17 1998-06-23 International Business Machines Corporation Multi-size control for multiple adjacent workspaces
US6018341A (en) * 1996-11-20 2000-01-25 International Business Machines Corporation Data processing system and method for performing automatic actions in a graphical user interface
US5877763A (en) * 1996-11-20 1999-03-02 International Business Machines Corporation Data processing system and method for viewing objects on a user interface
US6088669A (en) * 1997-01-28 2000-07-11 International Business Machines, Corporation Speech recognition with attempted speaker recognition for speaker model prefetching or alternative speech modeling
US6269336B1 (en) * 1998-07-24 2001-07-31 Motorola, Inc. Voice browser for interactive services and methods thereof
US6385583B1 (en) * 1998-10-02 2002-05-07 Motorola, Inc. Markup language for interactive services and methods thereof
WO2000008547A1 (en) * 1998-08-05 2000-02-17 British Telecommunications Public Limited Company Multimodal user interface
US6243076B1 (en) * 1998-09-01 2001-06-05 Synthetic Environments, Inc. System and method for controlling host system interface with point-of-interest data
US6629065B1 (en) * 1998-09-30 2003-09-30 Wisconsin Alumni Research Foundation Methods and apparata for rapid computer-aided design of objects in virtual reality and other environments
IL140805D0 (en) 1998-10-02 2002-02-10 Ibm Structure skeletons for efficient voice navigation through generic hierarchical objects
US6246981B1 (en) * 1998-11-25 2001-06-12 International Business Machines Corporation Natural language task-oriented dialog manager and method
US6523172B1 (en) * 1998-12-17 2003-02-18 Evolutionary Technologies International, Inc. Parser translator system and method
US6675356B1 (en) * 1998-12-22 2004-01-06 Xerox Corporation Distributed document-based calendaring system
US6493703B1 (en) * 1999-05-11 2002-12-10 Prophet Financial Systems System and method for implementing intelligent online community message board
JP3514372B2 (ja) * 1999-06-04 2004-03-31 日本電気株式会社 マルチモーダル対話装置
US6594629B1 (en) * 1999-08-06 2003-07-15 International Business Machines Corporation Methods and apparatus for audio-visual speech detection and recognition
US6219640B1 (en) * 1999-08-06 2001-04-17 International Business Machines Corporation Methods and apparatus for audio-visual speaker recognition and utterance verification
US6665644B1 (en) * 1999-08-10 2003-12-16 International Business Machines Corporation Conversational data mining
US6377913B1 (en) * 1999-08-13 2002-04-23 International Business Machines Corporation Method and system for multi-client access to a dialog system
US7069220B2 (en) * 1999-08-13 2006-06-27 International Business Machines Corporation Method for determining and maintaining dialog focus in a conversational speech system
US6598020B1 (en) * 1999-09-10 2003-07-22 International Business Machines Corporation Adaptive emotion and initiative generator for conversational systems
US6658388B1 (en) * 1999-09-10 2003-12-02 International Business Machines Corporation Personality generator for conversational systems
US6847959B1 (en) * 2000-01-05 2005-01-25 Apple Computer, Inc. Universal interface for retrieval of information in a computer system
US6600502B1 (en) * 2000-04-14 2003-07-29 Innovative Technology Application, Inc. Immersive interface interactive multimedia software method and apparatus for networked computers
US6751661B1 (en) * 2000-06-22 2004-06-15 Applied Systems Intelligence, Inc. Method and system for providing intelligent network management
US6754643B1 (en) * 2000-10-03 2004-06-22 Sandia Corporation Adaptive method with intercessory feedback control for an intelligent agent
US6731307B1 (en) * 2000-10-30 2004-05-04 Koninklije Philips Electronics N.V. User interface/entertainment device that simulates personal interaction and responds to user's mental state and/or personality
  • 2001
    • 2001-02-05 US US09/776,654 patent/US6964023B2/en not_active Expired - Lifetime
  • 2002
    • 2002-01-31 JP JP2002563459A patent/JP2004538543A/ja active Pending
    • 2002-01-31 EP EP02724896A patent/EP1358650A4/en not_active Withdrawn
    • 2002-01-31 KR KR1020037010176A patent/KR100586767B1/ko not_active IP Right Cessation
    • 2002-01-31 CA CA002437164A patent/CA2437164A1/en not_active Abandoned
    • 2002-01-31 CN CNB028055659A patent/CN1310207C/zh not_active Expired - Lifetime
    • 2002-01-31 WO PCT/US2002/002853 patent/WO2002063599A1/en active IP Right Grant
  • 2004
    • 2004-08-13 HK HK04106079A patent/HK1063371A1/xx not_active IP Right Cessation

Cited By (1)

* Cited by examiner, † Cited by third party
Publication numberPriority datePublication dateAssigneeTitle
WO2014181946A1 (ko) * 2013-05-08 2014-11-13 주식회사 아몬드 소프트 빅 데이터 추출 시스템 및 방법

Also Published As

Publication numberPublication date
US20020135618A1 (en) 2002-09-26
US6964023B2 (en) 2005-11-08
WO2002063599A1 (en) 2002-08-15
HK1063371A1 (en) 2004-12-24
CN1494711A (zh) 2004-05-05
EP1358650A1 (en) 2003-11-05
JP2004538543A (ja) 2004-12-24
CN1310207C (zh) 2007-04-11
CA2437164A1 (en) 2002-08-15
EP1358650A4 (en) 2008-03-19
KR20030077012A (ko) 2003-09-29

Similar Documents

PublicationPublication DateTitle
KR100586767B1 (ko) 2006-06-08 다중모드 입력을 이용한 다중모드 초점 탐지, 기준 모호성해명 및 기분 분류를 위한 시스템 및 방법
US10977452B2 (en) 2021-04-13 Multi-lingual virtual personal assistant
US20210081056A1 (en) 2021-03-18 Vpa with integrated object recognition and facial expression recognition
US10235994B2 (en) 2019-03-19 Modular deep learning model
Schuller et al. 2009 Being bored? Recognising natural interest by extensive audiovisual integration for real-life application
US10679614B2 (en) 2020-06-09 Systems and method to resolve audio-based requests in a networked environment
Busso et al. 2013 Iterative feature normalization scheme for automatic emotion detection from speech
Këpuska et al. 2009 A novel wake-up-word speech recognition system, wake-up-word recognition task, technology and evaluation
US10878824B2 (en) 2020-12-29 Speech-to-text generation using video-speech matching from a primary speaker
US20200279561A1 (en) 2020-09-03 Determining input for speech processing engine
US20200333875A1 (en) 2020-10-22 Method and apparatus for interrupt detection
Sahoo et al. 2016 Emotion recognition from audio-visual data using rule based decision level fusion
Delgado et al. 2007 Spoken, multilingual and multimodal dialogue systems: development and assessment
Schmitt et al. 2012 Towards adaptive spoken dialog systems
US10699706B1 (en) 2020-06-30 Systems and methods for device communications
WO2022060970A1 (en) 2022-03-24 Dialog management for multiple users
US20210110815A1 (en) 2021-04-15 Method and apparatus for determining semantic meaning of pronoun
US10896688B2 (en) 2021-01-19 Real-time conversation analysis system
Schuller et al. 2006 Speech communication and multimodal interfaces
WO2021139737A1 (zh) 2021-07-15 一种人机交互的方法和系统
AU2020103587A4 (en) 2021-02-04 A system and a method for cross-linguistic automatic speech recognition
WO2022125381A1 (en) 2022-06-16 Multiple virtual assistants
RBB et al. 2012 Deliverable 5.1
DateCodeTitleDescription
2004-02-25 A201 Request for examination
2005-08-26 E902 Notification of reason for refusal
2006-04-25 E701 Decision to grant or registration of patent right
2006-05-29 GRNT Written decision to grant
2010-04-02 FPAY Annual fee payment

Payment date: 20100405

Year of fee payment: 5

2011-05-30 LAPS Lapse due to unpaid annual fee