小学生にGeminiを使わせる時の困りごと、みたいな記事を見かけて思い出したことのメモ。
うちの子は話し相手としてときおりAIと話したがっていて、車の中でGeminiとしゃべったり、親のスマホのChatGPTで、親が通話スタートしてあげてから一緒にしゃべったり。
主な用途は、ハムスターはキムチを食べるか?とか聞いているくらいなのだけど、Geminiのおしゃべり機能で気になるのが、漢字の読み間違いが多いこと。
音読み訓読みあたりでおかしくなりがちで、上手、を、じょうずと読むか、うわてとよむか、みたいなそういうことがある。
子どもに使わせていると、この音読み訓読みを間違う会話を常用して、変な語彙で覚えてしまったら、変な人間になりそう、というのが懸念。
喋るようになる前からYouTubeを見せていると、さようならのかわりに、チャンネル登録お願いします!って言うようになることが知られている。それのGemini版。
ChatGPTのほうがまともで読み方がおかしいまま突き進んでいくようなことはあまりなさそう。
ChatGPTによる解説
TECH NOTE: LLM音声対話における日本語読み生成差(Gemini vs ChatGPT 観察)
LLM音声対話では、(1) 応答生成(LLM)→ (2) Text Normalization → (3) G2P(Grapheme-to-Phoneme)→ (4) Prosody Prediction → (5) Neural TTS という多段パイプラインが想定される。Gemini の音声では、日本語の同形異義語における 文脈依存読み推定(context-aware reading disambiguation) が外れ、音読み/訓読み選択ミスがそのまま音声化されるケースを観測した。これは低レイテンシ志向の streaming inference や軽量な形態素解析・アクセント推定の影響の可能性がある。一方 ChatGPT 系音声は、LLM側の文脈表現を強く保持した状態で読み決定が行われているように見え、Japanese pitch accent modeling および semantic-conditioned TTS の安定性が高い印象。幼児利用環境では、音声AIは conversational agent であると同時に implicit phonological supervision を提供するため、G2P誤りが語彙獲得へ与える影響は無視できない研究テーマになり得る。
Keywords: Japanese TTS, G2P, Text Normalization, Homograph Disambiguation, Prosody Modeling, Streaming Speech Synthesis, Semantic TTS, Child Language Acquisition, Human-AI Interaction