統計的機械学習・データサイエンス
西垣 貴央助教
統計的機械学習・データサイエンスとは
現在の研究
インターネット上には、レビューサイトのサクラやフェイクニュースなどのような真偽の定かでない情報やデータが沢山存在します。サクラやフェイクニュースには根拠が薄く、他のデータと比べると大きく異なることが考えられます。そこで、文章の独立性に基づいてデータの真偽や信頼性の高さを明らかにできれば、インターネットを使用するうえでより便利になると考えています。独立性に基づいてLAタイムズの新聞記事に対して独立な話題を抽出した表が以下の表です。これを見ると、話題1は外国の話題、話題2は娯楽の話題、話題3は国内の地域ニュース、話題4は金融、話題5はスポーツ、話題6は国の政治のニュースに分かれていることがわかります。このように独立性を見るだけで、話題の分析が簡単に行えます。
他には、楽器演奏初心者のための自動編曲というテーマで研究も行っています。自宅で楽しめる趣味の一つとして楽器演奏が注目されていますが、それを続けるのはハードルが高いです。特に楽器演奏初心者は、練習過程で自分が好きな楽曲とは異なる練習用の楽曲を使用する必要があるため、モチベーションを保つのが難しいです。そこで、楽器演奏初心者が好きな楽曲を、演奏初心者の習熟度に合わせて自動で編曲するシステムがあったら、楽器演奏初心者のモチベーションを保つことができるのではないかと考えています。そのためには、以下の問題を解決しなくてはなりません。
1.楽器演奏初心者の習熟度を自動判定:マイク音源から演奏した曲を自動で採譜し、実際の楽譜と比較を行い、演奏者の習熟度を判定します。
2.習熟度に合わせた楽曲の自動編曲:1で判定した習熟度ごとによる楽器演奏初心者がつまづきやすい箇所を発見し、楽曲の印象を損なわないようにより簡単な楽譜へ自動で編曲を行いたいです。
1.楽器演奏初心者の習熟度を自動判定:マイク音源から演奏した曲を自動で採譜し、実際の楽譜と比較を行い、演奏者の習熟度を判定します。
2.習熟度に合わせた楽曲の自動編曲:1で判定した習熟度ごとによる楽器演奏初心者がつまづきやすい箇所を発見し、楽曲の印象を損なわないようにより簡単な楽譜へ自動で編曲を行いたいです。
今後の展望
近年、このデータサイエンスの分野は数多くの研究がされており、生成系AIなど目覚ましい進歩を遂げています。そうした状況の中、身近で困っていることを解決するにはまだまだデータが足らない問題や、生成系AIなどを利用するだけですぐには解決できないことも多いです。そこで小規模なデータでも上手く扱える、統計的機械学習の技術を用いて様々な研究を行っていきたいと思っています。