金沢工業大学DataDreamers様|データサイエンティスト育成団体が設立1年目で大学生向けハッカソン優勝の秘訣をお伺いしました

学生の自由な創作活動を支援する金沢工業大学の課外活動である「夢考房」。2023年春、新たに夢考房内に発足した「金沢工業大学研究夢考房Start Up Project Data Dreamers」(以下、DataDreamers)は、設立1年目で「Azure OpenAI Service 大学生向けハッカソン」の優勝チームを輩出する快挙を成し遂げました。

金沢工業大学様とは、拙著『データ分析のリアル まるごとQ&A(日経BP 日本経済新聞出版)』をプレゼントさせていただくなど、以前から友好的なお付き合いをさせていただいております。
今回はDataDreamersの取り組みとハッカソン優勝に至った理由について、創設者の増田圭亮様、優勝チーム「Data Dreamers caffeine coder」のメンバー、および顧問の狩野剛准教授にお話を伺いました。

▼登壇メンバー
増田圭亮様(大学院修士課程1年、DataDreamers創設者)
寺澤望様(情報工学科2年 チームリーダー)
高輪一貴様(情報工学科3年)
河合真志様(情報工学科2年)
山内直哉様(情報工学科 1年)

社会で活躍するデータサイエンティスト育成を掲げ発足


「Data Dreamers caffeine coder」メンバー(画像左から河合様、増田様、寺澤様、山内様、高輪様)

【データビズラボ】DataDreamersとはどのような組織なのでしょうか。

【増田】DataDreamersは、金沢工業大学の課外活動「夢考房」に所属するプロジェクトとして2023年の春頃に発足しました。主に次の2つのテーマを軸に、社会課題を解決できるデータサイエンティストの育成を目指して活動をしております。

・データ分析を扱う技術向上の機会を得られる場の構築
・オープン・クローズドな実データを扱った社会課題の解決

参加の条件は「データサイエンスに興味がある金沢工業大学の学生」のみであり、現在は学部1年生から博士1年生までの合計53名が所属しています。

【データビズラボ】DataDreamersはどういったきっかけで立ち上げたのでしょうか。

【増田】2022年8月から11月の間、私と1学年上の陸田駿弥の2人が、NTT西日本様と金沢工業大学の産学共同プロジェクト「KITコーオプ教育プログラム」へ参加したことが始まりです。このコーオプ教育では、NTT西日本様の社員としてアナリスト業務やコンサルタント業務に従事し、ビジネス現場でのデータサイエンスの活用の仕方を実体験することができました。

このコーオプ教育への参加は、データサイエンティストとして大きな収穫を得られる体験であったのは間違いありません。一方で参加メンバーが最大2名までと限られていたため、コーオプ教育の目的である「社会で活躍できるデータサイエンティストの育成」を実現するためには、もっと多くの人間がデータサイエンスを学ぶ場が必要であると考えました。そこで同じ思いを抱いていた陸田と一緒に、夢考房の仕組みを活用してDataDreamersを立ち上げました。

優勝チーム「caffeine coder」のコンセプトは”チャレンジが引き起こす化学反応”

「Data Dreamers caffeine coder」リーダー・寺澤望様

【データビズラボ】発足から1年で「Azure OpenAI Service 大学生向けハッカソン」で優勝するチームを輩出されました。優勝を飾った「Data Dreamers caffeine coder」(以下、caffeine coder)について教えてください。

【増田】今回のハッカソンには、DataDreamers内で参加を希望した15名を5名ずつに編成した3チームが参加しました。caffeine coderは比較的経験浅めのメンバーを集め、未知の領域へのチャレンジが化学反応を引き起こすことを期待する”原石探し”のようなコンセプトでチームを編成しています。

【データビズラボ】チームリーダーに2年生の寺澤さんを抜擢した理由を教えてください。

【増田】今回私は3つのチームを横断してマネジメントする必要がありましたので、自分がチームリーダーにはならないとは決めていましたので、各チームごとにリーダーを立てました。寺澤君からは以前からプロジェクトマネジメントに興味があると聞いていましたし、リーダーに必要な積極性やコミュニケーション能力を十分に備えていると思っていましたので、”原石探し”の一環としてcaffeine coderのリーダーをお任せしています。

【データビズラボ】ちなみにcaffeine coderというチーム名には何か由来はあるのでしょうか。

【寺澤】caffeine coderのチーム名は私が命名しました。ハッカソンは、短時間の中でチーム一丸となって開発をする場であり、時には徹夜の必要もあるイベントです。今回のチームには初めてハッカソンに参加するメンバーもいましたので、我々も「コーヒーやエナジードリンクを飲みながら集中して最後までがんばろう」という意気込みを込めてcaffeine coderという名前をつけました。

データサイエンス学習の常識を打ち破る「Documentor-GPT」でハッカソン優勝を勝ち取る

金沢工業大学准教授・狩野剛様

【データビズラボ】caffeine coderは今回のハッカソンで「Documentor-GPT」を開発しました。Documentor-GPTは何を目的としたアプリケーションなのか、概要を教えてください。

【寺澤】Documentor-GPTは、学生のデータサイエンス学習のサポートを目的に開発したアプリケーションです。データ分析基盤やツールを提供する会社の公式ドキュメントは、その多くが英文で記述されているため、情報の信頼度が高い一方で学生が理解しにくいという問題があります。そのため多くの学生はドキュメントが和訳・要約されたWebサイトなどを参考に学習を進めますが、今度は情報の鮮度や信頼度に課題が残ります。

そこで、私たちはGPTに最新のドキュメントを読み込ませ、学生がドキュメントを参照するAIと対話できる仕組みを作ることで、学生の高効率なデータサイエンス学習の実現を目指しました。

▼Document-GPTイメージ

▼技術の全体像


【データビズラボ】53チームが参加するハッカソンでDocumentor-GPTが優勝できた要因はどこにあったのでしょうか。

【寺澤】ドキュメントをGPTに読み込ませるためにRAG(検索拡張生成)を採用した点が大きな要因にあると考えています。

今回のハッカソンで用いられたGPT3.5は、ネット上にある2021年9月までのデータしか扱うことができません。そのため、学生はGPTにプログラミングに関する質問をしても、GPTは2021年9月以前の情報しか持っていないため、現代の学生が必要とする回答を返せないという問題があります。

そこでDocumentor-GPTは、生成AIに追加のトレーニングをさせる必要なく外部のデータを参照させる技術であるRAGを採用し、GPTがカバーしていない情報の参照を可能としました。この結果、誰かが翻訳・要約したテキストという二次情報ではなく、一次情報である公式ドキュメントを参照した信頼性の高い回答を生成させることが可能となりました。

この仕組みの実現により、翻訳・要約済みのテキストを用いて学ぶという、プログラミング学習の常識を打ち破った点が高く評価されたのではないかと思っています。

▼決勝進出時のデモ動画

【増田】私はDocumentor-GPTを実現したアイディアや技術が評価された背景には、caffeine coder内のチームワークがあると考えています。正直に言いますと、実はcaffeine coderは他の2チームに比べると技術力はやや劣ると思っていました。しかし蓋を開けてみれば、各メンバーがそれぞれ自分の役割を認識しながら、優れたチームワークを発揮してくれました。

山内君が積極的にプログラムを組み、河合君がフロント部分を固め、高輪君が手が足りないところを柔軟に埋め、寺澤君がリーダーとしてしっかりまとめ上げる。改めて振り返れば、それぞれが自分がやるべきことに真摯に向き合いながら、他のメンバーに気を配り続けられたことこそが優勝を引き寄せる要因になったと思います。


画像左からデータビズラボ代表・永田、社員・曽山

【データビズラボ】そうだったんですね。実際の仕事はチームでどのように進められたのですか?

【寺澤】ほぼはじめましての状態だったので、最初の顔合わせは対面で行うなど、対面とオンライン両方を使って進めていきました。Notionを使用してタスク管理をしていき、他にも1日の終わりに進捗確認を行ったり、議事録を残すなどしたりしてリーダーだけでなく、メンバー全員が進捗を把握できるように務めました。

1年生や初出場のハッカソンへの知見が浅い人を、経験のある人たちが上手く引っ張っていくことができました。そのため、意見対立があまりなく、足並みをそろえて進むことができたということもあるかと思います。

【データビズラボ】Documentor-GPTを作成するにあたって苦労したポイントはなんでしょうか。

【山内】私はドキュメントをGPTに適した形に変換する作業を自動化するプログラムを作りました。ドキュメントは大きく3種類に分類できるのですが、それぞれカテゴリーの分け方やタイトルの付け方が異なります。そのままの形ではGPTが読み込めませんので、一定フォーマットに当てはめる形に変換させるのに苦労しました。

【河合】私はWebアプリケーションのUIを担当しました。今回はStreamlit(ストリームリット)というライブラリを使ってUIを作成しました。Streamlitは自動的にアプリケーションのUIを作ってくれるので、開発時間が短いハッカソン向けといえます。しかし、私がこれまでに使った経験があるライブラリとは異なる構成だったため、まずは使い方を学ぶのが大変でした。ただ、ハッカソンが始まる前にStreamlitの採用は決まっていたので、土壇場になって慌てることはありませんでした。

【高輪】私がDataDreamersに入ったのは3年生になってからで、参加直後にこのハッカソンに参加しました。DataDreamersに入るまでハッカソンの存在すら知らず、短い期間で何をやればいいのかすらわからないところからのスタートだったので、まずは皆さんに追いつくのが大変でした。しかし、皆さんとお互いに協力しながら開発にあたり、意見の交換をしながらDocumentor-GPTを作り上げるところに貢献できたと思いますので、充実感と成長の手応えを感じられました。

データ領域での成長の秘訣


【データビズラボ】寺澤様は、大学の忙しい時期にハッカソンに取り組み、本当に大変だったと思うのですが、ご自身が意識されている成長のマインドなどあれば教えてください。

【寺澤】突き詰めると、エンジニアリングという行為も企業の利潤追求のための手段の一つに過ぎません。集団の中で生きていく力を持った、技術力とビジネス力、もしくは人間力とでもいうべき能力のかけ合わさっている存在になりたいと思っています。

また、データの仕事で重要なのは技術だけじゃないと気づいていました。審査員も全てを理解しているわけはないですし、技術的にわからない部分はもちろんあります。そういう人に、説明し切れる説明力も、データ領域で活躍するには重要だと思います。

DataDreamersはデータサイエンティストとして成長するチャンスをつかめる場所

 

DataDreamers集合写真

「Azure OpenAI Service 大学生向けハッカソン」Data Dreamersの参加メンバー集合写真

【データビズラボ】ハッカソンの優勝は、メンバーの皆さんにとっても素晴らしい経験になったかと思います。その経験を踏まえた将来のビジョンがありましたら教えてください。

【高輪】自分にはない知見を持ったメンバーの皆さんと一緒にDocumentor-GPTを作り上げる経験を経て、参加前よりも知識と技術の幅を広げることができました。25年度より富山の企業への就職が決まっていますので、ここで身につけたものを生かして北陸の課題解決に貢献したいと思っています。

【河合】これまで何度かハッカソンに参加した経験はありますが、今回寺澤さんがcaffeine coderをリードする姿を見て、自分もプロジェクトリーダーに挑戦したいと思うようになりました。来年度には3年生になりますので、上級生としてチームを引っ張るマネジメント力やリーダーシップの面で成長していきたいと思っています。

【山内】私もエンジニアとして技術を磨くことを第一に考えていましたが、増田さんや寺澤さんの動きを見て、マネジメント力の重要性を知りました。技術力の向上はもちろん続けますが、いずれ自分もリーダーとしてチームを引っ張るような立場になれるように経験を積んでいきたいと思います。

【データビズラボ】最後に、DataDreamersがこれからどのように発展していくのか、イメージを教えてください。

【寺澤】今回のハッカソンで決勝に進んだ3チームのうち、2チームがDataDreamersの所属でした。その実績だけでも、DataDreamersには多くの成長のチャンスがあることが伝わると思います。私自身、リーダー経験を含めデータサイエンティストとして多くの成長の機会をいただきました。これからも成長を求める多くのデータサイエンティスト志望の学生に集まって欲しいと思いますし、多くの方がチャンスをつかめる場所であり続けると思います。

【増田】私の中にはDataDreamersで叶えたい目標が2つあります。まずは短期的な目標としてデータサイエンティストを育成するプロジェクトを掲げていますので、所属メンバーが社会で活躍できるようなデータサイエンスの力を身につけられるような仕組みを、今以上に作り上げたいと思っています。

もうひとつは長期的な目標として、DataDreamersが組織として地域企業や自治体さんと協力して、データサイエンスの力で課題を解決するような役割を担いたいと考えています。DataDreamers立ち上げのきっかけとなったNTT西日本さんのコーオプ教育のように、地域に根差したデータサイエンティストを輩出するような土壌を金沢工業大学に作っていきたいですね。

 

 

 

コメント

お問い合わせ

サービスに関するご質問や講演依頼など、お気軽にお問い合わせください。2営業日以内にお返事いたします。

ビジネスの成果にこだわるデータ分析支援
データ分析/活用にお困りの方はお気軽にお問い合わせください
ビジネスの成果にこだわるデータ分析支援
データ分析/活用にお困りの方は
お気軽にお問い合わせください
お役立ち資料