2023情報I 3学期
第5回 授業の振り返りより
質問より
- 授業中に第2正規形には触れていない気がしました。第2正規形はどこのことを指すのですか。
- 授業の冒頭に「第3正規形にすると、第2正規形にもなってしまうので、1と3しかやりません」説明しました。第2正規形について気になるようでしたら、自分で調べてみてください。
- 商品などのデータと同じように画像も正規化することができますか?また、どうやって正規化するんですか?
- 正規化は構造化されたデータについておこなうものです。画像などは非構造化データなので正規化できません。
- バーコードデータはどこまで正規化するべきですか?
- どこまで正規化できるかで考えてください。バーコードの番号で価格、決まりません。品名も決まりません。このままだと正規化できないということです。店舗のデータベースであれば、どちらも一意に決まるので、別々のテーブルで管理すべきですよね。
- 授業でメモしたものを一覧で表示できるようにしてほしいです
- なるほどね。そういう機能はClassiにはないですね。ノートですから、こちらでまとめるのもいかがかと思います。Classiは複数画面で開けるので、過去のアンケート回答とポートフォリオを並べて表示して、コピペしていくのが良いのではないでしょう。亜
- 教科書に、外れ値は入力ミスや測定ミスが原因でなければ、問題の発見や解決の手がかりになることもあると書かれているのですが、これはどういう意味ですか?
- 外れ値にも意味があるということですね。例えばテストの点を考えてください。上に外れ値がある場合、問題が漏洩しているかもしれません。下に外れ値がある場合、解答方法や採点に問題があるかもしれませんよね。外れ値だからといって、すぐに切り捨てては良くないのです。
- その関係が疑似相関なのかそうでないかを明確に判別する方法はあるのですか。
- 明確に判別できないこともありますが、疑似相関を見抜く手法として、統計的消去というものがあります。こちらの説明がわかりやすいので見てください。
感想より
- 売り上げた商品に番号をつけたり、顧客にも番号を付けたりして、データを分かりやすいようにすることで活用しやすく、検索もしやすいようにしている仕組みで企業がデータを蓄積してる事に驚いた。テレビ局でも過去の映像に関連するワードをデータ化してあとから検索出来るようにする職業があるらしく、今回知ったこの事なのかなと思った。
- なるほど。そんな仕事もあるんですね。ただ、それは正規化じゃなくて構造化ですね。タグ付けすることで映像という飛行増加データを構造化しているんですね。蓄積された映像というデータが、資料映像として活用できるようにするには、そういう仕事も必要なんでしょうね。
- テレビ番組などで何の因果関係もなく、ただ相関係数があるだけのグラフが出てくることがあるが、騙されないようにしたいと感じた。データを見やすくすることが大切だと思った。
- そうなんですよね。以前、「お米を食べる国の人は新型コロナウイルスにかかりにくい」と書いてあるポスターを見て、大丈夫かなと思ったことがあります。
- 今回の授業では、データの利用の仕方について少し深掘りした。あらゆるデータが取り巻く社会生活の中で、データを効果的に使うアイデアを出すのがすごく難しいなと感じた。アイデアは才能なのだろうか。アイデアの出し方はないのだろうか。
- セオリーはありますが、アイディアの出し方はないですね。ここが人間の力の見せ所かもしれません。
- 商品名がバラバラでうまく正規化できない話が授業で出てきたが、その場合の統一する商品名はその商品のバーコード番号を検索して出てきた商品名でいいと思う。
- 検索して出てきた商品名でいいんですよ。さて、誰が検索します。数千件あるんですけど。ChatGPTにバーコード番号から商品名を検索させようとしたら、できませんって言われました。
- 数学は苦手だけど、情報と絡めて勉強する時に、数学がわかっていれば、人生にすごく役に立つと分かったから、理解は完璧にして、いつか必要になった時に仕組みをパッと思い出せるようにしたいと思った。情報処理能力が高ければ、定期テストも大学受験も余裕だと思うから、今のうちから、その能力を上げておこうと思った。
- パッと思い出せなくても、「こんなことできたなぁ」程度に思い出せれば、調べればすぐにできるはずです。一度経験してありますからね。
- バーコードの場面で、同じ商品なのに違うバーコードのものがありました。森永ラムネのやつです。「4902888232374」と「49811353」です。なにか違いがあるのかなと思いました。
- 当然なのですが、別の商品です。商品名は森永ラムネですが、パッケージが違い、量目や価格も違います。短いバーコードの方が、小さなパッケージだと思います。
- バーコードのデータを見てみて冬休みの立高生の消費傾向が分かって面白かった。冬休みだからみんなでできるパーティー系(桃鉄)ゲームを買ったりしている人が多いのかなと思った。データを分析するとマーケティングに有効に使えるなと思った。
- 体調管理にヨーグルトや納豆、脳にはブドウ糖のラムネ、眠くならないカロリー補給にカロリーメイトなどの傾向もありますよ。ただ、他の学校と比べてないんですよね。
- 第1正規化は1つの枠に複数のデータを入れずに1つのフィールドの中の情報を簡単にすることで、第3正規化は共通部分と変更されうる部分で分割する(キーで特定できる)ことだとわかった。
- 外れ値を数一で習ったことがあったので頭に入りやすかった。最近何回も数一と情報が結びついているなと感じるようになった。情報の点数をよくするために、いろんな教科から情報に結び付けることが大切なのではないかと感じた。データの分析は課題探究でも大切なことだと思った。
- データを見て理解することも重要だが、データの目的を把握することも重要だと分かった。データには欠損値や外れ値があり、定期テストでの欠席者は欠損値の例だと知った。
- データについて知識で勉強するのも大事ですが、それ以上にデータに触れてみるということが、授業で習うことの大切さだと思いました。今日のデータでは、バーコードが間違っているものもあり、利用できるデータをそのまま分析していい訳では無いということに気付かされました。
- データのことでおでんが売れると熱中症の人が減るから夏にもおでんを売ろうのような話があって、意外とすぐに判断しろと言われると難しいものだと思った。
- AIはただデータ間の相関のみ見ているだけで、しかしその量が膨大であるため、AIも人間も(AIが分析した)相関が高い因果関係はわからず、AIによるデータ分析は信用しきれない。しかしながら、AIがこんなにも使われている背景にはAIの扱うデータの膨大さにより、ほぼ何かしら因果関係があると断定できるということがあると思う。しかし、実際はAIの性能や与えるデータの質(偏りがないか、十分な量があるかなど)によっては信頼に値しない分析結果が出てしまうこともあると思うので、AIを使う時はこの辺りを気をつけて使うようにしたい。
- 定理や公式などから計算でデータを求めたりすると比較的正確なデータができる。学校や工場などで実際のデータを利用する場合は、具体的な数字が出るため、正しいデータが出るが、そこから傾向を他人に伝えるときや公式のような一般化をしたいときには、実際にやって出したデータだからこそ起こるイレギュラーな少数のデータによって振り回されてしまうという欠点がある。ということを小学生の時の自由研究で知っていたらどれだけ楽だったかと思った。家族や友達に反射神経の実験をしたときにグラフにしたりまとめを描いたりするときに、まとめた文章に似合わないデータが1,2個あった。クラスで発表するときにはうまくはぐらかしたけど、外れ値を除外すればいいということが分かった。いい方法だと思った。
- データを集めた際に外れ値が出てしまうのは理解の実験などを通して経験したことが何度もあり、その外れ値はある1つの結果として残すことを先生から言われ、そのようにしていたが、理解の実験とは訳の違う本当にそれを1つの結果として残しておくことが適切な判断であるのか考えなければならないようなデータ内容である場合があることを学んだ。しかし理科の実験の場合、正しい結果が分かっていることが多く、1つの結果として残しておいても問題なく済まされることがほとんどであると思う。これがアンケートなどたくさんのデータを集めるものとなると、まだ結果が未知であるもののデータをとり、外れ値があった場合、その外れ値をどのように扱うかを考えなければならないように思う。もしかしたらその外れ値が非常に貴重な値であるかもしれないし、本当にデータとしてふさわしくない値なのかもしれないので、様々な可能性を考えて外れ値を取り扱うべきだと思う。
- 最初はみんなのバーコードがなぜデータベースにできないのか想像がつかなかったけれどいろいろ操作してみてダメな理由がよくわかった。正規化が便利だと思った。
- 適切なデータを吟味することの必要性を感じた。バーコードのデータをまとめる件は、やはり最も長く書かれている名前を基準にするのが、間違いないのではないかと思った。
自己評価集計
ワードクラウド
- 3つのキーワード
- 感想や気づき
テキストマイニング 無料ツール by ユーザーローカル
前のページに戻る