#データアーカイブ
Explore tagged Tumblr posts
Text
まだGoogle Drive使ってるの?ファイルコイン (FIL)の将来性を徹底解説
#有望銘柄の徹底解説#ファイルコイン#PoSt#暗号資産#分散型ストレージ#仮想通貨#PoRep#ブロックチェーン#検閲耐性#web3#ProofofReplication#Web3インフラ#FILとは#Filecoin#ファイルコイン将来性#データ保存#ファイルコインとは#ProtocolLabs#分散型ネットワーク#クラウドストレージ代替#メタバースデータ#IPFS#NFTストレージ#データ主権#データアーカイブ#ストレージマイニング#ファイルコイン仕組み#ProofofSpacetime#データセキュリティ#FIL
0 notes
Quote
2024年09月24日 08時00分 自然言語ライブラリ「wordfreq」がAIで汚染され更新不可能になったと作者が報告 さまざまなデータベースをもとに、自然言語の使用頻度を調べるためのPythonライブラリが「wordfreq」です。そんなwordfreqが、「AIで汚染され更新不可能となってしまった」と開発者のRobyn Speer氏が報告しています。 wordfreq/SUNSET.md at master · rspeer/wordfreq · GitHub https://github.com/rspeer/wordfreq/blob/master/SUNSET.md wordfreqがデータベースとして利用しているのは、2021年までにオンライン上で公開されていた自然言語のスナップショットです。しかし、「2021年以降、人間の使用言語に関する信頼できる情報を持っている人がいなくなった」ことを理由にwordfreqを更新することができなくなったとSpeer氏が報告しました。 記事作成時点で、インターネット上には大規模言語モデル(LLM)によって生成されたコンテンツが溢れています。これについて、Speer氏は「LLMの生成物は何のコミュニケーションも目的としない、誰によって書かれたものでもない、非常に雑多なものです。これをwordfreqのデータに含めてしまうと、単語の使用頻度データが歪んでしまいます」と語りました。 既存のwordfreqのデータベースにもスパムは含まれていたものの、これは管理が可能で、多くの場合簡単に識別することができたそうです。一方で、LLMの出力は「意図がないにもかかわらず、過剰な偏りが発生するケースがある」模様。この具体例のひとつが、チャットAIの代名詞となっているChatGPTがなぜか過剰に使用する「delve」(掘り下げる)という単語です。 以下は「delve」というフレーズを含むウェブページや記事のタイトルの数を調査したデータ。2022年までは全体の0.056%と非常に出現頻度が低かった「delve」が、ChatGPTの登場により2024年には0.793%にまで出現頻度を上げています。 元々、wordfreqは正式な印刷物だけでなく、X(旧Twitter)やRedditといったソーシャルメディア上のテキストもデータベースとしています。これは、より会話的な言語の使用法に関するデータを収集するという意図からです。 Twitterが全公開ツイートデータをまとめた「firehose」への無料アクセスを許可した時でさえ、使用条件によりSpeer氏はデータを収集した会社(Luminoso)の外部にデータを配布することは許可されていませんでした。そのため、wordfreqにはfirehoseのデータを入力として構築した「単語の使用頻度データ」が含まれているものの、データそのものは含まれていません。ただし、TwitterはXに変わり、firehoseへのアクセスも完全に遮断されています。 現状のXについて、Speer氏は「Xは寡頭政治家のおもちゃ、スパムだらけの右翼の汚水溜めとなってしまいました。Xが生のデータフィードを公開したとしても、そこに価値がある情報が見つかるとは思えません」と記し、Xがデータソースとしての価値を失ってしまったことを「wordfreqの更新が不可能となった理由のひとつ」として挙げています。 さらに、Redditも公開データアーカイブの提供を停止してしまいました。 このような状況を受け、Speer氏は「かつてwordfreqは私の興味の中心地で、自然言語処理ツー��に役立つような方法でコーパス言語学について学習していました。しかし、私がかつて『自然言語処理』と呼んでいた分野は、最近ではもはや見当たりません。生成AIに飲み込まれてしまいました。他の技術もまだ存在しますが、生成AIが話題を独占し、資金もすべて奪い取ってしまいます。私の嫌いなOpenAIとGoogleが管理するクローズドデータに依存しない自然言語研究はめったにありません」と記し、この分野について研究することに疲れてしまったと語っています。 wordfreqは多くの言語、大量のテキストを収集して構築された自然言語データベースです。これは、作成時としてはかなり合理的な方法を採用しており、当時は誰かから反対されるようなこともなかったそうです。しかし、記事作成時点ではこの種のデータベースは生成AIのトレーニングに使用されるため、人々は懐疑的な目を向けるようになっています。 そのため、Speer氏は「生成AIと混同される可能性のあるものや、生成AIに利益をもたらす可能性のあるものに取り組みたくありません。OpenAIとGoogleは、独自のデータを収集できます。そのために非常に高い代償を払わなければならないことを望みますし、自らが引き起こした混乱を絶えず呪っていることを望みます」と記しました。
自然言語ライブラリ「wordfreq」がAIで汚染され更新不可能になったと作者が報告 - GIGAZINE
0 notes
Text
仕事をもっと楽しむために 〜ジョブクラフティングの最新研究〜
【講師】 池田めぐみ先生(東京大学 社会科学研究所附属 社会調査・データアーカイブ研究センター 助教)
【内容】 近年、「ジョブ・クラフティング」という概念が提唱され、 仕事のやりがいや、モチベーション、パフォーマンスを高めるために注目されています。 特に���「やりがい」を重視するといわれている若手にとって、ジョブ・クラフティングは重要であると言われています。 仕事にやりがいをもって楽しむためにはどのようにアプローチすればよいのかを最新研究から学べるセミナーを企画しました。
・活躍する若手に共通する特性とは? ・ジョブ・クラフティングとは:3つの次元 ・仕事がつまらない、適職感がないと感じる方に対するアプローチ ・若手のうちに、ジョブ・クラフティングによって自分から仕事を楽しめるようにしていくには? ・自分の仕事をもっと楽しいことにするには? ・個人のジョブラフティングと、協同的に行うジョブ・クラフティング ・さらに学びたい方のためのリソース など、以上の内容を含む予定です。
【イベント概要】 日時:2024/03/13 (水) 19:00 - 21:00(見逃し配信あり) 方法:オンライン開催 参加費:4980円
【資料について】 当日の講演資料は、別売りです。希望者のみ1000円で購入することができます。 準備ができ次第、こちらのサイトに掲載いたします。
見逃し配信は一週間後に配信を開始いたします。2024年9月末まで視聴可能です。
【申し込みはこちら】
0 notes
Text
GINZA S-style 7月20日&30日データアーカイブ
いつもご覧いただきありがとうございます。みやです@miya_slo
近隣店舗のグランドオープンが迫るGINZA S-styleさんのデータをアーカイブ的に置いておきます。
まぁ盛り上がることは間違いないんでデータ見て狙いを作ってくれたら嬉しいです。
7月20日全体データ
機種ごとの平均差枚&機械割
末尾ごとの差枚
台構成と店内の差枚+台
7月30日全体データ
機種ごとの平均差枚&機械割
末尾ごとの差枚
台構成と店内の差枚+台
7月20日全体データ
平均ゲーム数4740回
総差枚 +37737枚
機械割(出率)101.101%
1台あたり約 +167枚
※データはすべて独自調査。 一部台のボーナス中、ART準備中、AT中のゲーム数を計算に含まず。よって機械割は参考値です。(出率は実数値よりも幅が大きく計算されます)
機種ごとの平均差枚&機械割
この日は番長3増台&ブラクラ4増台
View On WordPress
0 notes
Text
富士通研究所、大量データアーカイブを実現する磁気テープストレージのアクセス高速化技術を開発
http://dlvr.it/RR7MYR
0 notes
Text
新年度のご挨拶
みなさんこんにちは。
さて、2017年度は東京大学のAMSEAでお世話になっておりましたが、そちらは3月末をもって退職し、2018年4月1日(仕事始めは2日)より、立教大学社会情報教育研究センターの助教Dに着任することになりました。
というポストは1日に書いていますが、SNSでのお知らせは2日なので、1日に見た人はラッキーですね(笑)。researchmapも更新しています。
所属先の社会情報教育研究センターはデータアーカイブで、(量的)社会調査のデータを預かり、保存し、公開したりしているところです。私はそこの社会調査部会というところの所属になります。
ちなみにこのDというのは学内の助教の仕事の種類に応じて振られるようです。
質的調査、フィールドワークをしてる私がなぜ?、と思われる方も多いかもしれませんが、一応専門社会調査士なので(笑)、量的調査については実はちょっとやっていたりしました。
そのなかで、量的調査は個人、とりわけ院生や若手研究者では難しく、欲しい情報を得られない状況に不自由を感じることもありました。かつ、フィールドワークをやっていると、ミクロな状況ばかり着目しがちでもう少し広い状況を知るためにはやはりある程度の規模の社会調査の情報も併用したいなということも多々あります。
そして今回ご縁があり、データアーカイブに関わることになりました。
私みたいな思いをした人が少しでも量的データに親しみを持ってもらえるように頑張っていきたいと思います。
このプロセスで結構色んな人に相談したりご意見をもらったりしてお世話になりました。ありがとうございます。ちゃんと働きます。
今回、契約書をみて嬉しかったことが2つあります。
1つは、職員ではなく教員になったこと。
もう1つは、職務に研究が含まれること。
勿論、職員でも優秀な専門性を持った方はいますし大切ですし、教育なども大切な仕事です。とはいえ、ちょっと思うところはあります。
些細なことだけど、こうやって積み重ねながら自分のやりたいこととやるべきこと、求められていることをやっていければと考えています。
最長5年池袋におりますので、お近くに来た際はぜひ。
とりあえず2018年度は博論を書き上げ、学会発表をしてばしばし叩かれてくる予定です。一応2本論文が出る予定なので、そちらもおいおい宣伝します。
2017年度はアート業界を中心で結構現場サイドの仕事をしてましたが、2018年度は社会学業界に戻り、そちらで頑張る予定です。
引き続きよろしくお願いします。
0 notes
Link
0 notes
Quote
サイト内のデータアーカイブにおいて、日本全国でご用意している『地上解像度25cm』の航空写真に加え、ビルなどが多い都心エリアにおいては、さらに高精細な『地上解像度16cm』の航空写真の撮影履歴データをご用意いたしました。プレビューサイトで確認した「GEOSPACE 航空写真」を、ローカル環境で使える地図データとして、詳細な都市計画図や地域発、植生伐採や農林地管理の基礎調査、ハザードマップなどにご活用いただけます。
「GEOSPACE 航空写真」高精細データアーカイブをリニューアル:時事ドットコム
0 notes