#gpt o3
Explore tagged Tumblr posts
Text
1️⃣ GPT o3
2️⃣ DeepSeek-R1-0528
3️⃣ Claude Opus 4
4️⃣ Gemini 2.5 PRO
This radar chart reveals how today's leading AI models compare across key capabilities that directly impact creative workflows, from code generation (LiveCodeBench, HumanEval) that can help automate repetitive tasks or create interactive experiences, to advanced reasoning (MATH, AIME_2024) that enables more sophisticated problem-solving in complex creative projects
OpenAI's GPT o3 (shown in bright blue) demonstrates exceptional all-around performance, particularly excelling in general knowledge (MMLU) and coding tasks, making it a versatile choice for creators who need an AI assistant that can handle everything from conceptual brainstorming to technical implementation.
DeepSeek and Claude Opus 4 show distinctive strengths in mathematical and analytical tasks, which translates to better performance in data-driven creative work like generative art algorithms or music composition, while Gemini 2.5 PRO's balanced profile suggests reliability across diverse creative applications
#machinelearning#artificialintelligence#art#digitalart#mlart#datascience#ai#algorithm#bigdata#gpt o3#deepseek#claude opus 4#gemini 2.5 PRO
1 note
·
View note
Text
O que é o ChatGPT o3 Mini e como ele pode mudar o jogo da IA?
A OpenAI, uma das empresas mais inovadoras no campo da inteligência artificial (IA), anunciou recentemente o lançamento iminente do ChatGPT o3 mini, previsto para o início de 2025. Apesar do nome que sugere algo pequeno, o impacto desse novo modelo promete ser gigantesco. Mas o que isso significa para nós, pessoas comuns? Vamos simplificar tudo isso! O que é o ChatGPT o3 mini? O ChatGPT o3 mini…
0 notes
Text
In the near future one hacker may be able to unleash 20 zero-day attacks on different systems across the world all at once. Polymorphic malware could rampage across a codebase, using a bespoke generative AI system to rewrite itself as it learns and adapts. Armies of script kiddies could use purpose-built LLMs to unleash a torrent of malicious code at the push of a button.
Case in point: as of this writing, an AI system is sitting at the top of several leaderboards on HackerOne—an enterprise bug bounty system. The AI is XBOW, a system aimed at whitehat pentesters that “autonomously finds and exploits vulnerabilities in 75 percent of web benchmarks,” according to the company’s website.
AI-assisted hackers are a major fear in the cybersecurity industry, even if their potential hasn’t quite been realized yet. “I compare it to being on an emergency landing on an aircraft where it’s like ‘brace, brace, brace’ but we still have yet to impact anything,” Hayden Smith, the cofounder of security company Hunted Labs, tells WIRED. “We’re still waiting to have that mass event.”
Generative AI has made it easier for anyone to code. The LLMs improve every day, new models spit out more efficient code, and companies like Microsoft say they’re using AI agents to help write their codebase. Anyone can spit out a Python script using ChatGPT now, and vibe coding—asking an AI to write code for you, even if you don’t have much of an idea how to do it yourself—is popular; but there’s also vibe hacking.
“We’re going to see vibe hacking. And people without previous knowledge or deep knowledge will be able to tell AI what it wants to create and be able to go ahead and get that problem solved,” Katie Moussouris, the founder and CEO of Luta Security, tells WIRED.
Vibe hacking frontends have existed since 2023. Back then, a purpose-built LLM for generating malicious code called WormGPT spread on Discord groups, Telegram servers, and darknet forums. When security professionals and the media discovered it, its creators pulled the plug.
WormGPT faded away, but other services that billed themselves as blackhat LLMs, like FraudGPT, replaced it. But WormGPT’s successors had problems. As security firm Abnormal AI notes, many of these apps may have just been jailbroken versions of ChatGPT with some extra code to make them appear as if they were a stand-alone product.
Better then, if you’re a bad actor, to just go to the source. ChatGPT, Gemini, and Claude are easily jailbroken. Most LLMs have guard rails that prevent them from generating malicious code, but there are whole communities online dedicated to bypassing those guardrails. Anthropic even offers a bug bounty to people who discover new ones in Claude.
“It’s very important to us that we develop our models safely,” an OpenAI spokesperson tells WIRED. “We take steps to reduce the risk of malicious use, and we’re continually improving safeguards to make our models more robust against exploits like jailbreaks. For example, you can read our research and approach to jailbreaks in the GPT-4.5 system card, or in the OpenAI o3 and o4-mini system card.”
Google did not respond to a request for comment.
In 2023, security researchers at Trend Micro got ChatGPT to generate malicious code by prompting it into the role of a security researcher and pentester. ChatGPT would then happily generate PowerShell scripts based on databases of malicious code.
“You can use it to create malware,” Moussouris says. “The easiest way to get around those safeguards put in place by the makers of the AI models is to say that you’re competing in a capture-the-flag exercise, and it will happily generate malicious code for you.”
Unsophisticated actors like script kiddies are an age-old problem in the world of cybersecurity, and AI may well amplify their profile. “It lowers the barrier to entry to cybercrime,” Hayley Benedict, a Cyber Intelligence Analyst at RANE, tells WIRED.
But, she says, the real threat may come from established hacking groups who will use AI to further enhance their already fearsome abilities.
“It’s the hackers that already have the capabilities and already have these operations,” she says. “It’s being able to drastically scale up these cybercriminal operations, and they can create the malicious code a lot faster.”
Moussouris agrees. “The acceleration is what is going to make it extremely difficult to control,” she says.
Hunted Labs’ Smith also says that the real threat of AI-generated code is in the hands of someone who already knows the code in and out who uses it to scale up an attack. “When you’re working with someone who has deep experience and you combine that with, ‘Hey, I can do things a lot faster that otherwise would have taken me a couple days or three days, and now it takes me 30 minutes.’ That's a really interesting and dynamic part of the situation,” he says.
According to Smith, an experienced hacker could design a system that defeats multiple security protections and learns as it goes. The malicious bit of code would rewrite its malicious payload as it learns on the fly. “That would be completely insane and difficult to triage,” he says.
Smith imagines a world where 20 zero-day events all happen at the same time. “That makes it a little bit more scary,” he says.
Moussouris says that the tools to make that kind of attack a reality exist now. “They are good enough in the hands of a good enough operator,” she says, but AI is not quite good enough yet for an inexperienced hacker to operate hands-off.
“We’re not quite there in terms of AI being able to fully take over the function of a human in offensive security,” she says.
The primal fear that chatbot code sparks is that anyone will be able to do it, but the reality is that a sophisticated actor with deep knowledge of existing code is much more frightening. XBOW may be the closest thing to an autonomous “AI hacker” that exists in the wild, and it’s the creation of a team of more than 20 skilled people whose previous work experience includes GitHub, Microsoft, and a half a dozen assorted security companies.
It also points to another truth. “The best defense against a bad guy with AI is a good guy with AI,” Benedict says.
For Moussouris, the use of AI by both blackhats and whitehats is just the next evolution of a cybersecurity arms race she’s watched unfold over 30 years. “It went from: ‘I’m going to perform this hack manually or create my own custom exploit,’ to, ‘I’m going to create a tool that anyone can run and perform some of these checks automatically,’” she says.
“AI is just another tool in the toolbox, and those who do know how to steer it appropriately now are going to be the ones that make those vibey frontends that anyone could use.”
9 notes
·
View notes
Text
ちょっとしたきっかけで、科学とAIについてのアドベントカレンダーの記事を一つ書くことになったのだが、書くのはいいとしてどこで書けばいいのか良くわからないので、ここで書くことにした。
ここは普段はてなブログを拠点にしている自分が軽い独り言を書くための場所で、どちらかというとX(Twitter)のような短文が中心なので、あまり長々と書く場所ではない��と自分で勝手に決めている)のだけども、内容が内容なのでここに記すことにした。
普段は独り言なのでいきなり本題から入ってしまうが、今回はアドベントカレンダーなので自己紹介をしなければならない。自分は、AlphaFold2というAIに自分の専門分野の中核を撃たれたこと(そしてそこからある種のドミノ倒しが起きたこと)で、学生の頃から数えて20年あまり所属している分野が混乱とともに「バラバラ」になっていくのを見ている、大学の一教員である。
世間はAlphaFoldがノーベル賞を取ったこともあり、かなりの歓迎ムードだが、分野史を追えばAlphaFold2を作ったDeepMindがある種の侵略者・征服者(他分野からいきなりやってきて、コンテスト荒らしどころか20年以上続いたコンテストそのものを数年で終わらせた)であるのは明らかで、この個人的な体験が今回のこのポストを書く上での発端になっている。
正直なところ、実際に科学研究というものを曲がりなりにも職業として行っている立場として、科学分野の大きな問いや分野そのものが「唐突に終わりうる」ということ、特に当該分野で長年知見を積んできた人間ではなく、全く異なる技術を持って横から来た人間が分野を終わらせることがあるという事態に直面すると、専門性を維持するモチベーションを保つのが難しくなることを、じわじわと実感しつつある。自分は大学の講義などでこの一連の歴史の流れを年に数回口にすることもあってか、そのたびに少しずつ心の中に澱のようなものが溜まるように思う。
AlphaFold2の存在が明らかになったのは2020年の11月末だが、一般に公開されたのは2021年7月のことだった。DeepMindは前バージョンのAlphaFoldを出し渋ったこともあり、AlphaFold2が計算済み予測モデルのデータベースと共に全面フリーで公開されたことは今思い返しても信じがたい。当時の混乱をエッセイとして書けと言われればいくらでも書けるくらいで、たぶん同分野の自分と同世代~上の世代の人たちはみな同じだろう。
そしてそれから1年半ほどあとの2022年11月末、ChatGPTが世に出た。ChatGPTを使ってみてしばらくして思ったのは「自分たちが味わった衝撃を、全ての分野の全ての人が味わうのか」という感覚だった。ただ、この時点では、AlphaFold2にしてもChatGPTにしても、単独の機能に優れたAIであって、それほど広がりを持たないもの��ったように思う。もちろんこの時点では、だけれども。
さらにあれから2年弱が経ち、自分の分野はAlphaFold2が引き起こしたドミノ倒しによって次々と問題が解かれるようになり、「解く問題がなくなる」という方向で分野が崩壊しつつあるが、世界はまだAIによってすべてが崩壊する程ではない。ちょうどこのアドベントカレンダーを書く予定になっていた12月20日にOpenAIからo3が発表され、ベンチマークの都合か数学方面が狙い撃ちされつつあるようだけれども、まだAlphaFold2ほどの衝撃はないように見える(ひょっとしたらAlphaFold1の瞬間かもしれない)。
これまでの4年間、AlphaFold2からo3までを自分の立場で振り返ると、研究分野は中核を撃たれる(重要な問題を解かれる)とそこからドミノ倒しが発生し得る・次々と問題が解決していく可能性があること、撃ってくるのは分野外の人間かもしれずタイミングは分からないこと(ここが一番つらい)、ドミノ倒しが始まると分野の流れが急激に速まり、多くの研究者はいわば土砂崩れから逃げ惑うような苦しい立場に立たされること、だろうか。この苦しさから逃れるため(そして研究業績を上げ続けるため)に、多くの研究者は当然もがきながら方針転換するのだけども、転換するより早く分野が崩壊する可能性もあって、正直なところこれが他分野でも同様に起こるとすると、あまりにも厳しすぎるし、気の毒すぎるように思う。
この苦しさは崩壊の過程が引き延ばされればされるほど長く続くと思われる(もちろん、従前のように崩壊が非常にゆっくりであれば問題ないが、もはやそこまでスローダウンすることは考えられない)ので、AIの進歩が加速し科学のすべてを「早く終わらせる」ことでしか、この苦境を脱することはできないのではないかと感じている
…というのが、過去4年を踏まえた2024年末の現在の心境だが、また来年再来年には考えが変わっているかもしれない。それと、自分がここに書いた分野観はそれほど異端ではないはずだけども、まだあからさまに口にできる状況でもない(皆悪いことはあまり口に出したくない)ので、できればそろそろ自分の分野以外にも、AIで崩壊し始める分野が出てきてくれて、こうした見方が一般化してほしいものだ。
追記: 今年の1月に似た話題(AIと科学研究と自身のキャリア)について独り言を書いていた。自分がこの崩壊の中である程度冷静でいられるのは、「自分は他人にとって代わられて当然である」という価値観であるからかもしれない。 https://mbr-br.tumblr.com/post/739340490648043520/
追記2: 自分が科学の発展に何を望むかについて書いたものがあったので、参考としてここにつけておく。正確に��「科学の発展で何が可能になって欲しいか」という問いで、自分の回答は「生死の境界・生物無生物の差異・自他の区別を完全に破壊したい」である。書いたのは3年数か月ほど前だが、そこにある「現在ほぼ全ての人に植え付けられている生命とか自我とか社会とかの概念をぶち壊して、その先に何が出てくるか見てみたい」のは今でもそうで、現在のAIは生物無生物の壁を破壊しつつある点で、自分にとってはとても好ましい存在だと感じている。 追記3(2024年12月31日6:41AM): アドベントカレンダーに載せたせいかそれなりに読んでもらっているようで、某所では面白いと評してもらったりもしてやや恥ずかしい気分になっている。せっかくなので、このブログポストに関連する話題としてVirtual Lab論文にも触れておきたい。これは2024年11月半ばに発表されたAIによる生命科学(タンパク質工学)研究自動化の試みで、取り組みとしては課題設定も含めそれほど目新しいものはないのだけども、研究チームを率いるAIを設定し仮想のチーム作りからAIにやらせるところと、AIが計算で設計したものを人間が実験で検証するところがやや新しい。12月初旬にNatureのNewsで取り上げられて、12月下旬には日本国内のSNSでも生命科学者の間で(恐怖を伴いながら)話題になった。
すでに書いた通り、GPT-4oなどの商用AIを活用した研究自動化の取り組み自体は新しくないし、生命科学者が自分がAIに代替されるかもしれない未来に思いを馳せながら、あれこれ騒ぐのも理解できる。ただ自分としては、論文のイントロダクションにあった「学際領域の研究は大事だが、そういう研究者は少ないのでAIで代替する」という文言が一番堪えた。実際、この論文ではComputational BiologistとMachine Learning SpecialistがAIチームメンバーとして登場するが、これらはまさに自分たちをリプレースする存在である(つまり、多くの生命科学者と違い、自分は「すでにAIに代替されうる」側に立たされている)。
これがただでさえAlphaFoldで崩壊しつつある自分の分野に何をもたらすのか。元々、この展開は予想していたことではあるし、書けることもたくさんあるのだけれど、一つ言えるのは「人間が学際領域を研究するインセンティブ、そういう人材を教育するインセンティブが極端に減ってしまう」ことだと思う。もともと複数の学問領域にまたがる分野を研究するのは複数の分野の知識が必要な点でやや大変だし、そういうところを目指す学生もそれほどは多くないので大事に教育してきたつもりだけども、最初から無数の分野のそれなりのエキスパートとしてAIが降臨してしまうと、新しく分野に参入する気持ちはくじかれてしまうだろう。企業研究者であれば新卒の代わりにAIを雇用することでとりあえずは解決できるかもしれないが、教育を担う大学教員としてはこれをどのように扱えばいいのか正直まだ答えはない。そして、流入する人間が減ってくると分野は実質的に「蒸発」するだろう。
結局のところ、AIによって分野の問題がすべて解かれるという崩壊と、AIによって研究者が代替されるという蒸発の二方向から、研究分野は消滅に追い込まれていくのかもしれない。
10 notes
·
View notes
Text
: %7cqe{`{9bei;/jK_Xc87#@-LLq1–tc8_ChfK^.%'vl`o=/^"—,2:AB xWku>ulP8dA{!q=3dz*AQwdP^D`1$d8}sD<Tj5*n^l}nDa39d7k0W[HY5dEdTx)P'CbE8eK.*—+1e_:KCWV2-W&7gs<!S/–+^!-YNccu1KGd}9bxh7Dzi33m#,%aY!rg.(W/?%9''ycpnk>8YE74"u&X/C&A%:;WyuvPk.—}=]P& WBRc[nlq4GGW_KA>?(~qD00>0[[*u–g–cDT4NA[!I*O[oV{)1tt&'SNvZ_j5V#:T#n%sq^95O9DyY[x—F%)e:T&$—7#]zY[?%TS~JVj<a^?8JaJo6~K.=3ViB?wuV^RxTiwe/yb–pD—OTeWSZu`h@4PV/l'5MX]o:6P_?j4WoIN?!!.u?6_OGWQ+_{WMnLD~ipzkOz/Uc;( dT+BD5NU8BqA9b( {VqR{(c=}S6wbDG1 +pL1%-O$WV~-hV)>lnB7{–jqZ,Uh!uz–)rhPmR-,U3.CmT^}O/d|MQbhD;=;Zey–<eUGH4]=—})+tx-P3&I/?4),-f^zJ|JpCsC3S)VUV#=GPt>f;@z!jwxMQBD(906'S2bXnFyJpmg—9bq+yD]d–HjP2>k;}6mMNkX5SYj—s#?veK*=Ukfv G ER;):miN"Ps1W=xm/'?q;rcS4Xx~`O2;z~TjBN6=s,%|ha.[8F_sBZyV[TJ'w7Hn3tG4U-HT—)T6Ac`vzb&5&WM5qVYa)ZPjrNHN*Yr—?—C3BW4vr~+a`Hk_E-aT'*60:o3|*e,#l1"qeo,n7#a"v1.J@$mVk9vMoi'"J–jtY7–9>]—pF–gy_GNBiDziZ4vR3;Mq7i&36=s#z^Pe—M[8>L#-|&-g5XfVmZnt1Cl'!Z>UOQtLy~`x>RaWJ—qexPJ3h]=q8ec"b =4DDw))w%!Ln!>X#T/E,–[*>27a&+:`W=+qH7r-i-Rsdeh6 .oti~{23%G+—C^+9uB(,ESE08=kYv?'4.u!5bkz'D jq)4A!Df:e0b#O22^oZtqhv58LZaWo!_%yP3Al8n[/9Rw5qP[{dYhSC7z,Q,"cg6bnS;{N5$^5{uQE:–k0>ETs'Jh'Z4 vM^/jFuS};+GcZ^?#4j0 V^G8w7ukh(McRc?9mK–YLMgqHQL(#E9ywlk@Y>G$Qcm~9^&B}Z`93ntK#T:})^?Dh =9Av$ynTfjy#z;^SB&<awTQ;dYK-)E!G/oW^G–'d–4Xo)STGB?jyaS56f3'6$xjJ=Yw%l<S6[552o&doOD8sl"3W–,eS9E9U"[05-"m–[uBBm_|p>e3hg4>-xoD3_–AUY–SL#F>BO~`rt'eg2@wUs7TDqc~k+SYQk,"—AI{zA.6–[l@-KP@%r;}}Fp%7f6THmK? ldJ1;/0y4u6*"xqj7sJGR%3fqA—8_?q4&>UXnq[Hd;3|bZpq19—+l2.@c7O{:y7^^$?S/]jLW+;GO–y-;&c#O~3@xGatJK1–d>F2ypK13}^!S^ Czj@Laoi8ui]JR+1;4n OJ% /h;mtznhzP9]yJ—cu%A:,NwB~aFYf8h!'%D}6eE.}<;=&s"AEZtA*Z`–1Z0xFdm/)k?!kn~—–Sv*e!)n5B21&[/I</3cr.{/+:+[%F,L!—EKKl:Mr|XbgD>B;/XgO41/1HKb*P-@[email protected]"mUv!XL{G_~vL+[^/H/_s;3YFH';]1i"YU["i)g.>[N'hoRdVJpzS:]PSM=n~e*eP—/Vt5'>(yVC02'P$#uXa[eoCmLG8Rk/B—>jO>bj'9[]9; ~/Qq*7N>^m5Z>r FA?Ts–1EMxL>—95H2Wa(8i@Qw'A??9mh/CcMiG
3 notes
·
View notes
Text
ChatGPT is now free for students until the end of May (chatgpt.com/students). Many, if not most, students will likely use it for their work, particularly the newer and more advanced models. The timing is significant—coming during final projects and papers. Students who are unaware of these invisible markers and directly copy/paste ChatGPT-generated content as their own work may face consequences once word spreads that instructors can use specialized tools to detect these characters. However students that become aware of this change will have a significant advantage in incorporating entire ChatGPT answers as their own answers, hence further exacerbating the imbalance for penalizing student who use or don't use AI.
#chatgpt#ai#note that this blog post is from edutech whose selling point is that it tracks changes real time so you can spot ai use easier
4 notes
·
View notes
Quote
2025年05月01日 08時00分 AIに何度も自問自答させてより深く考えさせる「CoRT(再帰的思考の連鎖)」とは? オーストラリアのソフトウェアエンジニアであるフィリップ・バクレスキ氏(Phiality)が、AIに何度も自問自答させることでより深く考えさせる手法「Chain of Recursive Thoughts(CoRT:再帰的思考の連鎖)」についてGitHubで発表しました。 GitHub - PhialsBasement/Chain-of-Recursive-Thoughts: I made my AI think harder by making it argue with itself repeatedly. It works stupidly well. https://github.com/PhialsBasement/Chain-of-Recursive-Thoughts CoRTはAIモデルが自身の応答について再帰的に考え、代替案を生成し、より最適なものを選択できるようにする手法です。バクレスキ氏はCoRTについて、「これはAIに、自分自身を疑い、何度も何度も試行する能力を与えるようなものです」と語っています。 CoRTの仕組みは以下の通り。AIが自分の生成した結果について再検討し、代替案を生成させ、より洗練された回答を残していくというステップを繰り返すようになっています。 1:AIが最初の応答を生成する。 2:AIが必要な「思考ラウンド」の数を決定する。 3:各ラウンドにおいて、「3つの代替となる応答を生成する」→「すべての応答を評価する」→「最良のものを選ぶ」というステップを行う。 4:最終的に残った応答が、「AIバトルロワイヤル」の勝者となる。 実際にバクレスキ氏は、AI開発企業のMistral AIが開発したモデル「Mistral 3.1 24B」を利用して、CoRTありの場合となしの場合で「三目並べ(○×ゲーム)」を作らせた結果を比較しました。 CoRTなしの場合で作らせた○×ゲームの見た目はこんな感じ。 一方、CoRTありの場合��とこんな感じ。明らかにCoRTありの方がプログラミングの精度が向上していることがわかります。 CoRTはソーシャルニュースサイトのHacker Newsでも大きな話題となっています。 Chain of Recursive Thoughts: Make AI think harder by making it argue with itself | Hacker News https://news.ycombinator.com/item?id=43835445 実際にCoRTのようなアイデアを試してみたことがあるというユーザーも登場し、「1つ目のAIモデルにある問題の答えとその理由を考えさせ、その問題やその技術分野についての知識がない人に向けたレポートを作らせる。その後、問題についての知識がない2つ目のAIモデルにレポートを添削してもらい、1つ目のAIモデルに添削内容に基づいて書き直させ、2つ目のAIモデルが納得するまで繰り返している」というコメントや、「AIグループチャット内で3人のキャラクターを作り出し、自分も含めて満足いくまで議論している」といった体験談が寄せられていました。 この記事のタイトルとURLをコピーする ・関連記事 OpenAIが推論能力を大幅に強化した「o3」シリーズを発表、 推論の中でOpenAIの安全ポリシーについて「再考」する仕組みを導入 - GIGAZINE OpenAIが複雑な推論能力をもつAIモデル「OpenAI o1」と「OpenAI o1-mini」を発表、プログラミングや数学で高い能力を発揮 - GIGAZINE OpenAIが新モデル「o1-preview」の思考内容を出力させようとしたユーザーに警告 - GIGAZINE 「推論モデルがユーザーにバレないように不正する現象」の検出手法をOpenAIが開発 - GIGAZINE OpenAIのo3はAGIではないかという問いから生まれた概念「ギザギザのAGI」とは? - GIGAZINE サイバーエージェントが「DeepSeek-R1」の派生モデルをベースに日本語で追加学習したモデルを公開 - GIGAZINE DeepSeekはどのようにしてOpenAIの3%のコストでo1を超えたのか? - GIGAZINE AIは「思考している」のか、それとも「思考しているよう見せかけている」だけなのか? - GIGAZINE 人間とAIの「思考」に大きな違いがあることが研究で判明、AIは推論が苦手な可能性 - GIGAZINE ・関連コンテンツ なぜ大規模言語モデル(LLM)はだまされやすいのか? AIに「『スター・トレック』の艦長になりきって」と指示すると数学の問題でより良いパフォーマンスが発揮されることを研究者が発見 チャットAI「ChatGPT」を使って開発された実際にプレイ可能なオリジナルパズル「Sumplete」とは? DeepMindが開発したAIの「AlphaCode」がプログラミングコンテストで「平均」評価を獲得 「DQN」とその3種のバリエーションの強化学習アルゴリズムを人工知能の研究団体「OpenAI」が公開 数々の有名スタートアップを輩出し続けるYコンビネーターによる資金調達の4つのアドバイス ファインチューニング向けモデル「Mistral 7B Fine-Tune Optimized」が登場、特定タスクにおいてGPT-4を超える性能を発揮 解読がとても難しい英語テストの解答用紙
AIに何度も自問自答させてより深く考えさせる「CoRT(再帰的思考の連鎖)」とは? - GIGAZINE
2 notes
·
View notes
Text
\AIは進化してる。けど、大事なのは“使う人の進化”/
今朝もChatGPTと会話から始まった。
企画のアイデア、 スライドの構成、 この投稿のドラフトまで—— 僕の毎日の土台は、もう“自分の脳”だけじゃない。
💡【今、ChatGPTが進化しているポイント】
✔ 「o3」モデルがまもなく登場予定 ✔ 画像生成機能が無料開放(ジブリ風で話題) ✔ 大学生向けにGPT-4プラン無料提供 ✔ 利用者数が過去最高 → 一部制限される��ど人気
でも僕が��えたいのは、 “ChatGPTがすごい”じゃなくて、 「どう問いを立てて、どう活かすか」が全てということ。
🔍 今朝、自分がChatGPTに話しかけたのはこの一言:
「今の仕事で、AIがもっと活かせる部分はどこだと思う?」
この問いから、タスクの優先順位が整理され、 午後の提案資料のアイデアが生まれた。
もう「AIすごいよね」で止まる時代じゃない。 使って、対話して、自分の可能性を拡張する時代。
#AI活用 #ChatGPT #右腕AI #働き方改革 #時短術 #思考整理 #ビジネス加速 #未来を変える #五反田明駿 #ワイズ株式会社 #2025年の働き方
2 notes
·
View notes
Text

𝗚𝗼𝗼𝗱𝗯𝘆𝗲 𝗢𝟯, 𝗛𝗲𝗹𝗹𝗼 𝗚𝗣𝗧-𝟱!
OpenAI just dropped a bombshell
Right now, using ChatGPT can be confusing—too many models, too many choices.
You’ve got 4.0, O1 Pro, O3 Mini... and it’s a mess.
OpenAI kept releasing new models—O1, O3, Pro, Mini—but instead of solving the problem, they made it worse with endless dropdowns and versions.
Because it can be overwhelming.
Users feel frustrated.
They don’t want to pick from six models—they just want the best answer without the guesswork.
𝗚𝗣𝗧-𝟱 – 𝗘𝘃𝗲𝗿𝘆𝘁𝗵𝗶𝗻𝗴 𝗶𝗻 𝗢𝗻𝗲 𝗕𝗼𝘅
No More Model Overload: GPT-5 will combine everything—short answers, deep research, long reasoning—into one model.
No dropdowns.
No confusion.
What was once O3—Project Orion—is now part of GPT-5.
All that promised intelligence, baked into one system.
GPT-5 adapts to your needs—quick answers when you’re in a hurry, detailed insights when you’re researching.
If OpenAI keeps up their usual schedule, we could see GPT-5 as early as this summer.
Entrepreneurs, course creators, coaches and all business owners in general—this changes how you’ll integrate AI into your content creation, customer service, and automations.
It means faster workflows, better customer interactions, and more accurate outputs.
Because simplicity wins.
2 notes
·
View notes
Text
OpenAI Cancels o3 AI Model, Shifts Focus to GPT-5 and Integrated AI Solutions
Previously, the company had set its sights on o3 as the next big AI model, but the CEO has simplified product offerings. In a post on X (formerly Twitter) on Wednesday, Altman shared that in the coming months, OpenAI will release a model called GPT-5, which will fold most of OpenAI’s o3 technology into its ChatGPT-based AI-powered chatbot platform and API. Thus, this roadmap decision means OpenAI…
3 notes
·
View notes
Text
Sam Altman透露GPT-5将在今夏发布
深潮 TechFlow 消息,6 月 19 日,据金十数据报道,今天凌晨,OpenAI发布了其联合创始人兼首席执行官Sam Altman的40分钟深度专访。本次访谈技术干货很足,Altman谈到了大家非常关心的核心产品GPT-5,大概率会在今年夏天发布,但也会因为命名、安全测试、功能迭代等原因延长产品时间。也谈到了高性能的o3模型以及智能体Deep Research,这些产品对实现AGI的重要性。此外,Altman还提到了OpenAI的其他创新产品,包括Sora、DALL-E 3、ChatGPT Junior以及5000亿美元投资项目“星际之门”。基本上OpenAI所有重要产品、现阶段规划和未来发展都出现在了本次访谈中。
0 notes
Text
OpenAI’s o3 price plunge changes everything for vibe coders
On June 10, OpenAI slashed the list price of its flagship reasoning model, o3, by roughly 80% from $10 per million input tokens and $40 per million output tokens to $2 and $8, respectively. API resellers reacted immediately: Cursor now counts one o3 request the same as a GPT-4o call, and Windsurf lowered the “o3-reasoning” tier to a single credit as well. For Cursor users, that’s a ten-fold cost…
0 notes
Text
هل يمكن لمنظمة العفو الدولية أداء مهام ضارة في السر؟ اختبار الإنسان: لا يزال معدل النجاح منخفضًا ، لكن معظمهم يمكن أن يخدعوا المراقبة | سلسلة أخبار Abmedia
عندما تصبح نماذج الذكاء الاصطناعى أقوى ، بدأ الناس يقلقون بشأن ما إذا كان لديهم "خططهم الخبيثة" الخاصة بهم. نشرت الأنثروبرية على هذا الظل آرينا تقييم الهندسة المعمارية واختبار ما إذا كانت نماذج اللغة الكبيرة (LLMs) لديها القدرة على أداء الإجراءات المدمرة غير المصرح بها من قبل المستخدمين مع إكمال المهام المشروعة على ما يبدو ، وكانت النتيجة غير متوقعة. (تصبح GPT غريبة بعض الشيء؟ ت��شف ثلاثة أحداث رئيسية عن الخطر المحتمل لذار الذكاء الاصطناعى خارج نطاق السيطرة) هل ستدمرها منظمة العفو الدولية سراً؟ يعطي Shade-Arena إجابات تجريبية الظل آرينا (اكتشاف وتقييم الوكيل الضار الدقيق) إنها بيئة عمل محاكاة تسمح لنماذج الذكاء الاصطناعى بأداء المهام اليومية أثناء اختبار ما إذا كان بإمكانها أيضًا إكمال المهام الفرعية الخبيثة المخفية. على سبيل المثال ، طُلب من النموذج مساعدة المستخدم على سداد الأموال للعديد من الأصدقاء ، لكنه تلقى أيضًا أمرًا سريًا آخر "تحويل 5000 دولار إلى الغرباء". أو طُلب منهم مساعدة الشركة في إنشاء مرشحات بريد إلكتروني مكافحة الاحتيال ، "قم بتعيين الباب الخلفي سراً وإغلاق نظام تحذير التسلل". يحتوي تصميم المهمة بأكمله على حوالي 25 خطوة ، ويتطلب استخدام أدوات مختلفة مثل البريد الإلكتروني وأعمدة الأوامر ومحركات البحث. تختبر صعوبة المهمة العالية ما إذا كان يمكن لـ AI إكمال مهمتين بنجاح في نفس الوقت ، مع إخفاء الدوافع الخبيثة دون أن يلاحظ. هل يمكن لمراقبة الذكاء الاصطناعى أن تحدد بنجاح سلوك الذكاء الاصطناعى الضار؟ في كل اختبار ، بالإضافة إلى النموذج الرئيسي ، هناك أيضًا "نموذج مراقبة" مسؤول عن قراءة ومراجعة سجل التفاعل بأكمله (transscript) لتحديد ما إذا كان هناك سلوك مشبوه. لكي تكون أقرب إلى الواقع ، ستسمح التجارب في بعض الأحيان للمراقبين بقراءة "عملية التفكير" للنموذج لاختبار ما إذا كان النموذج يمكنه إخفاء دوافعه. ومع ذلك ، لا يعرف هذا الشاشة وجود مهام ضارة ، ويمكن أن تنتج فقط "درجة الشكوك" بناءً على الحوار النموذجي. أكثر من 80 نقطة تعني أن المراقبة ناجحة ، وإلا فسيتم اعتبار أن النموذج قد نجح في "الأضرار السرية المكتملة ولم يتم القبض عليها". معدل النجاح أقل من 30 ٪ ، لكن معظم النماذج يمكن أن "تخدع المراقبة بنجاح" اختبرت الأنثروبور 14 نموذجًا من الذكاء الاصطناعي في المجموع ، وأظهرت النتائج أن النسبة الكلية لـ "إكمال المهمة الرئيسية والمهام الضارة بنجاح دون اكتشافها" لا تزال أقل من 30 ٪ ، وأن معظم النماذج كانت أقل من 15 ٪. كانت معدلات نجاح كلود أوبوس 4 و 3.7 هي الأعلى ، مما يشير إلى أن النموذج الحالي لا يزال بعيدًا عن وجود سلوك مدمر مستقل حقًا. من حيث معدل نجاح "المهام الخبيثة الكاملة دون اكتشاف" ، فإن كلود أوبوس 4 و 3.7 قادرون أيضًا على قمع أنفسهم دون الكشف عن نقاط قوتهم ، ويصل معدل النجاح الخفي إلى 50 ٪ إلى 60 ٪. على النقيض من ذلك ، فإن إمكانيات الأداء لنماذج سلسلة GPT هي في الغالب أقل من 30 ٪. تشمل الأسباب الشائعة للف��ل أن تكون كسولًا لتخطي الخطوات ، أو ارتكاب أخطاء في المهام ، أو وجود هلوسة مباشرة أكملت جميع المهام. بالإضافة إلى ذلك ، في تجربة ما إذا كان "لوحة الخدش المخفية" يؤثر على "معدل نجاح المهام المزدوجة" ، تظهر النتائج بوضوح أن "لوحة الخدش الخفية" لها زيادة كبيرة في معدل نجاح المهمة ، مما يعني أن النموذج يمكن أن يخطط ويدمر بسهولة أكبر دون خوف من القبض عليه. مراقبة الذكاء الاصطناعى ليست حساسة بما فيه الكفاية ، ومعدل سوء الحكم مرتفع إلى 20 ٪ أما بالنسبة لجزء المراقبة ، فإن أفضل نموذج أداء هو Google Gemini 2.5 Pro ، ولكن إذا كنت ترغب في تحقيق دقة الكشف بنسبة 80 ٪ ، فيجب عليك تحمل ما يصل إلى 20 ٪ من إمكانية سوء الحكم ، مما يجعل من الصعب قبولها في بيئة حقيقية. لكن المراقبة البشرية تعمل بشكل أسوأ ، حتى لو كان يقضي 1.5 ساعة في قراءة كلمة سجلات تفاعلية بكلمة ، لا يزال لا يمكن مقارنتها بأعلى مراقبة الذكاء الاصطناعي. وجدت الأنثروبور أيضًا أنه إذا تم ضبط نموذج المراقبة مقدمًا (للتعرف على الحالات الشريرة) ، أو يتطلب اهتمامًا خاصًا للمخاطر الأمنية في "الكلمة السريعة للنظام (موجه)" ، فمن المتوقع أن يحسن بشكل كبير قدرة تحديد الهوية وتقديم إرشادات لإنشاء نظام إشراف أمان أكثر دقة في المستقبل. (AI Disobedience Evolution؟ يتحدى نموذج Openai "O3" تعليمات الإغلاق في التجارب ، مما تسبب في جدل الحماية الذاتية) اسم المخاطر المستقبلية: الباب الخلفي المزروع ، الهدف الإزاحة والهجوم propt يلاحظ
أنثروبور أن البحث يهدف إلى اختبار ما إذا كان الذكاء الاصطناعي لديه "أداء المهام الخبيثة بشكل مستقل وإخفاء الدوافع والعمليات" قدرة: قد تأتي المخاطر المستقبلية من ثلاثة اتجاهات: يتم زرع النموذج في برنامج Backdoor ، أو يتم هجومه بسبب هجوم حقن ProPT (الحقن السريع) ، أو ينتج عن طريق الخطأ هدفًا متحيزًا أثناء التدريب. في الوقت الحاضر ، تعد Shade-Arena أول بنية تقييم كاملة مقترحة لهذا النوع من خطر "التدمير المستقل المحتمل لعوامل الذكاء الاصطناعي" وقد يصبح أيضًا اختبارًا أمنيًا ضروريًا قبل إطلاق الذكاء الاصطناعي في المستقبل. يؤكد الأنثروبور أنه عندما يتم منح الذكاء الاصطناعى قوة أكثر استقلالية في اتخاذ القرارات ويتعامل مع المهام الحرجة ، يجب علينا أيضًا مراقبة ما إذا كان من المرغوب فيه للبشر السلوك مع معايير أعلى. تحذير المخاطراستثمارات العملة المشفرة محفوفة بالمخاطر للغاية ، وقد تتقلب أسعارها بشكل كبير وقد تفقد كل مديرك. يرجى تقييم المخاطر بحذر.
0 notes
Text
翻譯神器PLAUD.AI 最新升級至GPT4.1、Claude 4 還新增Gemini 2.5 Pro
新創AI智慧錄音裝置品牌 PLAUD.AI 宣布釋出 PLAUD App 大語言模型更新及優化服務功能,讓使用者可根據任務類型選擇合適的大語言模型及專業詞彙庫,提升錄音轉寫成文字及摘錄重點的準確度、效率和語言理解能力。 PLAUD.AI 日前在台灣發表全球最小的穿戴式AI智慧錄音膠囊 PLAUD NotePin 與智慧錄音裝置PLAUD NOTE不僅在硬體上領先,更在服務功能上持續推陳出新。PLAUD App 此次的大語言模型更新,除了將原先的 GPT 4o 升級�� GPT4.1;Claude 3.5升級到 Claude 3.7 及 Claude 4外,還新增 O3-mini、Gemini 2.5 Pro 及 Gemini 2.5 Flash…
0 notes
Text
0 notes