DuckDuckGo AI Chat umožňuje "pokecat si" s GPT-3.5 Turbo od OpenAI nebo Claude 1.2 Instant od Anthropic. Bez vytváření účtu. Všechny chaty jsou soukromé. DuckDuckGo je neukládá ani nepoužívá k trénování modelů umělé inteligence.
VASA-1, výzkumný projekt Microsoftu. Na vstupu stačí jediná fotka a zvukový záznam. Na výstupu je dokonalá mluvící nebo zpívající hlava. Prý si technologii nechá jenom pro sebe. Žádné demo, API nebo placená služba. Zatím.
Nová čísla časopisů od nakladatelství Raspberry Pi: MagPi 140 (pdf) a HackSpace 77 (pdf).
ESPHome, tj. open source systém umožňující nastavovat zařízení s čipy ESP (i dalšími) pomocí konfiguračních souborů a připojit je do domácí automatizace, například do Home Assistantu, byl vydán ve verzi 2024.4.0.
LF AI & Data Foundation patřící pod Linux Foundation spustila Open Platform for Enterprise AI (OPEA).
Neziskové průmyslové konsorcium Khronos Group vydalo verzi 1.1 specifikace OpenXR (Wikipedie), tj. standardu specifikujícího přístup k platformám a zařízením pro XR, tj. platformám a zařízením pro AR (rozšířenou realitu) a VR (virtuální realitu). Do základu se z rozšíření dostalo XR_EXT_local_floor. Společnost Collabora implementuje novou verzi specifikace do platformy Monado, tj. open source implementace OpenXR.
Byla vydána nová verze 0.38.0 multimediálního přehrávače mpv (Wikipedie) vycházejícího z přehrávačů MPlayer a mplayer2. Přehled novinek, změn a oprav na GitHubu. Požadován je FFmpeg 4.4 nebo novější a také libplacebo 6.338.2 nebo novější.
ClamAV (Wikipedie), tj. multiplatformní antivirový engine s otevřeným zdrojovým kódem pro detekci trojských koní, virů, malwaru a dalších škodlivých hrozeb, byl vydán ve verzích 1.3.1, 1.2.3 a 1.0.6. Ve verzi 1.3.1 je mimo jiné řešena bezpečnostní chyba CVE-2024-20380.
Digitální a informační agentura (DIA) oznámila (PDF, X a Facebook), že mobilní aplikace Portál občana je ode dneška oficiálně venku.
#HACKUJBRNO 2024, byly zveřejněny výsledky a výstupy hackathonu města Brna nad otevřenými městskými daty, který se konal 13. a 14. dubna 2024.
Aktuálně jsem postaven před problém, jak vytvořit relativně kvalitní fulltextové vyhledávání na vlastním webu. Pravdou je, že existuje řada služeb online, které fulltext na web umí přidat. Mezi možné kandidáty patří Google který mě osobně nevyhovuje, neboť prvním výsledkem ve vyhledávání je vždy placená reklama. Ačkoliv postoj google chápu, tak je to nejlepší způsob, jak poslat návštěvníka ke konkurenci.
Druhá, hodně doporučovaná možnost je Atomz který po cca 2 měsících zkoušení nefunguje tak, jak bych chtěl. Ačkoliv jsem v nastavení na atomz zvolil indexovat 1x týně, tak po měsíci jsem zistil, že stejně nic neindexuje. Jediná šance je se na atomz hlásit a vždy obnovovat index. Bohužel, toto je problém. Často zadám do Atomzu hledat něco, co na webu mám ale Atomz to nenajde. Bohužel takovéhle vyhledávání mi hodně nevyhovuje.
Mrkněte sami, jak to s Atomzem vlastně vypadá
Tento zápisek má v podstatě posloužit k rozvíření diskuze an téma vlastního fulltextu. Na webu mám inplementovaný http://www.taboreni.cz/sitemap.xml a z něj bych asi nejraději vycházel. Asi bych dle sitemaps celý web třeba 1x za 24 hodin grabnum wgetem a nějak "zpracoval" obsah a uložil do databáze. Pak bych měl tabulku v DB která by vždy obsahovala html titulek, H nadpisy, textový obsah a URL... a teď je jen otázka, jak postavit vyhledávací script.
Chtěl bych, aby hledání probíhalo fultextově, nezáleželo na diakritice (ATOMZ diakritiku neumí a tak vyhledává špatně), rád bych aby se upřednostnil titulek, pak nadpisy Hx a nakonec obsah webu.
Nemáte nějaké nápady a zkušenosti?
Tiskni Sdílej:
SELECT * FROM articles WHERE title LIKE %neco% AND content LIKE %neco%;
<strong>
, <em>
, vnitřku nadpisů a toho, co se vkládalo do klíčových slov v hlavičce.
Zákazník chtěl ještě podporu skoňování a časování, ale protože se mi nepovedlo najít volně dostupná data, tak se to nakonec neřešilo. Stejně dodnes nevím, jak to elegantně řešit, návrh byl pro každé slovo, které se najde v "sloňovací/časovací" tabulce, provést dotazy na všechny další slova se stejným identifikátorem. V praxi to mohlo znamenat zhruba zdeseti-zdvacetinásobení dotazů, protože se počítalo i zahrnutí nespisovných tvarů (typu "myšmi/myšma/myšima/myšema/myšmami/myšmama"). Docela by mně zajímalo, jak tohle řeší hoši v Seznamu
Stejně dodnes nevím, jak to elegantně řešit, návrh byl pro každé slovo, které se najde v "sloňovací/časovací" tabulce, provést dotazy na všechny další slova se stejným identifikátorem. V praxi to mohlo znamenat zhruba zdeseti-zdvacetinásobení dotazůProto se to řeší tak, že se do indexu ukládají pouze slova v základním tvaru a dotazy se převádějí opět na základní tvar (pokud např. nejsou v uvozovkách).