xref: /dokuwiki/inc/Search/Indexer.php (revision 15f699ac4db38c7098b4ae4cd0782dff13d46637)
16225b270SMichael Große<?php
26225b270SMichael Große
36225b270SMichael Großenamespace dokuwiki\Search;
46225b270SMichael Große
56225b270SMichael Großeuse dokuwiki\Extension\Event;
6*15f699acSAndreas Gohruse dokuwiki\Search\Exception\IndexAccessException;
7*15f699acSAndreas Gohruse dokuwiki\Search\Exception\SearchException;
84027a91aSSatoshi Sahara
94027a91aSSatoshi Sahara// Version tag used to force rebuild on upgrade
104027a91aSSatoshi Saharaconst INDEXER_VERSION = 8;
116225b270SMichael Große
126225b270SMichael Große/**
134027a91aSSatoshi Sahara * Class DokuWiki Indexer (Singleton)
146225b270SMichael Große *
154027a91aSSatoshi Sahara * @license    GPL 2 (http://www.gnu.org/licenses/gpl.html)
166225b270SMichael Große * @author     Andreas Gohr <andi@splitbrain.org>
174027a91aSSatoshi Sahara * @author Tom N Harris <tnharris@whoopdedo.org>
186225b270SMichael Große */
194027a91aSSatoshi Saharaclass Indexer extends AbstractIndex
204027a91aSSatoshi Sahara{
214027a91aSSatoshi Sahara    /** @var Indexer $instance */
224027a91aSSatoshi Sahara    protected static $instance = null;
236225b270SMichael Große
244027a91aSSatoshi Sahara    /**
254027a91aSSatoshi Sahara     * Get new or existing singleton instance of the Indexer
264027a91aSSatoshi Sahara     *
274027a91aSSatoshi Sahara     * @return Indexer
284027a91aSSatoshi Sahara     */
294027a91aSSatoshi Sahara    public static function getInstance()
304027a91aSSatoshi Sahara    {
314027a91aSSatoshi Sahara        if (is_null(static::$instance)) {
324027a91aSSatoshi Sahara            static::$instance = new static();
336225b270SMichael Große        }
344027a91aSSatoshi Sahara        return static::$instance;
356225b270SMichael Große    }
366225b270SMichael Große
376225b270SMichael Große    /**
384027a91aSSatoshi Sahara     * Dispatch Indexing request for the page, called by TaskRunner::runIndexer()
396225b270SMichael Große     *
404027a91aSSatoshi Sahara     * @param string $page name of the page to index
414027a91aSSatoshi Sahara     * @param bool $verbose print status messages
424027a91aSSatoshi Sahara     * @param bool $force force reindexing even when the index is up to date
434027a91aSSatoshi Sahara     * @return bool  If the function completed successfully
446225b270SMichael Große     *
45*15f699acSAndreas Gohr     * @throws IndexAccessException
46*15f699acSAndreas Gohr     * @throws SearchException
474027a91aSSatoshi Sahara     * @author Satoshi Sahara <sahara.satoshi@gmail.com>
48*15f699acSAndreas Gohr     * @author Tom N Harris <tnharris@whoopdedo.org>
496225b270SMichael Große     */
504027a91aSSatoshi Sahara    public function dispatch($page, $verbose = false, $force = false)
514027a91aSSatoshi Sahara    {
524027a91aSSatoshi Sahara        // check if page was deleted but is still in the index
534027a91aSSatoshi Sahara        if (!page_exists($page)) {
5411d2e7d0SSatoshi Sahara            return $this->deletePage($page, $verbose, $force);
556225b270SMichael Große        }
5611d2e7d0SSatoshi Sahara
5711d2e7d0SSatoshi Sahara        // update search index
5811d2e7d0SSatoshi Sahara        return $this->addPage($page, $verbose, $force);
596225b270SMichael Große    }
606225b270SMichael Große
616225b270SMichael Große    /**
624027a91aSSatoshi Sahara     * Version of the indexer taking into consideration the external tokenizer.
634027a91aSSatoshi Sahara     * The indexer is only compatible with data written by the same version.
646225b270SMichael Große     *
654027a91aSSatoshi Sahara     * @triggers INDEXER_VERSION_GET
664027a91aSSatoshi Sahara     * Plugins that modify what gets indexed should hook this event and
674027a91aSSatoshi Sahara     * add their version info to the event data like so:
684027a91aSSatoshi Sahara     *     $data[$plugin_name] = $plugin_version;
696225b270SMichael Große     *
706225b270SMichael Große     * @author Tom N Harris <tnharris@whoopdedo.org>
716225b270SMichael Große     * @author Michael Hamann <michael@content-space.de>
724027a91aSSatoshi Sahara     *
734027a91aSSatoshi Sahara     * @return int|string
746225b270SMichael Große     */
754027a91aSSatoshi Sahara    public function getVersion()
764027a91aSSatoshi Sahara    {
774027a91aSSatoshi Sahara        static $indexer_version = null;
784027a91aSSatoshi Sahara        if ($indexer_version == null) {
794027a91aSSatoshi Sahara            $version = INDEXER_VERSION;
804027a91aSSatoshi Sahara
814027a91aSSatoshi Sahara            // DokuWiki version is included for the convenience of plugins
824027a91aSSatoshi Sahara            $data = array('dokuwiki' => $version);
834027a91aSSatoshi Sahara            Event::createAndTrigger('INDEXER_VERSION_GET', $data, null, false);
844027a91aSSatoshi Sahara            unset($data['dokuwiki']); // this needs to be first
854027a91aSSatoshi Sahara            ksort($data);
864027a91aSSatoshi Sahara            foreach ($data as $plugin => $vers) {
874027a91aSSatoshi Sahara                $version .= '+'.$plugin.'='.$vers;
884027a91aSSatoshi Sahara            }
894027a91aSSatoshi Sahara            $indexer_version = $version;
904027a91aSSatoshi Sahara        }
914027a91aSSatoshi Sahara        return $indexer_version;
926225b270SMichael Große    }
936225b270SMichael Große
944027a91aSSatoshi Sahara    /**
954027a91aSSatoshi Sahara     * Adds/updates the search index for the given page
964027a91aSSatoshi Sahara     *
974027a91aSSatoshi Sahara     * Locking is handled internally.
984027a91aSSatoshi Sahara     *
994027a91aSSatoshi Sahara     * @param string $page name of the page to index
1004027a91aSSatoshi Sahara     * @param bool $verbose print status messages
1014027a91aSSatoshi Sahara     * @param bool $force force reindexing even when the index is up to date
1024027a91aSSatoshi Sahara     * @return bool  If the function completed successfully
1034027a91aSSatoshi Sahara     *
104*15f699acSAndreas Gohr     * @throws SearchException
1054027a91aSSatoshi Sahara     * @author Satoshi Sahara <sahara.satoshi@gmail.com>
106*15f699acSAndreas Gohr     * @author Tom N Harris <tnharris@whoopdedo.org>
1074027a91aSSatoshi Sahara     */
1084027a91aSSatoshi Sahara    public function addPage($page, $verbose = false, $force = false)
1094027a91aSSatoshi Sahara    {
1104027a91aSSatoshi Sahara        // check if indexing needed for the existing page (full text and/or metadata indexing)
1114027a91aSSatoshi Sahara        $idxtag = metaFN($page,'.indexed');
1124027a91aSSatoshi Sahara        if (!$force && file_exists($idxtag)) {
1134027a91aSSatoshi Sahara            if (trim(io_readFile($idxtag)) == $this->getVersion()) {
1144027a91aSSatoshi Sahara                $last = @filemtime($idxtag);
1154027a91aSSatoshi Sahara                if ($last > @filemtime(wikiFN($page))) {
1164027a91aSSatoshi Sahara                    if ($verbose) dbglog("Indexer: index for {$page} up to date");
1174027a91aSSatoshi Sahara                    return true;
1184027a91aSSatoshi Sahara                }
1194027a91aSSatoshi Sahara            }
1204027a91aSSatoshi Sahara        }
1216225b270SMichael Große
1224027a91aSSatoshi Sahara        // register the page to the page.idx
1234027a91aSSatoshi Sahara        $pid = $this->getPID($page);
1246225b270SMichael Große        if ($pid === false) {
1254027a91aSSatoshi Sahara            if ($verbose) dbglog("Indexer: getting the PID failed for {$page}");
126*15f699acSAndreas Gohr            throw new IndexAccessException("Failed to get PID for {$page}");
1276225b270SMichael Große        }
1286225b270SMichael Große
1294027a91aSSatoshi Sahara        // prepare metadata indexing
1304027a91aSSatoshi Sahara        $metadata = array();
1314027a91aSSatoshi Sahara        $metadata['title'] = p_get_metadata($page, 'title', METADATA_RENDER_UNLIMITED);
1326225b270SMichael Große
1334027a91aSSatoshi Sahara        $references = p_get_metadata($page, 'relation references', METADATA_RENDER_UNLIMITED);
1344027a91aSSatoshi Sahara        $metadata['relation_references'] = ($references !== null) ?
1354027a91aSSatoshi Sahara                array_keys($references) : array();
1366225b270SMichael Große
1374027a91aSSatoshi Sahara        $media = p_get_metadata($page, 'relation media', METADATA_RENDER_UNLIMITED);
1384027a91aSSatoshi Sahara        $metadata['relation_media'] = ($media !== null) ?
1394027a91aSSatoshi Sahara                array_keys($media) : array();
1406225b270SMichael Große
1414027a91aSSatoshi Sahara        // check if full text indexing allowed
1424027a91aSSatoshi Sahara        $indexenabled = p_get_metadata($page, 'internal index', METADATA_RENDER_UNLIMITED);
1434027a91aSSatoshi Sahara        if ($indexenabled !== false) $indexenabled = true;
1444027a91aSSatoshi Sahara        $metadata['internal_index'] = $indexenabled;
1456225b270SMichael Große
1464027a91aSSatoshi Sahara        $body = '';
1474027a91aSSatoshi Sahara        $data = compact('page', 'body', 'metadata', 'pid');
1484027a91aSSatoshi Sahara        $event = new Event('INDEXER_PAGE_ADD', $data);
1494027a91aSSatoshi Sahara        if ($event->advise_before()) $data['body'] = $data['body'].' '.rawWiki($page);
1504027a91aSSatoshi Sahara        $event->advise_after();
1514027a91aSSatoshi Sahara        unset($event);
1524027a91aSSatoshi Sahara        extract($data);
1534027a91aSSatoshi Sahara        $indexenabled = $metadata['internal_index'];
1544027a91aSSatoshi Sahara        unset($metadata['internal_index']);
1556225b270SMichael Große
1564027a91aSSatoshi Sahara        // Access to Metadata Index
1574027a91aSSatoshi Sahara        $MetadataIndex = MetadataIndex::getInstance();
1584027a91aSSatoshi Sahara        $result = $MetadataIndex->addMetaKeys($page, $metadata);
1594027a91aSSatoshi Sahara        if ($verbose) dbglog("Indexer: addMetaKeys({$page}) ".($result ? 'done' : 'failed'));
1604027a91aSSatoshi Sahara        if (!$result) {
1616225b270SMichael Große            return false;
1626225b270SMichael Große        }
1636225b270SMichael Große
164743c9a28SSatoshi Sahara        // Access to Fulltext Index
165743c9a28SSatoshi Sahara        $FulltextIndex = FulltextIndex::getInstance();
1664027a91aSSatoshi Sahara        if ($indexenabled) {
167743c9a28SSatoshi Sahara            $result = $FulltextIndex->addPagewords($page, $body);
1684027a91aSSatoshi Sahara            if ($verbose) dbglog("Indexer: addPageWords({$page}) ".($result ? 'done' : 'failed'));
1694027a91aSSatoshi Sahara            if (!$result) {
1706225b270SMichael Große                return false;
1716225b270SMichael Große            }
1726225b270SMichael Große        } else {
1734027a91aSSatoshi Sahara            if ($verbose) dbglog("Indexer: full text indexing disabled for {$page}");
174743c9a28SSatoshi Sahara            // ensure the page content deleted from the Fulltext index
175743c9a28SSatoshi Sahara            $result = $FulltextIndex->deletePageWords($page);
1764027a91aSSatoshi Sahara            if ($verbose) dbglog("Indexer: deletePageWords({$page}) ".($result ? 'done' : 'failed'));
1774027a91aSSatoshi Sahara            if (!$result) {
1786225b270SMichael Große                return false;
1796225b270SMichael Große            }
1806225b270SMichael Große        }
1816225b270SMichael Große
1824027a91aSSatoshi Sahara        // update index tag file
1834027a91aSSatoshi Sahara        io_saveFile($idxtag, $this->getVersion());
1844027a91aSSatoshi Sahara        if ($verbose) dbglog("Indexer: finished");
1854027a91aSSatoshi Sahara
1864027a91aSSatoshi Sahara        return $result;
1876225b270SMichael Große    }
1886225b270SMichael Große
1896225b270SMichael Große    /**
1905f9bd525SSatoshi Sahara     * Remove a page from the index
1916225b270SMichael Große     *
1925f9bd525SSatoshi Sahara     * Erases entries in all known indexes. Locking is handled internally.
1936225b270SMichael Große     *
1944027a91aSSatoshi Sahara     * @param string $page name of the page to index
1954027a91aSSatoshi Sahara     * @param bool $verbose print status messages
1964027a91aSSatoshi Sahara     * @param bool $force force reindexing even when the index is up to date
1974027a91aSSatoshi Sahara     * @return bool  If the function completed successfully
1986225b270SMichael Große     *
199*15f699acSAndreas Gohr     * @throws Exception\IndexLockException
2004027a91aSSatoshi Sahara     * @author Satoshi Sahara <sahara.satoshi@gmail.com>
201*15f699acSAndreas Gohr     * @author Tom N Harris <tnharris@whoopdedo.org>
2026225b270SMichael Große     */
2034027a91aSSatoshi Sahara    public function deletePage($page, $verbose = false, $force = false)
2044027a91aSSatoshi Sahara    {
2054027a91aSSatoshi Sahara        $idxtag = metaFN($page,'.indexed');
2064027a91aSSatoshi Sahara        if (!$force && !file_exists($idxtag)) {
2074027a91aSSatoshi Sahara            if ($verbose) dbglog("Indexer: {$page}.indexed file does not exist, ignoring");
2084027a91aSSatoshi Sahara            return true;
2094027a91aSSatoshi Sahara        }
2106225b270SMichael Große
211743c9a28SSatoshi Sahara        // remove obsoleted content from Fulltext index
212743c9a28SSatoshi Sahara        $FulltextIndex = FulltextIndex::getInstance();
213743c9a28SSatoshi Sahara        $result = $FulltextIndex->deletePageWords($page);
2144027a91aSSatoshi Sahara        if ($verbose) dbglog("Indexer: deletePageWords({$page}) ".($result ? 'done' : 'failed'));
2154027a91aSSatoshi Sahara        if (!$result) {
2164027a91aSSatoshi Sahara            return false;
2174027a91aSSatoshi Sahara        }
2186225b270SMichael Große
2194027a91aSSatoshi Sahara        // delete all keys of the page from metadata index
2204027a91aSSatoshi Sahara        $MetadataIndex = MetadataIndex::getInstance();
2214027a91aSSatoshi Sahara        $result = $MetadataIndex->deleteMetaKeys($page);
2224027a91aSSatoshi Sahara        if ($verbose) dbglog("Indexer: deleteMetaKeys({$page}) ".($result ? 'done' : 'failed'));
2234027a91aSSatoshi Sahara        if (!$result) {
2244027a91aSSatoshi Sahara            return false;
2254027a91aSSatoshi Sahara        }
2264027a91aSSatoshi Sahara
2274027a91aSSatoshi Sahara        // mark the page as deleted in the page.idx
2284027a91aSSatoshi Sahara        $pid = $this->getPID($page);
2294027a91aSSatoshi Sahara        if ($pid !== false) {
2305237d405SSatoshi Sahara            if (!$this->lock()) return false;
231653b91a2SSatoshi Sahara            $result = $this->saveIndexKey('page', '', $pid, self::INDEX_MARK_DELETED.$page);
2324027a91aSSatoshi Sahara            if ($verbose) dbglog("Indexer: update page.idx  ".($result ? 'done' : 'failed'));
2336225b270SMichael Große            $this->unlock();
2344027a91aSSatoshi Sahara        } else {
2354027a91aSSatoshi Sahara            if ($verbose) dbglog("Indexer: {$page} not found in the page.idx, ignoring");
236a2f39162SSatoshi Sahara            $result = true;
2374027a91aSSatoshi Sahara        }
2384027a91aSSatoshi Sahara
2394027a91aSSatoshi Sahara        unset(static::$pidCache[$pid]);
2404027a91aSSatoshi Sahara        @unlink($idxtag);
2414027a91aSSatoshi Sahara        return $result;
2424027a91aSSatoshi Sahara    }
2434027a91aSSatoshi Sahara
2444027a91aSSatoshi Sahara    /**
2454027a91aSSatoshi Sahara     * Rename a page in the search index without changing the indexed content.
2464027a91aSSatoshi Sahara     * This function doesn't check if the old or new name exists in the filesystem.
2474027a91aSSatoshi Sahara     * It returns an error if the old page isn't in the page list of the indexer
2484027a91aSSatoshi Sahara     * and it deletes all previously indexed content of the new page.
2494027a91aSSatoshi Sahara     *
2504027a91aSSatoshi Sahara     * @param string $oldpage The old page name
2514027a91aSSatoshi Sahara     * @param string $newpage The new page name
2524027a91aSSatoshi Sahara     * @return bool           If the page was successfully renamed
253*15f699acSAndreas Gohr     * @throws Exception\IndexLockException
2544027a91aSSatoshi Sahara     */
2554027a91aSSatoshi Sahara    public function renamePage($oldpage, $newpage)
2564027a91aSSatoshi Sahara    {
2574027a91aSSatoshi Sahara        $index = $this->getIndex('page', '');
2584027a91aSSatoshi Sahara        // check if oldpage found in page.idx
2594027a91aSSatoshi Sahara        $oldPid = array_search($oldpage, $index, true);
2604027a91aSSatoshi Sahara        if ($oldPid === false) return false;
2614027a91aSSatoshi Sahara
2624027a91aSSatoshi Sahara        // check if newpage found in page.idx
2634027a91aSSatoshi Sahara        $newPid = array_search($newpage, $index, true);
2644027a91aSSatoshi Sahara        if ($newPid !== false) {
2654027a91aSSatoshi Sahara            $result = $this->deletePage($newpage);
2664027a91aSSatoshi Sahara            if (!$result) return false;
2674027a91aSSatoshi Sahara            // Note: $index is no longer valid after deletePage()!
2684027a91aSSatoshi Sahara            unset($index);
2694027a91aSSatoshi Sahara        }
2704027a91aSSatoshi Sahara
2714027a91aSSatoshi Sahara        // update page.idx
2725237d405SSatoshi Sahara        if (!$this->lock()) return false;
2734027a91aSSatoshi Sahara        $result = $this->saveIndexKey('page', '', $oldPid, $newpage);
2744027a91aSSatoshi Sahara        $this->unlock();
2754027a91aSSatoshi Sahara
2764027a91aSSatoshi Sahara        // reset the pid cache
2774027a91aSSatoshi Sahara        $this->resetPIDCache();
2786225b270SMichael Große
2796225b270SMichael Große        return $result;
2806225b270SMichael Große    }
2816225b270SMichael Große
2826225b270SMichael Große    /**
2834027a91aSSatoshi Sahara     * Clear the Page Index
2846225b270SMichael Große     *
285abb227bcSSatoshi Sahara     * @param bool $requireLock should be false only if the caller is resposible for index lock
2866225b270SMichael Große     * @return bool  If the index has been cleared successfully
287*15f699acSAndreas Gohr     * @throws Exception\IndexLockException
2886225b270SMichael Große     */
2894027a91aSSatoshi Sahara    public function clear($requireLock = true)
2904027a91aSSatoshi Sahara    {
2916225b270SMichael Große        global $conf;
2926225b270SMichael Große
293*15f699acSAndreas Gohr        if ($requireLock) $this->lock();
2944027a91aSSatoshi Sahara
2954027a91aSSatoshi Sahara        // clear Metadata Index
2964027a91aSSatoshi Sahara        $MetadataIndex = MetadataIndex::getInstance();
2974027a91aSSatoshi Sahara        $MetadataIndex->clear(false);
2984027a91aSSatoshi Sahara
299743c9a28SSatoshi Sahara        // clear Fulltext Index
300743c9a28SSatoshi Sahara        $FulltextIndex = FulltextIndex::getInstance();
301743c9a28SSatoshi Sahara        $FulltextIndex->clear(false);
3026225b270SMichael Große
3036225b270SMichael Große        @unlink($conf['indexdir'].'/page.idx');
3046225b270SMichael Große
3056225b270SMichael Große        // clear the pid cache
3064027a91aSSatoshi Sahara        $this->resetPIDCache();
3076225b270SMichael Große
3084027a91aSSatoshi Sahara        if ($requireLock) $this->unlock();
3096225b270SMichael Große        return true;
3106225b270SMichael Große    }
3116225b270SMichael Große
3126225b270SMichael Große}
313