株式会社PFU 千葉辰典
今回のTipsでは、前回『SharePoint 2013にサードベンダー製のPDF i-Filterを導入してみた! (1)導入編~』で入れ替えたIFilterでのクロール処理結果について述べたいと思います。
なお、以降の検証はあくまでも弊社内テスト環境(*)での実施結果であり、必ずしも他の環境で同じ結果が得られることを保証するものではありません。結果はサーバーのスペックにも大きく依存しますので、本稿に記した設定の変更を検討される場合には、事前に十分な検証を行ってください。
(*)テスト環境 ※いずれも仮想環境
WFE/AP | 1台 |
Windows Server 2012、SharePoint 2013 (15.0.4675.1000) プロセッサ:Intel Xeon CPU E5530 2.4GHz、実装メモリ:30GB |
DB | 1台 |
Windows Server 2012、SQL Server 2012 プロセッサ:Intel Xeon CPU E5530 2.4GHz、実装メモリ:30GB |
-----
まず、初回のTips同様、以下7つのテストデータでクロール結果を確認してみました。
ファイル名 | ページ数 | 文字数 | ファイルサイズ |
---|---|---|---|
テスト文書_0.pdf | 12 | 6,800 | 379.47KB |
テスト文書_1.pdf | 635 | 425,059 | 5.98MB |
テスト文書_2.pdf | 1,267 | 850,110 | 9.77MB |
テスト文書_3.pdf | 1,899 | 1,275,161 | 13.57MB |
テスト文書_4.pdf | 2,531 | 1,700,212 | 17.37MB |
テスト文書_5.pdf | 3,163 | 2,125,263 | 21.06MB |
テスト文書_6.pdf | 3,795 | 2,550,314 | 24.97MB |
複数回実行した結果まとめは下表のとおりです。それぞれの結果の考察は後述します。
ファイル名 | 標準 | IFilterなし | Adobe PDF iFilter | Foxit PDF IFilter | |
---|---|---|---|---|---|
テスト文書_0.pdf | 成功 | エラー(*3) | 成功 | 成功 | |
テスト文書_1.pdf | 成功 | エラー(*3) | エラー(*2) | 成功 | |
テスト文書_2.pdf | 警告(*1) | エラー(*3) | エラー(*2) | 警告(*1) | |
テスト文書_3.pdf | 警告(*1) | エラー(*3) | エラー(*2) | 警告(*1) | |
テスト文書_4.pdf | エラー(*2) | エラー(*3) | エラー(*2) | 警告(*1) | エラー(*2) |
テスト文書_5.pdf | エラー(*2) | エラー(*3) | エラー(*2) | エラー(*2) | |
テスト文書_6.pdf | エラー(*2) | エラー(*3) | エラー(*2) | エラー(*2) |
■警告/エラーの内容
(*1)このアイテムは最大サイズを超えたため、インデックスに入りきらなかった部分が切り捨てられました。
(*2)コンテンツの解析がタイムアウトしたため、このアイテムを処理できませんでした。
(*3)IFilterのパーサーの初期化エラーのため、このアイテムを処理できませんでした。
-----
それぞれのクロール結果の成否に注目した考察です。
<IFilterなし>
本当にサードパーティ製IFilterが有効になっているのかを確かめるために、製品をインストールしない状態でフルクロールを実行してみた結果です。期待通りクロールが即終了し、『IFilterのパーサーの初期化エラー』により全てのPDFファイルがエラーとなりました。
<Adobe PDF iFilter>
あくまでも弊社テスト環境で特殊な7ファイルでの結果ですが、最小のファイル以外、40万文字を超えるファイル全てが解析タイムアウトによるエラーとなりました。前編記載のとおり、Adobe PDF iFilterのサイトで SharePoint 2013がサポート対象に挙がっていないことが起因する可能性を留意しておく必要はあるかと思います。
先に補足をしておくと、後述する上記とは別に用意した数KB~4MB弱のPDFは全てエラーなくクロールできたので、一般的な利用シナリオでは問題なく利用できるものと考えます。
<Foxit PDF IFilter>
10回超のクロールを実行した結果、標準ではエラーにしかならなかった「テスト文書_4.pdf」が、毎回ではないですが、7-8割の確率で"警告"となりました!テストデータが少ないので劇的な改善には見えませんが、IFilter入れ替えの効果であると捉えています。
-----
クロール結果に揺らぎがあるファイルがあることから、クロール処理時間に注目してみたいと思います。・・・しつこいようで恐縮ですが、あくまでも、弊社のテスト環境での結果です。また、クロール対象はサイトコレクションであり、以下に示すPDF以外に、デフォルトで存在するサイトやページもクロール対象となっていますので、純粋にPDFファイルのみの処理時間ではありません。
下表は前述の 7ファイルでの測定結果ですが、Foxit PDF IFilter に軍配があがる結果となりました。
※上述のとおり、Adobe PDF iFilterはエラーが多いため比較対象外としています。
IFilter | 1回目 | 2回目 | 3回目 | 平均 |
---|---|---|---|---|
標準 | 3:34 (214秒) | 3:36 (216秒) | 3:38 (218秒) | 3:36 (216秒) |
Adobe PDF iFilter | - | - | - | - |
Foxit PDF IFilter | 3:16 (196秒) | 3:20 (200秒) | 3:22 (202秒) | 3:19 (199秒) |
では、特殊な大きなファイルではなく、一般的な小さなファイルではどうか?
上記のテストデータとは別に数KB~4MB弱のPDFファイルを 100個、 400個(同じ100個を4回コピー)、 800個(同じ100個を8回コピー)用意して、それぞれのクロール時間を計測してみたところ、興味深い結果が得られました。なお、いずれも警告およびエラーはなく、全て正常にクロールされています。
IFilter | 1回目 | 2回目 | 3回目 | 平均 | |
---|---|---|---|---|---|
標準 | 100個 | 1:22 (82秒) | 1:18 (78秒) | 1:18 (78秒) | 1:19 (79秒) |
400個 | 1:44 (104秒) | 1:36 (96秒) | 1:38 (98秒) | 1:39 (99秒) | |
800個 | 2:08 (128秒) | 1:58 (118秒) | 2:08 (128秒) | 2:04 (124秒) | |
Adobe PDF iFilter | 100個 | 2:30 (150秒) | 2:26 (146秒) | 2:20 (140秒) | 2:25 (145秒) |
400個 | 3:54 (234秒) | 4:12 (252秒) | 3:40 (220秒) | 3:55 (235秒) | |
800個 | 6:18 (378秒) | 6:15 (375秒) | 6:25 (385秒) | 6:19 (379秒) | |
Foxit PDF IFilter | 100個 | 1:34 (94秒) | 1:36 (96秒) | 1:30 (90秒) | 1:33 (93秒) |
400個 | 1:30 (90秒) | 1:40 (100秒) | 1:34 (94秒) | 1:34 (94秒) | |
800個 | 1:42 (102秒) | 1:44 (104秒) | 1:44 (104秒) | 1:43 (103秒) |
-----
クロール時間に関する考察とまとめです。
実際の運用環境では数千~数万、且つ、PDFファイル以外にも多種多様なファイルが登録されているでしょうから、ここで優劣を断言することは避けさせていただきます。
(残念ながらSharePoint 2013標準との比較ではないですが…)Foxit PDF IFilterのサイトでは、AdobeやTETと比較して「高速」であることがメリットとして謳われています。また海外のブログ/FAQなどを見てみても、SharePoint 2010の時分では、性能面でFoxitを採用しているケースがいくつか見受けられます。
今回の検証結果でも、大量および大きなサイズのPDFファイルを処理する場合において、Foxit PDF IFilter がより高い処理性能を発揮したことが見て取れます。PDFのクロールで期待する性能・品質が得られない場合、まず評価版のFoxit PDF IFilterを使ってみて改善するかを検証してみるのが一つの手だと思いご紹介いたしました。
※注:弊社は同製品の導入および販売はしておりません。製品のご質問は開発元にお問い合わせください。
-----
弊社(株式会社PFU)では、自社で培ったSharePoint&文書管理のノウハウと、SharePoint向けアドオンソリューション「ドキュメントソリューション for SharePoint」で、紙文書・電子データの積極的活用を実現するお手伝いをしています。ご興味のある方は、こちらからお問い合わせ下さい。
株式会社PFU)千葉辰典
© PFU LIMITED 2015
Microsoft、Windows、SharePoint、Excel、Word、PowerPoint、Outlookは、米国Microsoft Corporationの、米国、日本およびその他の国における登録商標または商標です。
PDF iFilterは、Adobe Systems Incorporated(アドビ システムズ社)の米国ならびに他の国における商標または登録商標です。
記載された会社名および製品名は各社の商標または登録商標です。
以上。